CN114364034A

CN114364034A - 基于drl的ris辅助用户中心化去蜂窝***中资源管理半并行方法

Info

Publication number: CN114364034A
Application number: CN202210006092.9A
Authority: CN
Inventors: 吕铁军; 崔莹萍; 黄平牧
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-15

Abstract

本发明提出了一种用于可重构智能表面(RIS)辅助用户中心化去蜂窝(UCCF)***中基于深度强化学习(DRL)的半并行方法。该方法将优化问题分解为两个迭代的子任务：接入点(AP)和用户设备(UE)关联(AUA)子任务与发射功率和RIS反射系数管理(PRCM)子任务。具体方法为，对整数非线性规划的AUA采用二进制粒子群优化(BPSO)算法；对于多连续变量联合优化的PRCM，提出了基于DRL的并行算法，采用双延迟深度确定性策略梯度(TD3)算法提高收敛性，并提出新的状态预处理机制。本发明采用基于DRL的半并行方法优化多个变量，克服了传统算法解决NP‑hard问题的局限，提高了精确度，同时智能化的方法面对环境变化时可以快速调整而不需要大量的先验知识。

Description

基于DRL的RIS辅助用户中心化去蜂窝***中资源管理半并行方法

技术领域

本发明设计了一种用于RIS辅助UCCF***的基于DRL的半并行联合优化方法。确切地说，该方案考虑了多变量(包括离散变量和连续变量)联合优化的复杂性，设计了一种基于DRL的半并行框架，并为神经网络的收敛采取了技巧。以最大化***可达速率为目标，联合优化AUA，UEs发射功率和RISs反射系数，属于基于人工智能的无线通信技术领域。

背景技术

近年来，随着无线通信和人工智能的发展，“万物智联”的概念被提出，以小区为中心的蜂窝***受限于边缘效应，已不能满足日益增加的***容量需求。CF***通过部署大量的分布式的APs服务于UEs，消除了小区边界的概念，提高了空间宏分集增益并减少了路径损耗，实现了更大的***容量。但是，APs和UEs分布不均匀，导致部分APs与UEs间距离较远，对其速率提升贡献较小，却增加了UEs能耗和CPU资源消耗。为了缓解该问题，UCCF***被提出。选择合适的APs服务于每个UE，降低硬件能耗，同时可以带来更高的***吞吐量。因此，高效的AUA技术对UCCF***性能的发挥至关重要。

APs的密集部署是提高CF网络吞吐量的有效方法，但同时也会带来能耗和部署成本的增加。RIS集成了大量低成本无源的超材料元件，通过适当调整各元件的反射系数，可以实现无源波束形成，增强接收信号的信干噪比。因此，RIS具有提高UCCF***的可达速率的潜力。目前可以证明RIS辅助CF***可以实现比传统CF网络更高的容量。然而RIS也给UCCF***带来了RIS反射系数矩阵优化的挑战，增加了算法的设计复杂度和收敛时间。

由于RIS辅助UCCF***变量间特性比较复杂，使用传统方法难以捕捉变量间的潜在影响，非线性搜索不可避免。另外采用传统算法求解多变量联合问题的效率和可靠性难以保证，阻碍了RIS辅助UCCF***潜力的发挥。近年来，基于学习的优化算法在求解复杂数学任务上表现突出，通过使用非线性模型自适应拟合输入和输出之间的策略来执行决策任务。DRL由于其无监督和迁移学习的特性，被认为是复杂环境下解决资源管理任务的一种可行方法。因此，在RIS辅助UCCF***中开发基于学习的智能优化算法具有重要意义。

发明内容

有鉴于此，本发明的目的是搭建一个RIS辅助UCCF***，在考虑UE最大传输功率、RISs反射系数模1和UEs的QoS等约束下，提供一种基于DRL的半并行联合优化方法，实现低复杂度高效率的RIS辅助UCCF***下的资源管理，主要包括AUA优化、UEs发射功率控制以及RISs反射系数管理。考虑一个UCCF***中，M个单天线APs依据AUA原则服务于K个单天线UEs(M＞K)，其中APs和UEs之间通过J个有N个元素的RISs作为补充链路，改善通信质量。AP端采用匹配滤波接收的方式解调UE信息。在此基础上，通过基于DRL的半并行优化框架求解***的可达速率。

所述方法包括下列三个操作步骤：

(1)基于RIS辅助UCCF上行***最大化***可达速率的联合优化框架设计：以最大化RIS辅助UCCF上行***最大化***可达速率为目标，在UE最大传输功率、RISs反射系数模1、UEs的QoS和AUA关联原则的约束下联合优化AUA，UEs传输功率和RISs反射系数(一个离散变量和两个连续变量)。为了降低算法训练复杂度，将UE-RIS和RIS-AP间的信道转化为等效的间接信道。AP-UE间总的等效信道为：

其中h_mk为UE k与AP m间的直连信道，h_mjnk为UE k与AP m间通过RIS j上第n个元素反射的等效信道，

为RIS j上第n个元素的反射系数。假设该***中，每个AP只能服务于一个UE，每个UE至少被一个AP服务。AUA为

由元素λ_mk组成。若λ_mk＝1表示AP m服务于UE k；否则AP m不服务于UE k。在上行导频估计阶段，通过逐一开关RIS元素的方式，利用最小均方误差估计子进行信道估计，可得h_mk和h_mjnk的估计信道：

其中

和

是莱斯信道中的LoS分量，

和

为NLoS分量。

和

为估计系数，

是UE k发送的上行导频功率，β_mk和β_mjk是大尺度衰落系数，

为加型噪声。通过匹配滤波，AP m仅解调其服务的UE，并送往CPU进行UE信息的合并，UE k上行链路的信干噪比(SINR)为：

以最大化***可达速率和为目标的资源管理问题可以建模为：

s.t.C1:0≤p_k≤p_k,max，

其中p_k,max为UE k最大发射功率，

为UE k的最低速率。

(2)基于用户中心化的AUA设计：基于环境信息和PRCM结果，更新AUA模块的输入，利用BPSO算法执行AUA矩阵的优化。每个epoch只需配置一次AUA(AUA和PRCM模块一次完整的迭代为一个epoch)。

(21)基于初次迭代的初始化或者PRCM模块输出的功率-相移联合动作a＝(a^p,a^R)，建立BPSO算法的模型寻找AUA矩阵的最优解。首先根据初始化信息计算出当前初始化的每个粒子个体最优位置pbest_i和群体最优位置gbest及其对应的适应值

和gbest^f。若为第一个epoch，需初始化gbest^f和联合动作a，否则gbest^f为PRCM模块中最大的回报值r^opt，a＝a^opt为最大回报对应的联合动作。

(22)根据目标函数和约束，粒子x_id的适应度函数为：

其中，K′为不满足约束C6的UE数目与不满足约束C4的AP数目和，A_a是一个常系数。在每次迭代中根据适应度函数更新粒子的速度和位置，并更新个体最优pbest_i和适应值

以及全局最优gbest和适应值gbest^f。速度更新公式为：

v_id＝ω·v_id+c₁·rand()·(pbest_i-x_id)+c₂·rand()·(gbest-x_id).

通过sigmiod函数，将速度映射到0-1之间：

rand()为产生一个0-1间随机数的函数。若rand()≤s(v_id)，则x_id＝1，否则x_id＝0。由此更新位置。

(23)重复步骤(22)，将适应值收敛后输出的全局最优粒子的位置视为当前最优的关联矩阵的解。

(24)判断此时AUA是否满足约束C3-C5，若满足则输出给PRCM模块，作为当前epoch中静态状态，参与环境中回报的计算；若不满足约束，利用当前的个体最优于群体最优位置和适应值，重复进行步骤(22)，(23)，直至满足约束输出AUA。

(3)基于DRL的PRCM并联优化框架设计：基于AUA结果和静态环境信息，采用由两个并联的DRL的智能优化框架与环境进行交互，更新神经网络参数，输出UEs传输功率和RISs相移联合动作。

(31)为了有效优化两个不同取值范围、不同分布的两个优化变量，我们将其分解为两个子模块：功率学习(PL)子模块和反射系数学习(RCL)子模块。将其建模为马尔科夫过程，

其中，

为状态空间；

为动作空间；

为状态转移概率，

t为当前时刻；

为回报函数；γ∈[0,1)为回报折扣因子。PL和RCL子模块共用同一个记忆回放库，状态空间与回报函数相同，动作空间、网络策略以及折扣因子独立。

(32)首先，利用RIS辅助UCCF的通信***中CSI、SINR、用户传输功率等信息建模环境、动作、状态、奖励。在t时刻，PL输出的功率动作

RCL输出RISs元素的相移动作

联合动作

为了降低输入数据空间大小，将状态分为静态状态和动态状态：

静态状态

在训练过程中保持不变。动态数据

中存在数据的冗余，另外AUA结果Λ在每个epoch中保持不变，每个epoch将更新的Λ输入进PRCM模块参与环境中奖励计算，因此，神经网络实际的输入状态为

根据目标函数、约束和BPSO的适应度函数，回报函数定义为：

其中K_L为不满足约束C6的UE数目，A_L＝A_a＝A为常系数。

(33)PL和RCL子模块中分别搭建一个TD3网络。智能体与环境交互获得当前时刻的实际动态状态信息，输入到PL和RCL网络执行当前策略，得到联合动作。在环境中进行运算，得到当前状态下执行该动作所获得的回报和下一时刻的状态，将(s,a,r,s′)存入经验回放库。

(34)在经验回放库中通过小批次采样的方法采样数据，注意：PL子模块和RCL子模块分别取样，并在联合动作中分离出自己的动作，更新各自的网络参数。目标critic网络的动作为：

为策略网络平滑噪声。TD3利用双Q网络结构抑制DDPG的过估计：

估计critic网络参数的更新策略为：

采用确定性策略梯度的方式更新估计actor网络参数：

目标actor和目标critic网络通过软更新的方式更新参数。

(35)重复步骤(33)-(34)，直到一个epoch完成。将最大回报和最大回报对应的联合动作，输入给(2)中所述的AUA模块。

(4)根据预先设计的迭代策略，迭代(2)，(3)，直至PRCM模块的奖励收敛。

本发明中，为了提高UCCF***的可达速率，提出了RIS辅助UCCF***，开发了一种基于DRL的半并行的优化方法。该算法可以解决传统优化方法难以解决的多数据类型、多取值分布的多个变量联合优化问题，并设计了训练的技巧，降低了数据处理量和训练的复杂度，提高了神经网络的收敛速度和稳定性。提出的问题***可达速率最大化问题是一个复杂的NP-hard问题，并且同时包含一个离散变量和两个连续变量，完全的基于DRL的算法训练难以收敛，复杂度高，难以获得全局最优解。为此，我们根据变量类型将其分解为AUA和PRCM两个子任务。在AUA子任务中，采用BPSO针对二进制离散变量AUA求解最优解，在PRCM子任务中，采用并联的DRL智能算法，联合求解UEs发射功率和RISs相移两个连续变量的最优解。本发明可以提升RIS辅助UCCF***的上行可达速率，同时降低的训练的复杂度并提高了神经网络的收敛性能。

附图说明

图1是本发明的应用场景：RIS辅助UCCF上行传输***模型图。

图2是本发明中基于DRL的半并行算法的流程图。

图3是本发明实施例中，不同学习率下该算法的收敛图。

图4是本发明实施例中，RIS辅助UCCF***中，不同算法在不同UE最大发射功率下的***可达速率和的曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，本发明的应用场景是：配备单天线的多个APs和UEs之间经过多个RISs增强通信。采用经典RIS辅助的CF***信道模型：UE到RIS，RIS到AP以及UE到AP的信道都服从莱斯衰落，其中LoS分量和大尺度衰落系数是已知的，且在一个时间帧中维持不变；NLoS分量需要通过上行信道估计得出。假设每次完整的通信都在相关时间内进行，使用正交的导频序列在AP处进行上行信道估计，然后进行上行数据的传输。每个AP利用估计信息，通过匹配滤波的方式，解调其服务的UE的数据信息。在CPU处完成UE数据信息的合并，可得UEs的速率和。利用基于DRL的半并联算法，联合优化AUA、UEs上行传输功率和RISs相移。

我们的目标是最大化RIS辅助UCCF***上行链路的***可达速率。首先构建的问题是复杂的NP-hard问题，难以通过传统优化算法求解。由于优化变量包含取值范围不同的离散变量和多个连续变量，直接利用DRL算法难以收敛。在基于DRL的半并行算法中，将优化任务分解为AUA和PRCM两个子任务。针对AUA子任务，通过BPSO迭代算法求解最优的AUA，将其输入到PRCM模块。针对PRCM子任务，我们将其转化为马尔科夫决策过程，并考虑到功率和相移的取值分布不均，开发了一种并行的DRL算法。为了提高算法的收敛性，采用了先进的TD3算法，并设计了使神经网络训练稳定的技巧，以其低复杂度，快收敛的优势，学习功率和相移的输出策略。

为了展示本发明的实用性，申请人进行了多次仿真实施试验。试验***中的传输***模型为图1所示的应用场景，仿真试验的结果如图3和图4所示。在图4的基准方案中，我们展示了不同算法在不同的UE最大发射功率下的***可达速率和的曲线图。

以上所述仅为本发明的较佳实例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改，等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.本发明提供了一种在RIS辅助的UCCF上行传输***中用于求解最优AUA、UEs发射功率以及RISs反射系数的智能算法框架，用于以下场景：AP和UE间的通信由RIS辅助增强；其中AP负责收集信道估计信息(CSI)并进行信道估计，且导频之间是互相正交的；中央处理单元(CPU)根据上行***和速率进行AUA矩阵优化，CPU处的智能体进行用户发射功率和RIS相移配置。

(11)基于RIS辅助UCCF上行***最大化***可达速率的联合优化框架设计：以AUA，UEs传输功率和RISs反射系数(一个离散变量和两个连续变量)为优化变量，建立联合优化任务。首先将该任务解耦为AUA和PRCM两个子任务。

(12)基于用户中心化的AUA设计：基于环境信息和PRCM结果，更新AUA模块的输入，利用二进制粒子群优化(BPSO)算法执行AUA矩阵的优化。

(13)基于DRL的PRCM并联优化框架设计：基于AUA结果和静态环境信息，采用由两个并联的DRL的智能优化框架与环境进行交互，更新神经网络参数，输出用户传输功率和RISs反射系数动作。

(14)根据预先设计的迭代策略，迭代(2)，(3)，直至PRCM模块的奖励收敛。

2.根据权利要求1所述的方法，所述步骤(1)中，基于用户中心化的AUA设计包括下列的操作内容：

(21)基于初次迭代的初始化或者PRCM模块输出的功率-相移联合动作，建立BPSO算法的模型寻找AUA矩阵的最优解。首先根据初始化信息计算出当前初始化的每个粒子个体最优和全局最优粒子的位置及其对应的适应值。

(22)在每次迭代中根据适应度函数更新粒子的位置和速度，每轮迭代后，更新每个粒子个体最优位置和适应值以及粒子群的全局最优的位置和适应值。

(24)判断此时关联矩阵是否满足约束，若满足约束输出给PRCM模块，若不满足约束，重复进行(22)，(23)，直至满足约束输出。

3.根据权利要求1所述的方法，所述步骤(3)进一步包括下列操作内容：

(31)为了有效解决两个不同取值范围、不同分布的的两个优化变量，我们将其分解为两个子模块：功率学习(PL)子模块和反射系数学习(RCL)子模块。将其建模为两个半独立的马尔科夫过程

(32)首先，利用RIS辅助UCCF的通信***中CSI、SINR、用户传输功率等信息建模环境、动作、状态、奖励。

(33)PL和RCL子模块中分别搭建一个TD3网络。智能体与环境交互获得当前时刻的状态，输入到PL和RCL网络执行当前策略，得到联合动作。在环境中进行运算，得到当前状态下执行该动作所获得的回报和下一时刻的状态，存入经验回放库。

(34)PL和RCL分别在经验回放库中通过小批次采样的方法采样数据，根据预先设计好的更新策略，更新网络参数。

(35)重复步骤(33)-(34)，直到奖励收敛。将此时的动作分解为用户功率和RIS反射系数，输入给(2)中所述的AUA模块。