CN115395993A - 一种可重构智能表面增强的miso-ofdm传输方法 - Google Patents

一种可重构智能表面增强的miso-ofdm传输方法 Download PDF

Info

Publication number
CN115395993A
CN115395993A CN202210424495.5A CN202210424495A CN115395993A CN 115395993 A CN115395993 A CN 115395993A CN 202210424495 A CN202210424495 A CN 202210424495A CN 115395993 A CN115395993 A CN 115395993A
Authority
CN
China
Prior art keywords
network
action
matrix
time
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210424495.5A
Other languages
English (en)
Inventor
李潇
黄文婷
金石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210424495.5A priority Critical patent/CN115395993A/zh
Publication of CN115395993A publication Critical patent/CN115395993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • H04B17/3911Fading models or fading generators
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种可重构智能表面增强的MISO‑OFDM传输方法,该方法中基站和可重构智能表面利用已知的信道状态信息,基于***频谱效率最大化原则,在用户间共享子载波的前提下,通过迫零预编码方案、注水功率分配算法和深度强化学习算法联合设计基站端预编码矩阵、功率分配矩阵和可重构智能表面处反射相移矩阵。该传输方法中基站发送的信号经可重构智能表面反射到达用户端,可重构智能表面能改变入射到其上的信号的相位,从而达到在接收用户端增强其接收信号的效果。本发明收敛速度快,以相对传统数值方法较低的计算复杂度和时延获得较高的***吞吐量。

Description

一种可重构智能表面增强的MISO-OFDM传输方法
技术领域
本发明属于可重构智能表面辅助的多用户多输入单输出正交频分复用(multiple-input single-output orthogonal frequency division multiplexing,MISO-OFDM)下行***自适应传输技术领域,特别涉及一种可重构智能表面增强的MISO-OFDM传输方法。
背景技术
可重构智能表面(reconfigurable intelligent surface,RIS)得益于超材料的快速发展被视为新一代无线通信中可以低成本和低能量消耗获得高频谱效率的关键技术之一。RIS是一种由大量无源且可重构的反射元件组成的软件可控的平面阵列超表面,通过实时动态调整反射信号的幅度和/或相位,反射信号能量在特定方向被加强或减弱,因而目标用户的信噪比性能被极大改善,同时用户间干扰可得到有效控制。此外,RIS仅依赖于无源信号的反射,因此与传统的有源收发器/继电器相比,大大降低了硬件成本和能耗。同时,RIS在实际部署中易附接到建筑物上,展现出极大的灵活性和兼容性。将具有适量反射元件的RIS部署到大规模多输入多输出(multiple-input multiple-output,MIMO)***中可有效解决基站物理尺寸受限、硬件成本过高以及能量消耗过大等问题。除此以外,RIS可在毫米波(millimeter wave,mmWave)信号被障碍物阻塞时提供反射径以维持设备间的正常通信,扩大设备覆盖范围。综上可见,RIS的引入为实现通信服务质量提升以及部署开销缩减的双赢目标提供了可能性。
然而,实际部署的RIS反射元件数量一般是从几千个到几万个变化且RIS处存在恒模约束,因而如何在RIS辅助的无线通信***中通过联合设计提高通信性能是一个多任务问题。传统设计方法有逐次凸逼近和半正定松弛算法等,这些传统算法在RIS反射元件数量较少时可以显示出较好的性能,但随着反射元件数目的增长,导致***复杂度过高,且会引入较大的通信处理时延而无法满足实时通信的需求。若将这些传统数值算法应用于宽带***,则设计复杂度进一步提高,这主要归因于宽带***中各子载波信道不一致,单个子载波信道的最优设计对于其他子载波将不再是最优,这就需要具有低时间成本和高性能的联合设计算法来进一步解决这些问题。
现有针对RIS处反射矩阵设计的低复杂度算法的研究主要是基于对RIS处反射模式的设计或使用深度学习方法,RIS处反射模式的设计需要基于多次信道试验才能获得最佳模式,深度学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感。这些方法是以牺牲一定的***性能来换取时间复杂度的下降,无法实现双赢目标,实际应用困难。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种可重构智能表面增强的MISO-OFDM传输方法,为基站配置均匀线性阵列,部署多个单天线用户并放置RIS提升通信服务质量,在用户间共享频域资源时采用迫零预编码方案消除用户间干扰,并进一步利用注水算法和深度强化学习算法联合设计发射功率向量和RIS处相移偏置矩阵以最大化***频谱效率。本发明能够有效抑制干扰,降低所需时间成本且对信道衰落变化具有很好的稳定性。
技术方案:为实现上述发明目的,本发明的一种可重构智能表面增强的MISO-OFDM传输方法,包括以下步骤:
步骤一、基站配置均匀线性天线阵,该天线阵包括Nt个天线阵元,服务K个单天线用户,可重构智能表面配置均匀平面反射阵,共M=x×y个反射单元,包括垂直方向x行反射单元,水平方向每行y个反射单元;***整体带宽被划分为N个子载波,K个单天线用户共享全部子载波,基站和可重构智能表面已知用户的时域信道状态信息;
步骤二、利用时域信道状态信息构建从基站到用户k的频域子载波信道i上的向量
Figure BDA0003607028970000021
从可重构智能表面到用户k的频域子载波信道i上的向量
Figure BDA0003607028970000022
和从基站到可重构智能表面的频域子载波信道i上的矩阵Gi,k=1,2,…,K,i=0,1,…,N-1;
步骤三、构建智能体X的经验池及深度强化学习神经网络,包括:动作输出在线网络A、动作输出目标网络
Figure BDA0003607028970000023
状态动作评价在线网络Cρ,ρ=1,2,即C1和C2,以及状态动作评价目标网络
Figure BDA0003607028970000024
Figure BDA0003607028970000025
Figure BDA0003607028970000026
所述动作输出在线网络A和动作输出目标网络
Figure BDA0003607028970000027
构成智能体X的动作网络;所述状态动作评价在线网络C1和C2以及状态动作评价目标网络
Figure BDA0003607028970000028
Figure BDA0003607028970000029
构成智能体X的评价网络;
智能体X在t时刻的环境状态为
Figure BDA00036070289700000210
其中
Figure BDA00036070289700000211
为智能体X在t-1时刻输出的可重构智能表面各个反射元件的相移参数,C(t-1)是t-1时刻的***频谱效率,环境输出奖励值r(t)评价动作输出在线网络A在当前状态s(t)下输出的动作;
步骤四、随机初始化动作输出在线网络A的网络参数
Figure BDA00036070289700000219
及状态动作评价在线网络Cρ的网络参数
Figure BDA00036070289700000212
并令动作输出目标网络
Figure BDA00036070289700000213
的网络参数
Figure BDA00036070289700000214
和状态动作评价目标网络
Figure BDA00036070289700000215
的网络参数
Figure BDA00036070289700000216
分别满足
Figure BDA00036070289700000217
Figure BDA00036070289700000218
初始化单次随机采样数量NB;初始化t=0;可重构智能表面在t=0时刻的相移矩阵
Figure BDA0003607028970000031
中的各个相移参数从[-π,π]中随机选取;
计算得到t=0时刻的***频谱效率C(0)
令t=t+1,得到t时刻的环境状态
Figure BDA0003607028970000032
步骤五、将t时刻的环境状态s(t)作为动作输出在线网络的输入,计算得到t时刻的可重构智能表面的相移偏置矩阵Φ(t)、子载波i上的基站端预编码矩阵
Figure BDA0003607028970000033
和基站端发射功率向量
Figure BDA0003607028970000034
以及t+1时刻的环境状态
Figure BDA0003607028970000035
且t时刻的***频谱效率C(t)作为环境输出奖励值r(t);将最终得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本;
步骤六、智能体X将状态动作对(s(t),a(t))输入状态动作评价在线网络C1和C2中,输出状态动作对(s(t),a(t))的评价值
Figure BDA0003607028970000036
Figure BDA0003607028970000037
其中,
Figure BDA0003607028970000038
Figure BDA0003607028970000039
表示状态动作评价在线网络C1和C2的状态动作对的评价值函数;
随后从经验池随机采样NB个样本,随机采样按如下步骤进行:
若t≥NB,则从经验池D中随机选择NB个样本
Figure BDA00036070289700000310
其中每个样本均为学习过程中存入经验池中的四元组,进入步骤七;若t<NB,则不采样并令t=t+1,转到步骤五;
步骤七、利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|C(t)-C(t-1)|≤ε,
Figure BDA00036070289700000311
是网络收敛条件,则停止迭代转到步骤八,否则令t=t+1并转到步骤五;
步骤八、将当前时刻t所得的可重构智能表面的相移偏置矩阵Φ(t),用户共享子载波时各子载波i上的基站端预编码矩阵
Figure BDA00036070289700000312
和基站端发射功率向量
Figure BDA00036070289700000313
作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵Φopt,以及相应的最佳基站预编码方案和功率分配方案。
进一步的,步骤一所述时域信道状态信息包括:
基站到用户k的时域块循环信道矩阵
Figure BDA00036070289700000314
表示为:
Figure BDA0003607028970000041
其中,
Figure BDA0003607028970000042
是基站到用户k的具有L0个抽头的直接路径时域基带等效多径信道矩阵,
Figure BDA0003607028970000043
(·)T表示转置,(·)H表示共轭转置;
从基站到可重构智能表面的时域块循环信道矩阵
Figure BDA0003607028970000044
表示为:
Figure BDA0003607028970000045
其中,
Figure BDA0003607028970000046
为基站到可重构智能表面的具有L1个抽头的时域等效多径信道矩阵,
Figure BDA0003607028970000047
从可重构智能表面到用户k的时域块循环矩阵
Figure BDA0003607028970000048
表示为:
Figure BDA0003607028970000049
其中,
Figure BDA0003607028970000051
是可重构智能表面到用户k的具有L2个抽头的时域等效多径信道矩阵,
Figure BDA0003607028970000052
进一步的,步骤二所述构建从基站到用户k的频域子载波信道i上的向量
Figure BDA0003607028970000053
从可重构智能表面到用户k的频域子载波信道i上的向量
Figure BDA0003607028970000054
和从基站到可重构智能表面的频域子载波信道i上的矩阵Gi,具体包括以下步骤:
步骤2.1、按下式计算中间矩阵
Figure BDA0003607028970000055
Figure BDA0003607028970000056
Figure BDA0003607028970000057
Figure BDA0003607028970000058
Figure BDA0003607028970000059
其中,
Figure BDA00036070289700000510
表示矩阵
Figure BDA00036070289700000511
的第n列向量,
Figure BDA00036070289700000512
表示矩阵
Figure BDA00036070289700000513
的第nt+(n-1)×Nt列向量,
Figure BDA00036070289700000514
表示矩阵
Figure BDA00036070289700000515
的第p行第q列元素,
Figure BDA00036070289700000516
表示矩阵
Figure BDA00036070289700000517
的第m+(p-1)×M行第nt+(q-1)×Nt列元素,
Figure BDA00036070289700000518
表示矩阵
Figure BDA00036070289700000519
的第n列向量,
Figure BDA00036070289700000520
表示矩阵
Figure BDA00036070289700000521
的第m+(n-1)×M列向量,n,p,q=1,2,…,N;
步骤2.2、利用
Figure BDA00036070289700000522
Figure BDA00036070289700000523
计算过渡对角矩阵:
Figure BDA00036070289700000524
Figure BDA00036070289700000525
其中,
Figure BDA00036070289700000526
是归一化的离散傅里叶变换矩阵,其第Nrow行第Ncol列元素为
Figure BDA00036070289700000527
Figure BDA00036070289700000528
步骤2.3、按下式构建向量
Figure BDA00036070289700000529
和矩阵Gi
Figure BDA00036070289700000530
Figure BDA00036070289700000531
Figure BDA00036070289700000532
其中,
Figure BDA00036070289700000533
表示向量
Figure BDA00036070289700000534
的第nt个元素,
Figure BDA00036070289700000535
表示矩阵
Figure BDA00036070289700000536
的第i+1行第i+1列元素,
Figure BDA0003607028970000061
表示向量
Figure BDA0003607028970000062
的第m个元素,
Figure BDA0003607028970000063
表示矩阵
Figure BDA0003607028970000064
的第i+1行第i+1列元素,Gi(m,nt)表示矩阵Gi的第m行第nt列元素,
Figure BDA0003607028970000065
表示矩阵
Figure BDA0003607028970000066
的第i+1行第i+1列元素,nt=1,2,…,Nt,m=1,2,…,M,(·)*表示共轭。
进一步的,步骤四所述计算得到t=0时刻的***频谱效率C(0),具体包括以下步骤:
步骤4.1、计算t=0时刻可重构智能表面的相移偏置矩阵:
Figure BDA0003607028970000067
其中,
Figure BDA0003607028970000068
是以
Figure BDA0003607028970000069
为对角元的对角矩阵;
步骤4.2、采用迫零预编码方法计算t=0时刻子载波i上的基站端预编码矩阵
Figure BDA00036070289700000610
其中
Figure BDA00036070289700000611
是子载波i上对应于用户k的预编码向量,利用下式计算:
Figure BDA00036070289700000612
其中,
Figure BDA00036070289700000613
表示矩阵
Figure BDA00036070289700000614
的第k列,
Figure BDA00036070289700000615
表示伪逆,
Figure BDA00036070289700000616
||·||表示Frobenius范数;
步骤4.3、t=0时刻子载波i上的基站端发射功率向量
Figure BDA00036070289700000617
利用下式计算子载波i上对应于用户k的发射功率
Figure BDA00036070289700000618
Figure BDA00036070289700000619
其中,(x)+=max(0,x),
Figure BDA00036070289700000620
为噪声功率,注水参数
Figure BDA00036070289700000621
满足
Figure BDA00036070289700000622
Pt为基站总发射功率;
步骤4.4、用下式计算在t=0时刻的***频谱效率C(0),并作为环境输出奖励值r(0)
Figure BDA00036070289700000623
其中,NCP为循环前缀以避免正交频分复用(orthogonal frequency divisionmultiplexing,OFDM)符号间干扰,
Figure BDA0003607028970000071
为t=0时刻用户k在子载波i上的信噪比,如下式所示:
Figure BDA0003607028970000072
进一步的,所述步骤五具体包括以下步骤:
步骤5.1、将t时刻的环境状态s(t)作为动作输出在线网络的输入,该网络输出t时刻的动作
Figure BDA00036070289700000717
其中πA(·)为动作输出在线网络的策略函数;
进而得到智能体X的动作
Figure BDA0003607028970000073
其中,
Figure BDA0003607028970000074
为服从标准正态分布的探索噪声,且将a(t)的M个元素作为当前t时刻可重构智能表面反射元件的相移参数;
步骤5.2、基于动作a(t)计算可重构智能表面的相移偏置矩阵:
Figure BDA0003607028970000075
步骤5.3、t时刻在子载波i上的基站端预编码矩阵
Figure BDA0003607028970000076
其中
Figure BDA0003607028970000077
是t时刻子载波i上对应于用户k的预编码向量,采用下式计算:
Figure BDA0003607028970000078
其中,
Figure BDA0003607028970000079
表示矩阵
Figure BDA00036070289700000710
的第k列,
Figure BDA00036070289700000711
步骤5.4、t时刻在子载波i上基站端发射功率向量
Figure BDA00036070289700000712
其中t时刻子载波i上对应于用户k的发射功率采用下式计算:
Figure BDA00036070289700000713
其中,
Figure BDA00036070289700000714
注水参数λ满足
Figure BDA00036070289700000715
步骤5.5、t时刻的***频谱效率C(t)用下式计算,同时作为环境输出奖励值r(t)
Figure BDA00036070289700000716
其中,
Figure BDA0003607028970000081
为t时刻用户k在子载波i上的信噪比,用下式计算:
Figure BDA0003607028970000082
步骤5.6、得到t+1时刻的状态
Figure BDA0003607028970000083
步骤5.7、将得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。
进一步的,步骤七所述利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,具体包括以下步骤:
步骤7.1、将所采的NB个样本的状态动作对输入状态动作评价目标网络
Figure BDA0003607028970000084
Figure BDA0003607028970000085
得到相应的状态动作对的价值函数估计值
Figure BDA0003607028970000086
Figure BDA0003607028970000087
其中,
Figure BDA0003607028970000088
Figure BDA0003607028970000089
分别是动作状态评价目标网络
Figure BDA00036070289700000810
Figure BDA00036070289700000811
的状态动作对评价值函数,每个样本
Figure BDA00036070289700000812
为经验池存储的第tj个时刻的样本四元组;
按照贝尔曼方程(Bellman Equation)计算得到价值函数目标值
Figure BDA00036070289700000813
其中,γ∈(0,1)为奖励函数的折扣因子,
Figure BDA00036070289700000814
为动作输出目标网络
Figure BDA00036070289700000815
根据
Figure BDA00036070289700000816
产生的动作,
Figure BDA00036070289700000817
是动作输出目标网络
Figure BDA00036070289700000818
的策略函数,
Figure BDA00036070289700000819
是通过对噪声功率为
Figure BDA00036070289700000820
的正态分布随机噪声按输出动作维度进行采样并按比例放缩在(-c,c)范围内产生的,
Figure BDA00036070289700000821
是噪声截断上限值;
步骤7.2、计算所采NB个样本的均方误差作为状态动作评价在线网络Cρ的损失函数:
Figure BDA00036070289700000822
通过令状态动作评价在线网络Cρ的输出
Figure BDA00036070289700000823
与目标值
Figure BDA00036070289700000824
间的均方误差值尽可能小,不断更新状态动作评价在线网络Cρ的网络参数
Figure BDA00036070289700000825
步骤7.3、当时刻t为网络更新间隔时刻Nu的整数倍时,对动作输出在线网络A的网络参数
Figure BDA00036070289700000826
利用下式进行更新:
Figure BDA0003607028970000091
其中,
Figure BDA00036070289700000915
是NB个样本的动作输出在线网络A的累计价值函数;
并对动作输出目标网络
Figure BDA0003607028970000092
和状态动作评价目标网络
Figure BDA0003607028970000093
的网络参数
Figure BDA0003607028970000094
Figure BDA0003607028970000095
进行软更新:
Figure BDA0003607028970000096
Figure BDA0003607028970000097
其中,τ<<1为软更新参数。
进一步的,所述动作输出在线网络A、动作输出目标网络
Figure BDA0003607028970000098
状态动作评价在线网络Cρ,ρ=1,2,和状态动作评价目标网络
Figure BDA0003607028970000099
包含四个全连接层:输入层、两个隐藏层和输出层,隐藏层都使用ReLU激活函数,其中动作输出目标网络和动作输出在线网络的输出层使用tanh激活函数。
进一步的,步骤四所述动作输出在线网络A的网络参数
Figure BDA00036070289700000916
动作输出目标网络
Figure BDA00036070289700000910
的网络参数
Figure BDA00036070289700000911
状态动作评价在线网络Cρ的网络参数
Figure BDA00036070289700000912
和状态动作评价目标网络
Figure BDA00036070289700000913
的网络参数
Figure BDA00036070289700000914
包括全连接层的权重和偏置。
有益效果:与现有技术相比,本发明具有以下有益效果:
1)本方法对信道快衰落具有很好的鲁棒性,适用于各种典型的无线通信环境;
2)本方法中的基站端预编码矩阵、发射功率向量和RIS处相移偏置矩阵联合设计方法收敛速度快、易于实现,特别是在用户数和天线数较大的时候,本方法的计算效率与传统的计算方法相比提高了数倍;
3)本方法能以较低的时间成本获得较高的***频谱效率。
附图说明
图1是本发明方法利用深度强化学习智能体优化RIS相移偏置矩阵的网络框架图;
图2是本发明智能体中动作输出网络和状态动作评价网络的网络结构图。
具体实施方式
下面结合说明书附图以及具体实施例对本发明作更进一步的说明。
本发明的一种可重构智能表面增强的MISO-OFDM传输方法,考虑一个RIS辅助的多用户MISO-OFDM***中,基于频谱效率最大化准则,联合设计基站端预编码矩阵、发射功率向量以及RIS反射相移偏置矩阵,框架如图1所示,包括以下步骤:
步骤一、基站配置均匀线性天线阵,该天线阵包括Nt=8个天线阵元,服务K=2个单天线用户,可重构智能表面配置均匀平面反射阵,共M=x×y=10×10个反射单元,包括垂直方向x=10行反射单元,水平方向每行y=10个反射单元;***整体带宽被划分为N=64个子载波,K=2个单天线用户共享全部子载波,基站和可重构智能表面已知用户的信道状态信息;
所述时域信道状态信息包括:
Figure BDA0003607028970000101
为基站到用户k的时域块循环信道矩阵,如下式所示:
Figure BDA0003607028970000102
其中,
Figure BDA0003607028970000103
是基站到用户k,的具有L0=16个抽头的直接路径时域基带等效多径信道矩阵,
Figure BDA0003607028970000104
表示转置,(·)H表示共轭转置;
Figure BDA0003607028970000105
为从基站到可重构智能表面的时域块循环信道矩阵,如下式所示:
Figure BDA0003607028970000106
其中,
Figure BDA0003607028970000107
为基站到可重构智能表面的具有L1=4个抽头的时域等效多径信道矩阵,
Figure BDA0003607028970000108
Figure BDA0003607028970000109
为从可重构智能表面到用户k的时域块循环矩阵,如下式所示:
Figure BDA0003607028970000111
其中,
Figure BDA0003607028970000112
是可重构智能表面到用户k的具有L2=13个抽头的时域等效多径信道矩阵,
Figure BDA0003607028970000113
步骤二、利用步骤一获得的时域信道状态信息采用下述方法构建从基站到用户k的频域子载波信道i上的向量
Figure BDA0003607028970000114
从可重构智能表面到用户k的频域子载波信道i上的向量
Figure BDA0003607028970000115
和从基站到可重构智能表面的频域子载波信道i上的矩阵Gi,k=1,2,i=0,1,…,63:
步骤2.1、按下式计算中间矩阵
Figure BDA0003607028970000116
Figure BDA0003607028970000117
使得
Figure BDA0003607028970000118
Figure BDA0003607028970000119
Figure BDA00036070289700001110
其中,
Figure BDA00036070289700001111
表示矩阵
Figure BDA00036070289700001112
的第n列向量,
Figure BDA00036070289700001113
表示矩阵
Figure BDA00036070289700001114
的第nt+(n-1)×8列向量,
Figure BDA00036070289700001115
表示矩阵
Figure BDA00036070289700001116
的第p行第q列元素,
Figure BDA00036070289700001117
表示矩阵
Figure BDA00036070289700001118
的第m+(p-1)×100行第nt+(q-1)×8列元素,
Figure BDA00036070289700001119
表示矩阵
Figure BDA00036070289700001120
的第n列向量,
Figure BDA00036070289700001121
表示矩阵
Figure BDA00036070289700001122
的第m+(n-1)×100列向量,n,p,q=1,2,…,64;
步骤2.2、利用
Figure BDA00036070289700001123
Figure BDA00036070289700001124
计算过渡对角矩阵
Figure BDA00036070289700001125
Figure BDA00036070289700001126
其中,
Figure BDA00036070289700001127
是归一化离散傅里叶变换矩阵(discrete fourier transform,DFT),其第Nrow行第Ncol列元素为
Figure BDA00036070289700001128
(·)H表示共轭转置;
步骤2.3、按下式构建向量
Figure BDA0003607028970000121
和矩阵Gi
Figure BDA0003607028970000122
Figure BDA0003607028970000123
Figure BDA0003607028970000124
其中,
Figure BDA0003607028970000125
表示向量
Figure BDA0003607028970000126
的第nt个元素,
Figure BDA0003607028970000127
表示矩阵
Figure BDA0003607028970000128
的第i+1行第i+1列元素,
Figure BDA0003607028970000129
表示向量
Figure BDA00036070289700001210
的第m个元素,
Figure BDA00036070289700001211
表示矩阵
Figure BDA00036070289700001212
的第i+1行第i+1列元素,Gi(m,nt)表示矩阵Gi的第m行第nt列元素,
Figure BDA00036070289700001213
表示矩阵
Figure BDA00036070289700001214
的第i+1行第i+1列元素,nt=1,2,…,8,m=1,2,…,100,(·)*表示共轭。
步骤三、如图1所示,构建智能体X的经验池及深度强化学习神经网络,包括:动作输出在线网络A、动作输出目标网络
Figure BDA00036070289700001215
状态动作评价在线网络Cρρ=1,2即C1和C2,以及状态动作评价目标网络
Figure BDA00036070289700001216
Figure BDA00036070289700001217
Figure BDA00036070289700001218
所述动作输出在线网络A和动作输出目标网络
Figure BDA00036070289700001219
构成智能体X的动作网络;所述状态动作评价在线网络C1和C2和状态动作评价目标网络
Figure BDA00036070289700001220
Figure BDA00036070289700001221
构成智能体X的评价网络;
动作网络和评价网络都包含四个全连接层:输入层、两个隐藏层和输出层,动作网络的输入层包含101神经元,两层隐藏层分别包含300、400个神经元,输出层包含100个神经元;评价网络的输入层均包含201个神经元,两个隐藏层的神经元个数与动作网络一致,输出层包含1个神经元;隐藏层使用ReLU激活函数,动作输出在线网络和动作输出目标的输出层使用tanh激活函数,如图2所示。
所述智能体X在t时刻的环境状态为
Figure BDA00036070289700001222
其中
Figure BDA00036070289700001223
为智能体X在t-1时刻输出的可重构智能表面各个反射元件的相移参数,C(t-1)是t-1时刻的***频谱效率,环境输出奖励值r(t)评价动作输出在线网络A在当前状态s(t)下输出的动作;
所述动作输出在线网络A,其网络参数
Figure BDA00036070289700001226
每隔Nu=2个时刻利用策略梯度上升更新网络,Nu为网络更新间隔时刻;根据当前t时刻的环境状态
Figure BDA00036070289700001224
动作输出在线网络A选择最优动作
Figure BDA00036070289700001225
其中πA(·)为动作输出在线网络A的策略函数,将A(t)与服从标准正态分布的探索噪声
Figure BDA0003607028970000131
相加得到智能体X的动作
Figure BDA0003607028970000132
将向量a(t)的M=100个元素作为当前t时刻可重构智能表面反射元件的相移参数;
动作输出目标网络
Figure BDA0003607028970000133
的网络结构与动作输出在线网络A一致,其网络参数
Figure BDA0003607028970000134
每隔Nu=2个时刻基于动作输出在线网络A的网络参数软更新一次;
所述状态动作评价在线网络Cρ,ρ=1,2,两者网络结构一致,对应的网络参数为
Figure BDA0003607028970000135
并在每个时刻进行更新,
Figure BDA0003607028970000136
表示状态动作评价在线网络的评价值函数,计算当前t时刻的状态动作对的价值函数
Figure BDA0003607028970000137
状态动作评价目标网络
Figure BDA0003607028970000138
两者网络结构相同,且与对应的状态动作评价在线网络Cρ,ρ=1,2,结构一致,网络参数
Figure BDA0003607028970000139
每隔Nu=2个时刻基于对应的状态动作评价在线网络Cρ的网络参数软更新一次;
其中,动作输出在线网络A、动作输出目标网络
Figure BDA00036070289700001310
状态动作评价在线网络Cρ,ρ=1,2,和状态动作评价目标网络
Figure BDA00036070289700001311
的网络参数包括全连接层的权重和偏置。
所述容量为ND=500的经验池D用于存放学习过程中每个时刻产生的经验四元组{s(t),a(t),r(t),s(t+1)}。
步骤四、随机初始化动作输出在线网络A的网络参数
Figure BDA00036070289700001320
及状态动作评价在线网络Cρ的网络参数
Figure BDA00036070289700001312
并令动作输出目标网络
Figure BDA00036070289700001313
和状态动作评价目标网络
Figure BDA00036070289700001314
的网络参数分别满足
Figure BDA00036070289700001315
Figure BDA00036070289700001316
初始化单次随机采样数量NB=32;可重构智能表面在t=0时刻的相移矩阵
Figure BDA00036070289700001317
中的各个相移参数从[-π,π]中随机选取;
然后计算在t=0时刻的***频谱效率,具体包括以下步骤:
步骤4.1、计算t=0时刻可重构智能表面的相移偏置矩阵
Figure BDA00036070289700001318
表示以
Figure BDA00036070289700001319
为对角元的对角矩阵。
步骤4.2、采用迫零预编码方法计算t=0时刻子载波i上的基站端预编码矩阵
Figure BDA0003607028970000141
其中
Figure BDA0003607028970000142
是子载波i上对应于用户k的预编码向量,利用下式计算:
Figure BDA0003607028970000143
其中,
Figure BDA0003607028970000144
表示矩阵
Figure BDA0003607028970000145
的第k列,
Figure BDA0003607028970000146
表示伪逆,
Figure BDA0003607028970000147
(·)*表示共轭,
Figure BDA0003607028970000148
||·||表示Frobenius范数。
步骤4.3、t=0时刻子载波i上的基站端发射功率向量
Figure BDA0003607028970000149
利用下式计算子载波i上对应于用户k的发射功率
Figure BDA00036070289700001410
Figure BDA00036070289700001411
其中,(x)+=max(0,x),
Figure BDA00036070289700001412
注水参数
Figure BDA00036070289700001413
满足
Figure BDA00036070289700001414
步骤4.4、利用下式计算t=0时刻用户k在子载波i上的信噪比:
Figure BDA00036070289700001415
用下式计算在t=0时刻的***频谱效率,同时作为环境输出奖励值r(0)
Figure BDA00036070289700001416
其中,NCP=64为循环前缀以避免OFDM符号间干扰;
步骤4.5、令t=t+1,则
Figure BDA00036070289700001417
步骤五、具体包括以下步骤:
步骤5.1、将t时刻的状态s(t)作为动作输出在线网络的输入,该网络输出t时刻的动作
Figure BDA00036070289700001421
将A(t)与服从标准正态分布的探索噪声
Figure BDA00036070289700001418
相加得到智能体X的动作
Figure BDA00036070289700001419
步骤5.2、基于动作a(t)计算可重构智能表面的相移偏置矩阵
Figure BDA00036070289700001420
步骤5.3、t时刻在子载波i,i=0,1,…,63,上的基站端预编码矩阵
Figure BDA0003607028970000151
其中
Figure BDA0003607028970000152
是t时刻子载波i上对应于用户k的预编码向量,采用下式计算,本实施例中
Figure BDA0003607028970000153
Figure BDA0003607028970000154
其中,
Figure BDA0003607028970000155
表示矩阵
Figure BDA0003607028970000156
的第k列,
Figure BDA0003607028970000157
Figure BDA0003607028970000158
步骤5.4、t时刻子载波i上的基站端发射功率向量
Figure BDA0003607028970000159
本实施例中
Figure BDA00036070289700001510
利用下式计算t时刻子载波i上对应于用户k的发射功率
Figure BDA00036070289700001511
Figure BDA00036070289700001512
其中,
Figure BDA00036070289700001513
注水参数λ满足
Figure BDA00036070289700001514
步骤5.5、利用下式计算t时刻用户k在子载波i上的信噪比:
Figure BDA00036070289700001515
t时刻的***频谱效率可用下式计算,同时作为环境输出奖励值r(t)
Figure BDA00036070289700001516
步骤5.6、则t+1时刻的状态
Figure BDA00036070289700001517
步骤5.7、将得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。
步骤六、智能体X将状态动作对(s(t),a(t))输入状态动作评价在线网络C1和C2中,输出状态动作对(s(t),a(t))的评价值
Figure BDA00036070289700001518
Figure BDA00036070289700001519
随后从经验池随机采样NB=32个样本;
所述随机采样按如下步骤进行:
若t≥32,则从经验池D中随机选择NB=32个样本d={d1,d2,…,d32},其中每个样本均为学习过程中存入经验池中的四元组,进入步骤七;若t<32,则不采样并令t=t+1,转到步骤五。
步骤七、利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|C(t)-C(t-1)|≤0.0001,
Figure BDA0003607028970000161
则停止迭代转到步骤八,否则令t=t+1并转到步骤五;
对动作输出在线网络和状态动作评价在线网络的更新,并对动作输出目标网络和状态动作评价目标网络的软更新,按如下步骤进行:
步骤7.1、将所采的NB=32个样本的状态动作对输入状态动作评价目标网络
Figure BDA0003607028970000162
Figure BDA0003607028970000163
得到相应的状态动作对的价值函数估计值
Figure BDA0003607028970000164
Figure BDA0003607028970000165
按照贝尔曼方程(Bellman Equation)计算得到价值函数目标值
Figure BDA0003607028970000166
其中,
Figure BDA0003607028970000167
为动作输出目标网络
Figure BDA0003607028970000168
根据
Figure BDA0003607028970000169
产生的动作,其中,
Figure BDA00036070289700001610
是动作输出目标网络
Figure BDA00036070289700001611
的策略函数,
Figure BDA00036070289700001612
是通过对噪声功率为
Figure BDA00036070289700001613
的正态分布随机噪声按输出动作维度进行采样并放缩在(-0.05,0.05)范围内产生的;
步骤7.2、计算所采NB=32个样本的均方误差作为状态动作评价在线网络Cρ的损失函数:
Figure BDA00036070289700001614
其中,损失函数中涉及到状态动作评价在线网络Cρ网络参数更新,更新的目标是让状态动作评价在线网络Cρ的输出
Figure BDA00036070289700001615
与目标
Figure BDA00036070289700001622
尽可能接近;
步骤7.3、当t=2Nnum,
Figure BDA00036070289700001616
时,对动作输出在线网络A的网络参数
Figure BDA00036070289700001623
每隔Nu=2个时刻利用下式进行更新:
Figure BDA00036070289700001617
其中,
Figure BDA00036070289700001624
为NB=32个样本的动作输出在线网络A的累计价值函数。
每隔Nu=2个时刻对动作目标网络
Figure BDA00036070289700001618
和评价目标网络
Figure BDA00036070289700001619
的网络参数
Figure BDA00036070289700001620
Figure BDA00036070289700001621
进行软更新:
Figure BDA0003607028970000171
Figure BDA0003607028970000172
步骤八、将当前时刻t所得的可重构智能表面的相移偏置矩阵Φ(t)、用户共享子载波时子载波i上基站端预编码矩阵
Figure BDA0003607028970000173
和基站端发射功率向量
Figure BDA0003607028970000174
作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵Φopt、相应的最佳基站预编码方案及功率分配方案。
综上,本发明在运行时间复杂度和***性能上均优于传统的数值迭代设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的RIS反射相移矩阵,特别是对于快速时变信道有很强的鲁棒性,可以实现高效的***频谱效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,包括以下步骤:
步骤一、基站配置均匀线性天线阵,该天线阵包括Nt个天线阵元,服务K个单天线用户,可重构智能表面配置均匀平面反射阵,共M=x×y个反射单元,包括垂直方向x行反射单元,水平方向每行y个反射单元;***整体带宽被划分为N个子载波,K个单天线用户共享全部子载波,基站和可重构智能表面已知用户的时域信道状态信息;
步骤二、利用时域信道状态信息构建从基站到用户k的频域子载波信道i上的向量
Figure FDA0003607028960000011
从可重构智能表面到用户k的频域子载波信道i上的向量
Figure FDA0003607028960000012
和从基站到可重构智能表面的频域子载波信道i上的矩阵Gi,k=1,2,…,K,i=0,1,…,N-1;
步骤三、构建智能体X的经验池及深度强化学习神经网络,包括:动作输出在线网络A、动作输出目标网络
Figure FDA0003607028960000013
状态动作评价在线网络Cρ,ρ=1,2,即C1和C2,以及状态动作评价目标网络
Figure FDA0003607028960000014
Figure FDA0003607028960000015
Figure FDA0003607028960000016
所述动作输出在线网络A和动作输出目标网络
Figure FDA0003607028960000017
构成智能体X的动作网络;所述状态动作评价在线网络C1和C2以及状态动作评价目标网络
Figure FDA0003607028960000018
Figure FDA0003607028960000019
构成智能体X的评价网络;
智能体X在t时刻的环境状态为
Figure FDA00036070289600000110
其中
Figure FDA00036070289600000111
为智能体X在t-1时刻输出的可重构智能表面各个反射元件的相移参数,C(t-1)是t-1时刻的***频谱效率,环境输出奖励值r(t)评价动作输出在线网络A在当前状态s(t)下输出的动作;
步骤四、随机初始化动作输出在线网络A的网络参数
Figure FDA00036070289600000112
及状态动作评价在线网络Cρ的网络参数
Figure FDA00036070289600000113
并令动作输出目标网络
Figure FDA00036070289600000114
的网络参数
Figure FDA00036070289600000115
和状态动作评价目标网络
Figure FDA00036070289600000116
的网络参数
Figure FDA00036070289600000117
分别满足
Figure FDA00036070289600000118
Figure FDA00036070289600000119
初始化单次随机采样数量NB;初始化t=0;可重构智能表面在t=0时刻的相移矩阵
Figure FDA00036070289600000120
中的各个相移参数从[-π,π]中随机选取;
计算得到t=0时刻的***频谱效率C(0)
令t=t+1,得到t时刻的环境状态
Figure FDA00036070289600000121
步骤五、将t时刻的环境状态s(t)作为动作输出在线网络的输入,计算得到t时刻的可重构智能表面的相移偏置矩阵Φ(t)、子载波i上的基站端预编码矩阵
Figure FDA0003607028960000021
和基站端发射功率向量
Figure FDA0003607028960000022
以及t+1时刻的环境状态
Figure FDA0003607028960000023
且t时刻的***频谱效率C(t)作为环境输出奖励值r(t);将最终得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本;
步骤六、智能体X将状态动作对(s(t),a(t))输入状态动作评价在线网络C1和C2中,输出状态动作对(s(t),a(t))的评价值
Figure FDA0003607028960000024
Figure FDA0003607028960000025
其中,
Figure FDA0003607028960000026
Figure FDA0003607028960000027
表示状态动作评价在线网络C1和C2的状态动作对的评价值函数;
随后从经验池随机采样NB个样本,随机采样按如下步骤进行:
若t≥NB,则从经验池D中随机选择NB个样本
Figure FDA0003607028960000028
其中每个样本均为学习过程中存入经验池中的四元组,进入步骤七;若t<NB,则不采样并令t=t+1,转到步骤五;
步骤七、利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|C(t)-C(t-1)|≤ε,
Figure FDA0003607028960000029
是网络收敛条件,则停止迭代转到步骤八,否则令t=t+1并转到步骤五;
步骤八、将当前时刻t所得的可重构智能表面的相移偏置矩阵Φ(t),用户共享子载波时各子载波i上的基站端预编码矩阵
Figure FDA00036070289600000210
和基站端发射功率向量
Figure FDA00036070289600000211
作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵Φopt,以及相应的最佳基站预编码方案和功率分配方案。
2.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,步骤一所述时域信道状态信息包括:
基站到用户k的时域块循环信道矩阵
Figure FDA00036070289600000212
表示为:
Figure FDA0003607028960000031
其中,
Figure FDA0003607028960000032
是基站到用户k的具有L0个抽头的直接路径时域基带等效多径信道矩阵,
Figure FDA0003607028960000033
(·)T表示转置,(·)H表示共轭转置;
从基站到可重构智能表面的时域块循环信道矩阵
Figure FDA0003607028960000034
表示为:
Figure FDA0003607028960000035
其中,
Figure FDA0003607028960000036
为基站到可重构智能表面的具有L1个抽头的时域等效多径信道矩阵,
Figure FDA0003607028960000037
从可重构智能表面到用户k的时域块循环矩阵
Figure FDA0003607028960000038
表示为:
Figure FDA0003607028960000039
其中,
Figure FDA0003607028960000041
是可重构智能表面到用户k的具有L2个抽头的时域等效多径信道矩阵,
Figure FDA0003607028960000042
3.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,步骤二所述构建从基站到用户k的频域子载波信道i上的向量
Figure FDA0003607028960000043
从可重构智能表面到用户k的频域子载波信道i上的向量
Figure FDA0003607028960000044
和从基站到可重构智能表面的频域子载波信道i上的矩阵Gi,具体包括以下步骤:
步骤2.1、按下式计算中间矩阵
Figure FDA0003607028960000045
Figure FDA0003607028960000046
Figure FDA0003607028960000047
Figure FDA0003607028960000048
Figure FDA0003607028960000049
其中,
Figure FDA00036070289600000410
表示矩阵
Figure FDA00036070289600000411
的第n列向量,
Figure FDA00036070289600000412
表示矩阵
Figure FDA00036070289600000413
的第nt+(n-1)×Nt列向量,
Figure FDA00036070289600000414
表示矩阵
Figure FDA00036070289600000415
的第p行第q列元素,
Figure FDA00036070289600000416
表示矩阵
Figure FDA00036070289600000417
的第m+(p-1)×M行第nt+(q-1)×Nt列元素,
Figure FDA00036070289600000418
表示矩阵
Figure FDA00036070289600000419
的第n列向量,
Figure FDA00036070289600000420
表示矩阵
Figure FDA00036070289600000421
的第m+(n-1)×M列向量,n,p,q=1,2,…,N;
步骤2.2、利用
Figure FDA00036070289600000422
Figure FDA00036070289600000423
计算过渡对角矩阵:
Figure FDA00036070289600000424
Figure FDA00036070289600000425
其中,
Figure FDA00036070289600000426
是归一化的离散傅里叶变换矩阵,其第Nrow行第Ncol列元素为
Figure FDA00036070289600000427
Figure FDA00036070289600000428
步骤2.3、按下式构建向量
Figure FDA00036070289600000429
和矩阵Gi
Figure FDA00036070289600000430
Figure FDA00036070289600000431
Figure FDA00036070289600000432
其中,
Figure FDA0003607028960000051
表示向量
Figure FDA0003607028960000052
的第nt个元素,
Figure FDA0003607028960000053
表示矩阵
Figure FDA0003607028960000054
的第i+1行第i+1列元素,
Figure FDA0003607028960000055
表示向量
Figure FDA0003607028960000056
的第m个元素,
Figure FDA0003607028960000057
表示矩阵
Figure FDA0003607028960000058
的第i+1行第i+1列元素,Gi(m,nt)表示矩阵Gi的第m行第nt列元素,
Figure FDA0003607028960000059
表示矩阵
Figure FDA00036070289600000510
的第i+1行第i+1列元素,nt=1,2,…,Nt,m=1,2,…,M,(·)*表示共轭。
4.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,步骤四所述计算得到t=0时刻的***频谱效率C(0),具体包括以下步骤:
步骤4.1、计算t=0时刻可重构智能表面的相移偏置矩阵:
Figure FDA00036070289600000511
其中,
Figure FDA00036070289600000512
是以
Figure FDA00036070289600000513
为对角元的对角矩阵;
步骤4.2、采用迫零预编码方法计算t=0时刻子载波i上的基站端预编码矩阵
Figure FDA00036070289600000514
其中
Figure FDA00036070289600000515
是子载波i上对应于用户k的预编码向量,利用下式计算:
Figure FDA00036070289600000516
其中,
Figure FDA00036070289600000517
表示矩阵
Figure FDA00036070289600000518
的第k列,
Figure FDA00036070289600000519
表示伪逆,
Figure FDA00036070289600000520
||·||表示Frobenius范数;
步骤4.3、t=0时刻子载波i上的基站端发射功率向量
Figure FDA00036070289600000521
利用下式计算子载波i上对应于用户k的发射功率
Figure FDA00036070289600000522
Figure FDA00036070289600000523
其中,(x)+=max(0,x),
Figure FDA00036070289600000524
Figure FDA00036070289600000525
为噪声功率,注水参数
Figure FDA00036070289600000526
满足
Figure FDA00036070289600000527
Figure FDA00036070289600000528
Pt为基站总发射功率;
步骤4.4、用下式计算在t=0时刻的***频谱效率C(0),并作为环境输出奖励值r(0)
Figure FDA0003607028960000061
其中,NCP为循环前缀以避免正交频分复用(orthogonal frequency divisionmultiplexing,OFDM)符号间干扰,
Figure FDA0003607028960000062
为t=0时刻用户k在子载波i上的信噪比,如下式所示:
Figure FDA0003607028960000063
5.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,所述步骤五具体包括以下步骤:
步骤5.1、将t时刻的环境状态s(t)作为动作输出在线网络的输入,该网络输出t时刻的动作
Figure FDA0003607028960000064
其中πA(·)为动作输出在线网络的策略函数;
进而得到智能体X的动作
Figure FDA0003607028960000065
其中,
Figure FDA0003607028960000066
为服从标准正态分布的探索噪声,且将a(t)的M个元素作为当前t时刻可重构智能表面反射元件的相移参数;
步骤5.2、基于动作a(t)计算可重构智能表面的相移偏置矩阵:
Figure FDA0003607028960000067
步骤5.3、t时刻在子载波i上的基站端预编码矩阵
Figure FDA0003607028960000068
其中
Figure FDA0003607028960000069
是t时刻子载波i上对应于用户k的预编码向量,采用下式计算:
Figure FDA00036070289600000610
其中,
Figure FDA00036070289600000611
表示矩阵
Figure FDA00036070289600000612
的第k列,
Figure FDA00036070289600000613
步骤5.4、t时刻在子载波i上基站端发射功率向量
Figure FDA00036070289600000614
其中t时刻子载波i上对应于用户k的发射功率采用下式计算:
Figure FDA00036070289600000615
其中,
Figure FDA0003607028960000071
注水参数λ满足
Figure FDA0003607028960000072
步骤5.5、t时刻的***频谱效率C(t)用下式计算,同时作为环境输出奖励值r(t)
Figure FDA0003607028960000073
其中,
Figure FDA0003607028960000074
为t时刻用户k在子载波i上的信噪比,用下式计算:
Figure FDA0003607028960000075
步骤5.6、得到t+1时刻的状态
Figure FDA0003607028960000076
步骤5.7、将得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。
6.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,步骤七所述利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,具体包括以下步骤:
步骤7.1、将所采的NB个样本的状态动作对输入状态动作评价目标网络
Figure FDA0003607028960000077
Figure FDA0003607028960000078
得到相应的状态动作对的价值函数估计值
Figure FDA0003607028960000079
Figure FDA00036070289600000710
其中,
Figure FDA00036070289600000711
Figure FDA00036070289600000712
分别是动作状态评价目标网络
Figure FDA00036070289600000713
Figure FDA00036070289600000714
的状态动作对评价值函数,每个样本
Figure FDA00036070289600000715
为经验池存储的第tj个时刻的样本四元组;
按照贝尔曼方程(Bellman Equation)计算得到价值函数目标值
Figure FDA00036070289600000716
其中,γ∈(0,1)为奖励函数的折扣因子,
Figure FDA00036070289600000717
为动作输出目标网络
Figure FDA00036070289600000718
根据
Figure FDA00036070289600000719
产生的动作,
Figure FDA00036070289600000720
是动作输出目标网络
Figure FDA00036070289600000725
的策略函数,
Figure FDA00036070289600000721
是通过对噪声功率为
Figure FDA00036070289600000722
的正态分布随机噪声按输出动作维度进行采样并按比例放缩在(-c,c)范围内产生的,
Figure FDA00036070289600000723
是噪声截断上限值;
步骤7.2、计算所采NB个样本的均方误差作为状态动作评价在线网络Cρ的损失函数:
Figure FDA00036070289600000724
通过令状态动作评价在线网络Cρ的输出
Figure FDA0003607028960000081
与目标值
Figure FDA0003607028960000082
间的均方误差值尽可能小,不断更新状态动作评价在线网络Cρ的网络参数
Figure FDA0003607028960000083
步骤7.3、当时刻t为网络更新间隔时刻Nu的整数倍时,对动作输出在线网络A的网络参数
Figure FDA0003607028960000084
利用下式进行更新:
Figure FDA0003607028960000085
其中,
Figure FDA0003607028960000086
是NB个样本的动作输出在线网络A的累计价值函数;
并对动作输出目标网络
Figure FDA00036070289600000820
和状态动作评价目标网络
Figure FDA0003607028960000087
的网络参数
Figure FDA0003607028960000088
Figure FDA0003607028960000089
进行软更新:
Figure FDA00036070289600000810
Figure FDA00036070289600000811
其中,τ<<1为软更新参数。
7.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,所述动作输出在线网络A、动作输出目标网络
Figure FDA00036070289600000812
状态动作评价在线网络Cρ,ρ=1,2,和状态动作评价目标网络
Figure FDA00036070289600000813
包含四个全连接层:输入层、两个隐藏层和输出层,隐藏层都使用ReLU激活函数,其中动作输出目标网络和动作输出在线网络的输出层使用tanh激活函数。
8.根据权利要求1所述的一种可重构智能表面增强的MISO-OFDM传输方法,其特征在于,步骤四所述动作输出在线网络A的网络参数
Figure FDA00036070289600000814
动作输出目标网络
Figure FDA00036070289600000815
的网络参数
Figure FDA00036070289600000816
状态动作评价在线网络Cρ的网络参数
Figure FDA00036070289600000817
和状态动作评价目标网络
Figure FDA00036070289600000818
的网络参数
Figure FDA00036070289600000819
包括全连接层的权重和偏置。
CN202210424495.5A 2022-04-21 2022-04-21 一种可重构智能表面增强的miso-ofdm传输方法 Pending CN115395993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210424495.5A CN115395993A (zh) 2022-04-21 2022-04-21 一种可重构智能表面增强的miso-ofdm传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210424495.5A CN115395993A (zh) 2022-04-21 2022-04-21 一种可重构智能表面增强的miso-ofdm传输方法

Publications (1)

Publication Number Publication Date
CN115395993A true CN115395993A (zh) 2022-11-25

Family

ID=84115356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210424495.5A Pending CN115395993A (zh) 2022-04-21 2022-04-21 一种可重构智能表面增强的miso-ofdm传输方法

Country Status (1)

Country Link
CN (1) CN115395993A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260501A (zh) * 2023-05-15 2023-06-13 清华大学 Ris及其辅助ofdm通信***的预编码方法和装置
CN116318288A (zh) * 2023-05-23 2023-06-23 江苏集萃移动通信技术研究所有限公司 一种基于智能反射面的mimo全双工功率分配方法
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260501A (zh) * 2023-05-15 2023-06-13 清华大学 Ris及其辅助ofdm通信***的预编码方法和装置
CN116260501B (zh) * 2023-05-15 2023-07-14 清华大学 Ris及其辅助ofdm通信***的预编码方法和装置
CN116318288A (zh) * 2023-05-23 2023-06-23 江苏集萃移动通信技术研究所有限公司 一种基于智能反射面的mimo全双工功率分配方法
CN116318288B (zh) * 2023-05-23 2023-08-04 江苏集萃移动通信技术研究所有限公司 一种基于智能反射面的mimo全双工功率分配方法
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN116614826B (zh) * 2023-05-24 2024-01-16 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法

Similar Documents

Publication Publication Date Title
Taha et al. Deep reinforcement learning for intelligent reflecting surfaces: Towards standalone operation
CN115395993A (zh) 一种可重构智能表面增强的miso-ofdm传输方法
Zhang et al. Deep learning optimized sparse antenna activation for reconfigurable intelligent surface assisted communication
CN113452642B (zh) 一种可重构智能表面增强的siso-ofdm下行传输方法
CN111181619B (zh) 基于深度强化学习的毫米波混合波束成形设计方法
CN105142177B (zh) 复数神经网络信道预测方法
Pande et al. Reduced feedback MIMO-OFDM precoding and antenna selection
CN109560846B (zh) 一种基于模型驱动深度学习的三维预编码方法
Attiah et al. Deep learning for channel sensing and hybrid precoding in TDD massive MIMO OFDM systems
CN112448742A (zh) 一种非均匀量化下基于卷积神经网络的混合预编码方法
Yu et al. Deep learning based user scheduling for massive MIMO downlink system
Narengerile et al. Deep reinforcement learning-based beam training for spatially consistent millimeter wave channels
Liu et al. Learning hybrid precoding efficiently for mmWave systems with mathematical properties
CN117220740A (zh) 一种非合作场景下通信与干扰一体化***波束形成方法
Zia et al. Deep learning for Parametric Channel Estimation in massive MIMO systems
Zou et al. Secure transmission for intelligent reflecting surface assisted communication with deep learning
Tamilselvan et al. Frequency domain learning scheme for massive MIMO using deep neural network
Elbir et al. Low-complexity limited-feedback deep hybrid beamforming for broadband massive MIMO
CN113067652B (zh) 一种利用宽带大规模天线阵列空间特性的信道预测方法
CN114553640B (zh) 多频段大规模mimo***中的跨频段统计信道状态信息估计方法
CN114826349B (zh) 一种基于可重构智能表面的发射功率最小化传输方法
CN112367104B (zh) 用于毫米波mimo的基于移相器的联合空分复用方法
CN114598574A (zh) 一种基于深度学习的毫米波信道估计方法
Jiang et al. Active sensing for two-sided beam alignment using ping-pong pilots
Omid et al. Deep Reinforcement Learning-Based Secure Standalone Intelligent Reflecting Surface Operation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination