CN113259944A

CN113259944A - 一种基于深度强化学习的ris辅助频谱共享方法

Info

Publication number: CN113259944A
Application number: CN202110513622.4A
Authority: CN
Inventors: 张广驰; 钟灿伟; 崔苗; 刘圣海; 王昆
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-13
Anticipated expiration: 2041-05-11
Also published as: CN113259944B

Abstract

本发明提出一种基于深度强化学习的RIS辅助频谱共享方法，解决了传统优化方法需复杂的数学计算和数学推导，无法对模型泛化的问题，首先建立RIS辅助的频谱共享模型，使得主要用户和次要用户均能获得良好的通信质量；以最大化次要用户SU在接收端的通信速率为目标，并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件，采用基于深度强化学习的SAC算法进行求解，即使优化模型转换，本申请所提的方法也具有通用性，拥有较好的动作探索能力，有效避免陷入局部次优解，收敛性能稳定。

Description

一种基于深度强化学习的RIS辅助频谱共享方法

技术领域

本发明涉及无线通信频谱资源优化的技术领域，更具体地，涉及一种基于深度强化学习的RIS辅助频谱共享方法。

背景技术

近年来，一种全新的技术引起了无线通信研究界的关注：可重构智能反射平面(RIS)。RIS技术被认为是一种非常有发展潜力和前景的B5G/6G无线通信技术，它是一个包含了大量无源反射单元的平面，平面上每一个单元都能独立智能地改变和控制入射信号的幅度以及相位。通过大规模地在无线网络通信中部署RIS，可以灵活地调整发射机和接收机之间地信号传输状态和无线信道状态，以达到大幅改善信号传输性能和获取所需要的无线信道状态分布的目的，从而为从根本上解决无线信道衰落和干扰问题提供了一种全新地方法，并由此可能让无线通信能力和可靠性有一个巨大地飞跃。

此外，6G技术的开发也是为了寻找新的可用频谱资源，频谱稀缺问题已成为的全世界通信难题。而在频谱资源如此稀缺的时代下，无线电认知的频谱共享技术成为了解决频谱资源稀缺的重要手段，然而在传统的无线电认知***中，由于主要用户的通信链路强干扰，使得次要用户很难得到比较良好的通信质量，而RIS则很有效地解决了这个问题，在保证主要用户的通信速率同时，极大地改善了次要用户地通信速率。

RIS主要是通过改变入射信号的幅度和相位来实现它相应的功能，因此如何设计反射单元的幅度和相位变换能让RIS能反射出用户所需要的信号成为实现RIS技术的关键所在，即应该如何设计RIS的反射波束成形。目前使用优化RIS反射波束成形的方法主要是在优化领域的数值方法，如2020年7月，X.Guan,Q.Wu，R.Zhang在IEEE CommunicationsLetters上发表“Joint Power Control and Passive Beamforming in IRS-AssistedSpectrum Sharing(vol.24,no.7,pp.1553-1557)”的文章，阐述了通过传统优化方法以及在RIS辅助下，设计RIS的反射波束成形，在保证主用户通信速率的前提下最大化次用户的通信速率,此过程中使用了传统的数值优化方法，但是算法复杂度大且使用了复杂的数学变换，此外一旦变换了模型和优化问题后，便要重新寻找新的算法。另外，关于RIS反射波束成形的优化问题大多数是非凸问题，因此使用传统的优化方法去解决这一类问题会变得十分困难，涉及到许多十分复杂的数学推导和数值优化技术。

发明内容

为解决传统优化方法需复杂的数学计算和数学推导，无法对模型泛化的问题，本发明提出一种基于深度强化学习的RIS辅助频谱共享方法，探索能力强，有效避免陷入局部次优解，拥有稳定的收敛性能。

为了达到上述技术效果，本发明的技术方案如下：

一种基于深度强化学习的RIS辅助频谱共享方法，至少包括：

S1.建立RIS辅助的频谱共享模型，确定频谱共享模型的主要用户PU与次要用户SU，以及主要用户PU的发射端及接收端，次要用户SU的发射端及接收端；

S2.计算次要用户SU在接收端的信噪比，根据次要用户SU在接收端的信噪比，计算次要用户SU在接收端的通信速率；

S3.以次要用户SU在接收端的通信速率最大为目标函数，以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件，建立频谱共享优化模型；

S4.定义当前状态空间、动作空间，以次要用户SU在接收端的信噪比为奖赏函数，设置下一状态空间，引入神经网络，基于深度强化学习的SAC算法对神经网络进行训练；

S5.根据训练好的神经网络求解出频谱共享优化模型，得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。

在本技术方案中，首先建立RIS辅助的频谱共享模型，确认以RIS为中心的主要用户PU与次要用户SU的信道传输，使用智能反射平面重新调整发射端、主要接收用户和次要接收用户的信道，使得主要用户和次要用户都能获得良好的通信质量，然后以最大化次要用户SU在接收端的通信速率为目标，优化变量为RIS对入射信号的相移以及次要用户SU在接收端的传输速率，并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件，采用基于深度强化学习的SAC算法进行求解，算法所基于的是构建神经网络以及神经网络的训练，SAC属于最大熵深度强化学习算法，除了强化学习的基本目标外，还要求策略每一次输出的动作熵最大，得出最佳策略，所述的最佳策略可直接对应RIS对入射信号的相移，进一步得出次要用户SU在接收端的传输速率，即使优化模型转换，本申请所提的方法也具有通用性，而且拥有更好的动作探索能力，有效避免陷入局部次优解，收敛性能稳定。

优选地，步骤S1中所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU，所述主要用户PU包括发射端用户P2及接收端用户P1，所述次要用户SU包括发射端用户S2及接收端用户S1，所有用户节点均为单天线，RIS的反射单元数量为N，RIS的相位转换对角矩阵为Θ＝diag(v₁,v₂,...,v_N)，其中，

表示RIS的第N个反射单元的相位，θ_n∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移，n＝1,...,N；

发射端用户P2与接收端用户S2均存在复高斯加性噪声，分别为

和

发射端用户P2的传输功率固定为p₀＝P₀，发射端用户S2的传输功率在(0,P_max]中变化，

均表示复高斯分布的方差，P₀代表主要用户PU的发射端P2的功率，为固定常数，P_max是次要用户所允许的最大发射功率。

在此，考虑到信道衰落，RIS辅助的频谱共享模型中被RIS反射两次及以上的信号在计算中忽略不计，从发射端用户P2(发射端用户S2)到接收端用户P1(接收端用户S1)以及到RIS的基带等价信道可分别表示为h_pp，h_ps和

(h_sp，h_ss和

)，与此同时从RIS到P1和S1的信道可以分别表示为

和

优选地，步骤S2所述的次要用户SU在接收端的信噪比的表达式为：

其中，p_s表示次要用户SU的接收端用户S1的传输功率，p_p表示主要用户PU的接收端用户P1的传输功率，设

v_N＝[v₁,v₂,...,v_N]，则

i,j∈{p,s}；h_srs表示由次要用户SU的发射端用户S2到RIS,再至由次要用户SU的接收端用户S1的基带等价信道；hss表示由次要用户SU的发射端用户S2到次要用户SU的接收端用户S1的基带等价信道；h_prs表示由主要用户PU的发射端用户P2到RIS，再至次要用户SU的接收端用户S1的基带等价信道。

优选地，次要用户SU在接收端的通信速率的表达式为：

R_s＝log₂(1+γ_s)

其中，R_s表示次要用户SU在接收端的通信速率。

优选地，步骤S3所述的频谱共享优化模型的目标函数表达式为：

其中，目标函数的优化变量为p_s和RIS的相移v，p_s表示次要用户SU的接收端用户S1的传输功率；

约束条件表达式为：

p_s≤P_max,

|v_n|＝1,n＝1,...,N

优选地，步骤S4中，

令

以及

则当前状态空间s_t为：

其中，

表示参数；

动作空间a_t为：

奖赏函数r_t为：

r_t＝γ_s

下一状态空间s_t+1：

引入神经网络的个数为5个，分别表示为：

π_φ，其中，

表示第一Q值网络；

表示第二Q值网络；

表示第一个目标Q值网络；

表示第二个目标Q值网络；π_φ表示策略网络。

优选地，步骤S4中基于深度强化学习的SAC算法对神经网络进行训练的过程为：

S41.初始化经验池D，随机选取初始状态s₀，确定超参数；

S42.对于对每一个时间步数t，获取当前动作a_t～π_φ(a_t|s_t)以及下一状态空间s_t+1，并将{s_t,a_t,r_t,s_t+1}存进经验池D；

S43.更新Q值网络，表示Q_θ(s_t,a_t)，满足

S44.更新策略网络π_φ，表示策略π_φ(s_t,a_t)，满足

S45.更新熵权重α，即

S46.更新目标Q值网络，即

以上，λ表示学习率，

表示求偏导；J代表损失函数。

优选地，步骤S43中，Q值网络输出单值Q，策略网络分别输出均值和方差来表示当前的(s_t,a_t)分布ρ_t，根据贝尔曼方程以及Q值函数，通过最小化贝尔曼方程误差来更新Q值网络参数：

其中，D为经验池，

为目标Q值网络，其参数

通过soft update进行更新；

步骤S44中，更新策略网络π_φ通过最小化策略的KL散度实现，其中，

其中，

使得训练过程可微，I表示全为1的向量；Z是一个常数，用于对分布进行归一化；μ以及σ分别为策略网络输出的均值和方差，ε为噪声，以此增强智能体的探索能力，

最后，最小化KL散度表示为：

步骤S45中，为找到在任意时刻的最优权重α，构造一个带约束的优化问题：

通过解决优化问题得到α的更新函数：

其中，E表示期望，H₀表示目标熵。

在此，由于在训练过程中，回报(reward)是不断变化的，人为固定熵的权重α并不合理，会让整个训练变得极不稳定，因此权重α应根据当前环境自动调节。当策略探索到新的区域时，最优动作仍不确定，应鼓励智能体探索更多空间，此时应增大α，当某一区域几乎探索完毕时，应减小α。

优选地，基于深度强化学习的SAC算法对神经网络进行训练时，基于策略的强化学习迭代，使得策略的每一次输出动作上最大，训练完成，得到最佳策略表示为：

π^*表示最佳策略；

对于最大熵的贝尔曼方程表示为：

其对应的Q值函数可以写成：

基于策略的强化学习迭代分为两个阶段，策略评价以及策略改进，在策略评价阶段，固定策略，利用Q值函数更新Q值直到收敛；在策略改进阶段，利用下式对策略进行更新：

其中，π_new表示更新后的策略；D_KL表示Kullback-Leibler散度

优选地，在使用策略网络输出动作时，使用tanh函数将动作限定在(-1，1)的范围内，导致策略分布发生变化，因此对对数似然值作出修正，表达式为：

其中，u_t是在t时刻策略网络输出没有被tanh函数作出限制的动作；在训练时，对Q值网络以及策略网络π_φ使用Layer Normalization归一化，使得网络数据分布更加合理，并且加快了智能体探索的速度，减少训练时间，同时Layer Normalization归一化对batch的大小并不敏感，让神经网络更加容易训练。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于深度强化学***面重新调整发射端、主要接收用户和次要接收用户的信道，使得主要用户和次要用户均能获得良好的通信质量，然后以最大化次要用户SU在接收端的通信速率为目标，优化变量为RIS对入射信号的相移以及次要用户SU在接收端的传输速率，并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件，采用基于深度强化学习的SAC算法进行求解，即使优化模型转换，本申请所提的方法也具有通用性，而且拥有更好的动作探索能力，有效避免陷入局部次优解，收敛性能稳定。

附图说明

图1表示本发明实施例中提出的基于深度强化学习的RIS辅助频谱共享方法的流程图；

图2表示本发明实施例中建立的RIS辅助的频谱共享模型的结构图；

图3表示本发明实施例中提出的最大发射功率对次要用户通信速率的影响及数值算法(AO)和强化学习算法的性能比较折线图；

图4表示在2000步处做奖赏平均处理时，在不同发射功率下，本发明实施例中提出的采用SAC与DDPG算法(传统深度强化学习算法)的性能比较图；

图5表示在最大传输速率Pmax取0时，本发明实施例中所提出的采用SAC算法与DDPG算法(传统深度强化学***均奖赏值分布图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

如图1所示的基于深度强化学习的RIS辅助频谱共享方法的流程图，参见图1，所述方法包括：

参见图2，所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU，所述主要用户PU包括发射端用户P2及接收端用户P1，所述次要用户SU包括发射端用户S2及接收端用户S1，所有用户节点均为单天线，RIS的反射单元数量为N，RIS的相位转换对角矩阵为Θ＝diag(v₁,v₂,...,v_N)，其中，

发射端用户P2与接收端用户S2均存在复高斯加性噪声，分别为

和

均表示复高斯分布的方差，P₀代表主要用户PU的发射端P2的功率，为固定常数，P_max是次要用户所允许的最大发射功率。在本实施例中，考虑到信道衰落，RIS辅助的频谱共享模型中被RIS反射两次及以上的信号在计算中忽略不计，从发射端用户P2(发射端用户S2)到接收端用户P1(接收端用户S1)以及到RIS的基带等价信道可分别表示为h_pp，h_ps和

(h_sp，h_ss和

)，与此同时从RIS到P1和S1的信道可以分别表示为

和

次要用户SU在接收端的信噪比的表达式为：

v_N＝[v₁,v₂,...,v_N]，则

在本实施例中，P1端的信噪比可以表示为：

令γ_p≥γ_th以保证P1端的服务质量(QoS)，其中γ_th是P1端最低要求的信噪比。次要用户SU在接收端的通信速率的表达式为：

R_s＝log₂(1+γ_s)

其中，R_s表示次要用户SU在接收端的通信速率。

在本实施例中，频谱共享优化模型的目标函数表达式为：

约束条件表达式为：

p_s≤P_max,

|v_n|＝1,n＝1,...,N

上述模型是一个目标函数为非凹函数以及优化变量相互耦合的非凸优化问题，利用传统优化方法求解显得十分困难，因此，执行步骤S4，引入深度强化学习的方法解决问题。

一个强化学习***包含两个主要部分：智能体和环境。智能体和环境直之间地互动可以用马尔科夫决策过程(MDP)来描述。即在每一幕的时间步数t，智能体与环境交互并从状态空间集合S中获取状态s_t，接着根据策略π从动作空间集合A中选择动作a_t。一旦动作完成，环境将当前状态更新为s_t+1并给智能体奖赏r_t。智能体的目标则是学习出可以使得在整个决策过程中获得的累计奖赏最多的策略。

对于一个强化学习过程可以用以下要素来描述：

(1)状态(State)：描述智能体所在的环境的集合，状态s_t∈S表示在t时刻智能体所处的状态环境。

(2)动作(Action)：描述智能体所能做出的所有动作集合，动作a_t∈A表示在t时刻智能体所做出的动作。

(3)奖赏(Reward)：用于评价智能体在当前状态下所做出的动作的好坏，奖赏r_t＝(s_t,a_t)表示智能体在t时刻做出动作a_t后所能得到的奖赏。

(4)策略(Policy)：策略π(s_t,a_t)表示智能体在处在状态s_t的前提下选择做出动作a_t的概率，并满足

(5)状态-动作价值函数(state-action value function)：状态-动作价值函数表示智能体在状态s_t下做出动作a_t后在后续决策过程中所能获得的潜在未来总奖赏，即Q^π(s_t,a_t)＝E_π[R_t|s_t,a_t]，其中

γ∈(0,1]。

按照以上定义，最佳策略可表示为：

其中ρ_t表示在整个过程中(s_t,a_t)的分布函数。具体的执行步骤S4：

令

以及

则当前状态空间s_t为：

其中，

表示参数

动作空间a_t为：

奖赏函数r_t为：

r_t＝γ_s

下一状态空间s_t+1：

引入神经网络的个数为5个，分别表示为：

π_φ，其中，

表示第一Q值网络；

表示第二Q值网络；

表示第一个目标Q值网络；

表示第二个目标Q值网络；π_φ表示策略网络。

基于深度强化学习的SAC算法对神经网络进行训练的过程为：

S41.初始化经验池D，随机选取初始状态s₀，确定超参数；在本实施例中，超参数设置如表1所示：

表1

S43.更新Q值网络，表示Q_θ(s_t,a_t)，满足

步骤S43中，Q值网络输出单值Q，策略网络分别输出均值和方差来表示当前的(s_t,a_t)分布ρ_t，根据贝尔曼方程以及Q值函数，通过最小化贝尔曼方程误差来更新Q值网络参数：

其中，D为经验池，

为目标Q值网络，其参数

通过soft update进行更新；

S44.更新策略网络π_φ，表示策略π_φ(s_t,a_t)，满足

其中，

使得训练过程可微，I表示全为1的向量；Z是一个常数，用于对分布进行归一化；μ以及σ分别为策略网络输出的均值和方差，ε为噪声，以此增强智能体的探索能力，最后，最小化KL散度表示为：

S45.更新熵权重α，即

通过解决优化问题得到α的更新函数：

证明过程如下：

由于在t时刻的策略π_t对之前时刻t-1的策略π_t-1不会产生影响，因此累计回报

可以拆解为：

通过上面的分析，可以从最后的时间T开始优化：

为后续证明方便，定义以下函数：

则优化问题(P1)可改写成：

(P1.1)max f(π_T)s.t.h(π_T)≥0

将上述问题(P1.1)转化为拉格朗日对偶问题，并乘上拉格朗日乘子α_T(α_T≥0)：

L(π_T,α_T)＝f(π_T)+α_Th(π_T)

考虑最小化拉格朗日函数L(π_T,α_T)，并考虑以下两种情况：

1.当约束满足，即h(π_T)≥0，可以令α_T＝0，此时L(π_T,0)＝f(π_T)；

2.当约束不满足，即h(π_T)＜0，当α_T→∞时，L(π_T,α_T)→-∞，此时L(π_T,0)＝f(π_T)。

综合上述讨论，f(π_T)为L(π_T,α_T)的对偶函数，即

由此拉格朗日对偶问题可以写成(注意要确保满足约束条件才能保证f(π_T)能被合理地最大化且不会变成-∞)：

则有：

注意到原问题(P1)的目标函数为线性函数，约束是关于π_T凸函数，因此原问题的强对偶性成立。

接下来对π_T与α_T进行交替迭代，即对给定的当前α_T计算出当前最优

然后将

代入计算出当前最优

由此可以得出：

现在回推T-1时刻，由Q函数的贝尔曼方程及贝尔曼最优方程知：

Q_T-1(s_T-1,a_T-1)＝r(s_T-1,a_T-1)+Ε[Q(s_T,a_T)-α_Tlogπ(α_T|s_T)]

＝r(s_T-1,a_T-1)+Ε[r(s_T,a_T)+α_TH(π_T)]

仿照上述T时刻的推导，可以得出在T-1时刻有：

同理得到最优

以及

由

以及

表达式可知，在每个时刻t最小化目标函数：

即能得到当前状态(state)下最优的熵权重α_t。

S46.更新目标Q值网络，即

以上，λ表示学习率，▽表示求偏导；J代表损失函数。

基于深度强化学习的SAC算法对神经网络进行训练时，基于策略的强化学习迭代，使得策略的每一次输出动作上最大，训练完成，得到最佳策略表示为：

对于最大熵的贝尔曼方程表示为：

其对应的Q值函数可以写成：

其中，π_new表示更新后的策略；D_KL表示Kullback-Leibler散度。

在使用策略网络输出动作时，使用tanh函数将动作限定在(-1，1)的范围内，导致策略分布发生变化，因此对对数似然值作出修正，表达式为：

下面结合具体的实验结果对本发明所提的方法做进一步的验证。

图3表示本发明实施例中提出的最大发射功率对次要用户通信速率的影响及数值算法(AO)和强化学***均奖赏，进一步反映次要用户通信速率，平均奖赏值由下式给出：

从图3中可以看到两种强化学习算法(SAC和DDPG)性能与常规使用数值方法所的出的结果几乎一致，而强化学习算法无需复杂的数学分析，能适应不同的优化模型，此外，由图3可以看出，SAC算法在性能上比传统的DDPG算法更为优秀。

进一步，为了更加清晰的分析本发明所提的SAC算法与DDPG算法的优劣性，图4表示在2000步处做奖赏平均处理时，在不同发射功率下，本发明实施例中提出的采用SAC与DDPG算法(传统深度强化学***均奖赏，分别对两个算法在20000步的奖赏做平均处理，从图4中可以看到无论在较小的发射功率(0dB)或者较大的发射功率(10dB)，SAC的性能都优于DDPG，此外当功率较大时，SAC的优势更加明显。

图5表示在最大传输速率Pmax取0时，本发明实施例中所提出的采用SAC算法与DDPG算法(传统深度强化学***均奖赏值分布图,横坐标表示时间步数，总做表表示平均奖赏，由于DDPG算法的动作探索是通过人为在输出动作端加上噪声实现的，因此它的输出动作分布方差很大，从而导致奖赏值会振荡得比较厉害,相反对于SAC算法，它的动作是从策略分布函数中随机抽取的，这样不仅达到了加载噪声的效果，而且策略分布函数是智能体自动地通过经验不断学***均奖赏值低于SAC算法的平均奖赏值的原因。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度强化学习的RIS辅助频谱共享方法，其特征在于，至少包括：

2.根据权利要求1所述的基于深度强化学习的RIS辅助频谱共享方法，其特征在于，步骤S1中所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU，所述主要用户PU包括发射端用户P2及接收端用户P1，所述次要用户SU包括发射端用户S2及接收端用户S1，所有用户节点均为单天线，RIS的反射单元数量为N，RIS的相位转换对角矩阵为Θ＝diag(v₁,v₂,...,v_N)，其中，