CN113259944A - 一种基于深度强化学习的ris辅助频谱共享方法 - Google Patents
一种基于深度强化学习的ris辅助频谱共享方法 Download PDFInfo
- Publication number
- CN113259944A CN113259944A CN202110513622.4A CN202110513622A CN113259944A CN 113259944 A CN113259944 A CN 113259944A CN 202110513622 A CN202110513622 A CN 202110513622A CN 113259944 A CN113259944 A CN 113259944A
- Authority
- CN
- China
- Prior art keywords
- user
- ris
- receiving end
- strategy
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/14—Spectrum sharing arrangements between different networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出一种基于深度强化学习的RIS辅助频谱共享方法,解决了传统优化方法需复杂的数学计算和数学推导,无法对模型泛化的问题,首先建立RIS辅助的频谱共享模型,使得主要用户和次要用户均能获得良好的通信质量;以最大化次要用户SU在接收端的通信速率为目标,并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件,采用基于深度强化学习的SAC算法进行求解,即使优化模型转换,本申请所提的方法也具有通用性,拥有较好的动作探索能力,有效避免陷入局部次优解,收敛性能稳定。
Description
技术领域
本发明涉及无线通信频谱资源优化的技术领域,更具体地,涉及一种基于深度强化学习的RIS辅助频谱共享方法。
背景技术
近年来,一种全新的技术引起了无线通信研究界的关注:可重构智能反射平面(RIS)。RIS技术被认为是一种非常有发展潜力和前景的B5G/6G无线通信技术,它是一个包含了大量无源反射单元的平面,平面上每一个单元都能独立智能地改变和控制入射信号的幅度以及相位。通过大规模地在无线网络通信中部署RIS,可以灵活地调整发射机和接收机之间地信号传输状态和无线信道状态,以达到大幅改善信号传输性能和获取所需要的无线信道状态分布的目的,从而为从根本上解决无线信道衰落和干扰问题提供了一种全新地方法,并由此可能让无线通信能力和可靠性有一个巨大地飞跃。
此外,6G技术的开发也是为了寻找新的可用频谱资源,频谱稀缺问题已成为的全世界通信难题。而在频谱资源如此稀缺的时代下,无线电认知的频谱共享技术成为了解决频谱资源稀缺的重要手段,然而在传统的无线电认知***中,由于主要用户的通信链路强干扰,使得次要用户很难得到比较良好的通信质量,而RIS则很有效地解决了这个问题,在保证主要用户的通信速率同时,极大地改善了次要用户地通信速率。
RIS主要是通过改变入射信号的幅度和相位来实现它相应的功能,因此如何设计反射单元的幅度和相位变换能让RIS能反射出用户所需要的信号成为实现RIS技术的关键所在,即应该如何设计RIS的反射波束成形。目前使用优化RIS反射波束成形的方法主要是在优化领域的数值方法,如2020年7月,X.Guan,Q.Wu,R.Zhang在IEEE CommunicationsLetters上发表“Joint Power Control and Passive Beamforming in IRS-AssistedSpectrum Sharing(vol.24,no.7,pp.1553-1557)”的文章,阐述了通过传统优化方法以及在RIS辅助下,设计RIS的反射波束成形,在保证主用户通信速率的前提下最大化次用户的通信速率,此过程中使用了传统的数值优化方法,但是算法复杂度大且使用了复杂的数学变换,此外一旦变换了模型和优化问题后,便要重新寻找新的算法。另外,关于RIS反射波束成形的优化问题大多数是非凸问题,因此使用传统的优化方法去解决这一类问题会变得十分困难,涉及到许多十分复杂的数学推导和数值优化技术。
发明内容
为解决传统优化方法需复杂的数学计算和数学推导,无法对模型泛化的问题,本发明提出一种基于深度强化学习的RIS辅助频谱共享方法,探索能力强,有效避免陷入局部次优解,拥有稳定的收敛性能。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度强化学习的RIS辅助频谱共享方法,至少包括:
S1.建立RIS辅助的频谱共享模型,确定频谱共享模型的主要用户PU与次要用户SU,以及主要用户PU的发射端及接收端,次要用户SU的发射端及接收端;
S2.计算次要用户SU在接收端的信噪比,根据次要用户SU在接收端的信噪比,计算次要用户SU在接收端的通信速率;
S3.以次要用户SU在接收端的通信速率最大为目标函数,以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件,建立频谱共享优化模型;
S4.定义当前状态空间、动作空间,以次要用户SU在接收端的信噪比为奖赏函数,设置下一状态空间,引入神经网络,基于深度强化学习的SAC算法对神经网络进行训练;
S5.根据训练好的神经网络求解出频谱共享优化模型,得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。
在本技术方案中,首先建立RIS辅助的频谱共享模型,确认以RIS为中心的主要用户PU与次要用户SU的信道传输,使用智能反射平面重新调整发射端、主要接收用户和次要接收用户的信道,使得主要用户和次要用户都能获得良好的通信质量,然后以最大化次要用户SU在接收端的通信速率为目标,优化变量为RIS对入射信号的相移以及次要用户SU在接收端的传输速率,并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件,采用基于深度强化学习的SAC算法进行求解,算法所基于的是构建神经网络以及神经网络的训练,SAC属于最大熵深度强化学习算法,除了强化学习的基本目标外,还要求策略每一次输出的动作熵最大,得出最佳策略,所述的最佳策略可直接对应RIS对入射信号的相移,进一步得出次要用户SU在接收端的传输速率,即使优化模型转换,本申请所提的方法也具有通用性,而且拥有更好的动作探索能力,有效避免陷入局部次优解,收敛性能稳定。
优选地,步骤S1中所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU,所述主要用户PU包括发射端用户P2及接收端用户P1,所述次要用户SU包括发射端用户S2及接收端用户S1,所有用户节点均为单天线,RIS的反射单元数量为N,RIS的相位转换对角矩阵为Θ=diag(v1,v2,...,vN),其中,表示RIS的第N个反射单元的相位,θn∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移,n=1,...,N;
发射端用户P2与接收端用户S2均存在复高斯加性噪声,分别为和发射端用户P2的传输功率固定为p0=P0,发射端用户S2的传输功率在(0,Pmax]中变化,均表示复高斯分布的方差,P0代表主要用户PU的发射端P2的功率,为固定常数,P_max是次要用户所允许的最大发射功率。
在此,考虑到信道衰落,RIS辅助的频谱共享模型中被RIS反射两次及以上的信号在计算中忽略不计,从发射端用户P2(发射端用户S2)到接收端用户P1(接收端用户S1)以及到RIS的基带等价信道可分别表示为hpp,hps和(hsp,hss和),与此同时从RIS到P1和S1的信道可以分别表示为和
优选地,步骤S2所述的次要用户SU在接收端的信噪比的表达式为:
其中,ps表示次要用户SU的接收端用户S1的传输功率,pp表示主要用户PU的接收端用户P1的传输功率,设vN=[v1,v2,...,vN],则i,j∈{p,s};hsrs表示由次要用户SU的发射端用户S2到RIS,再至由次要用户SU的接收端用户S1的基带等价信道;hss表示由次要用户SU的发射端用户S2到次要用户SU的接收端用户S1的基带等价信道;hprs表示由主要用户PU的发射端用户P2到RIS,再至次要用户SU的接收端用户S1的基带等价信道。
优选地,次要用户SU在接收端的通信速率的表达式为:
Rs=log2(1+γs)
其中,Rs表示次要用户SU在接收端的通信速率。
优选地,步骤S3所述的频谱共享优化模型的目标函数表达式为:
其中,目标函数的优化变量为ps和RIS的相移v,ps表示次要用户SU的接收端用户S1的传输功率;
约束条件表达式为:
ps≤Pmax,
|vn|=1,n=1,...,N
优选地,步骤S4中,
动作空间at为:
奖赏函数rt为:
rt=γs
下一状态空间st+1:
优选地,步骤S4中基于深度强化学习的SAC算法对神经网络进行训练的过程为:
S41.初始化经验池D,随机选取初始状态s0,确定超参数;
S42.对于对每一个时间步数t,获取当前动作at~πφ(at|st)以及下一状态空间st+1,并将{st,at,rt,st+1}存进经验池D;
优选地,步骤S43中,Q值网络输出单值Q,策略网络分别输出均值和方差来表示当前的(st,at)分布ρt,根据贝尔曼方程以及Q值函数,通过最小化贝尔曼方程误差来更新Q值网络参数:
步骤S44中,更新策略网络πφ通过最小化策略的KL散度实现,其中,
最后,最小化KL散度表示为:
步骤S45中,为找到在任意时刻的最优权重α,构造一个带约束的优化问题:
通过解决优化问题得到α的更新函数:
其中,E表示期望,H0表示目标熵。
在此,由于在训练过程中,回报(reward)是不断变化的,人为固定熵的权重α并不合理,会让整个训练变得极不稳定,因此权重α应根据当前环境自动调节。当策略探索到新的区域时,最优动作仍不确定,应鼓励智能体探索更多空间,此时应增大α,当某一区域几乎探索完毕时,应减小α。
优选地,基于深度强化学习的SAC算法对神经网络进行训练时,基于策略的强化学习迭代,使得策略的每一次输出动作上最大,训练完成,得到最佳策略表示为:
π*表示最佳策略;
对于最大熵的贝尔曼方程表示为:
其对应的Q值函数可以写成:
基于策略的强化学习迭代分为两个阶段,策略评价以及策略改进,在策略评价阶段,固定策略,利用Q值函数更新Q值直到收敛;在策略改进阶段,利用下式对策略进行更新:
其中,πnew表示更新后的策略;DKL表示Kullback-Leibler散度
优选地,在使用策略网络输出动作时,使用tanh函数将动作限定在(-1,1)的范围内,导致策略分布发生变化,因此对对数似然值作出修正,表达式为:
其中,ut是在t时刻策略网络输出没有被tanh函数作出限制的动作;在训练时,对Q值网络以及策略网络πφ使用Layer Normalization归一化,使得网络数据分布更加合理,并且加快了智能体探索的速度,减少训练时间,同时Layer Normalization归一化对batch的大小并不敏感,让神经网络更加容易训练。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于深度强化学***面重新调整发射端、主要接收用户和次要接收用户的信道,使得主要用户和次要用户均能获得良好的通信质量,然后以最大化次要用户SU在接收端的通信速率为目标,优化变量为RIS对入射信号的相移以及次要用户SU在接收端的传输速率,并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件,采用基于深度强化学习的SAC算法进行求解,即使优化模型转换,本申请所提的方法也具有通用性,而且拥有更好的动作探索能力,有效避免陷入局部次优解,收敛性能稳定。
附图说明
图1表示本发明实施例中提出的基于深度强化学习的RIS辅助频谱共享方法的流程图;
图2表示本发明实施例中建立的RIS辅助的频谱共享模型的结构图;
图3表示本发明实施例中提出的最大发射功率对次要用户通信速率的影响及数值算法(AO)和强化学习算法的性能比较折线图;
图4表示在2000步处做奖赏平均处理时,在不同发射功率下,本发明实施例中提出的采用SAC与DDPG算法(传统深度强化学习算法)的性能比较图;
图5表示在最大传输速率Pmax取0时,本发明实施例中所提出的采用SAC算法与DDPG算法(传统深度强化学***均奖赏值分布图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
如图1所示的基于深度强化学习的RIS辅助频谱共享方法的流程图,参见图1,所述方法包括:
S1.建立RIS辅助的频谱共享模型,确定频谱共享模型的主要用户PU与次要用户SU,以及主要用户PU的发射端及接收端,次要用户SU的发射端及接收端;
参见图2,所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU,所述主要用户PU包括发射端用户P2及接收端用户P1,所述次要用户SU包括发射端用户S2及接收端用户S1,所有用户节点均为单天线,RIS的反射单元数量为N,RIS的相位转换对角矩阵为Θ=diag(v1,v2,...,vN),其中,表示RIS的第N个反射单元的相位,θn∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移,n=1,...,N;
发射端用户P2与接收端用户S2均存在复高斯加性噪声,分别为和发射端用户P2的传输功率固定为p0=P0,发射端用户S2的传输功率在(0,Pmax]中变化,均表示复高斯分布的方差,P0代表主要用户PU的发射端P2的功率,为固定常数,P_max是次要用户所允许的最大发射功率。在本实施例中,考虑到信道衰落,RIS辅助的频谱共享模型中被RIS反射两次及以上的信号在计算中忽略不计,从发射端用户P2(发射端用户S2)到接收端用户P1(接收端用户S1)以及到RIS的基带等价信道可分别表示为hpp,hps和(hsp,hss和),与此同时从RIS到P1和S1的信道可以分别表示为和
S2.计算次要用户SU在接收端的信噪比,根据次要用户SU在接收端的信噪比,计算次要用户SU在接收端的通信速率;
次要用户SU在接收端的信噪比的表达式为:
其中,ps表示次要用户SU的接收端用户S1的传输功率,pp表示主要用户PU的接收端用户P1的传输功率,设vN=[v1,v2,...,vN],则i,j∈{p,s};hsrs表示由次要用户SU的发射端用户S2到RIS,再至由次要用户SU的接收端用户S1的基带等价信道;hss表示由次要用户SU的发射端用户S2到次要用户SU的接收端用户S1的基带等价信道;hprs表示由主要用户PU的发射端用户P2到RIS,再至次要用户SU的接收端用户S1的基带等价信道。
在本实施例中,P1端的信噪比可以表示为:
令γp≥γth以保证P1端的服务质量(QoS),其中γth是P1端最低要求的信噪比。次要用户SU在接收端的通信速率的表达式为:
Rs=log2(1+γs)
其中,Rs表示次要用户SU在接收端的通信速率。
S3.以次要用户SU在接收端的通信速率最大为目标函数,以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件,建立频谱共享优化模型;
在本实施例中,频谱共享优化模型的目标函数表达式为:
其中,目标函数的优化变量为ps和RIS的相移v,ps表示次要用户SU的接收端用户S1的传输功率;
约束条件表达式为:
ps≤Pmax,
|vn|=1,n=1,...,N
上述模型是一个目标函数为非凹函数以及优化变量相互耦合的非凸优化问题,利用传统优化方法求解显得十分困难,因此,执行步骤S4,引入深度强化学习的方法解决问题。
一个强化学习***包含两个主要部分:智能体和环境。智能体和环境直之间地互动可以用马尔科夫决策过程(MDP)来描述。即在每一幕的时间步数t,智能体与环境交互并从状态空间集合S中获取状态st,接着根据策略π从动作空间集合A中选择动作at。一旦动作完成,环境将当前状态更新为st+1并给智能体奖赏rt。智能体的目标则是学习出可以使得在整个决策过程中获得的累计奖赏最多的策略。
对于一个强化学习过程可以用以下要素来描述:
(1)状态(State):描述智能体所在的环境的集合,状态st∈S表示在t时刻智能体所处的状态环境。
(2)动作(Action):描述智能体所能做出的所有动作集合,动作at∈A表示在t时刻智能体所做出的动作。
(3)奖赏(Reward):用于评价智能体在当前状态下所做出的动作的好坏,奖赏rt=(st,at)表示智能体在t时刻做出动作at后所能得到的奖赏。
(5)状态-动作价值函数(state-action value function):状态-动作价值函数表示智能体在状态st下做出动作at后在后续决策过程中所能获得的潜在未来总奖赏,即Qπ(st,at)=Eπ[Rt|st,at],其中γ∈(0,1]。
按照以上定义,最佳策略可表示为:
其中ρt表示在整个过程中(st,at)的分布函数。具体的执行步骤S4:
S4.定义当前状态空间、动作空间,以次要用户SU在接收端的信噪比为奖赏函数,设置下一状态空间,引入神经网络,基于深度强化学习的SAC算法对神经网络进行训练;
动作空间at为:
奖赏函数rt为:
rt=γs
下一状态空间st+1:
基于深度强化学习的SAC算法对神经网络进行训练的过程为:
S41.初始化经验池D,随机选取初始状态s0,确定超参数;在本实施例中,超参数设置如表1所示:
表1
S42.对于对每一个时间步数t,获取当前动作at~πφ(at|st)以及下一状态空间st+1,并将{st,at,rt,st+1}存进经验池D;
S43.更新Q值网络,表示Qθ(st,at),满足步骤S43中,Q值网络输出单值Q,策略网络分别输出均值和方差来表示当前的(st,at)分布ρt,根据贝尔曼方程以及Q值函数,通过最小化贝尔曼方程误差来更新Q值网络参数:
通过解决优化问题得到α的更新函数:
在此,由于在训练过程中,回报(reward)是不断变化的,人为固定熵的权重α并不合理,会让整个训练变得极不稳定,因此权重α应根据当前环境自动调节。当策略探索到新的区域时,最优动作仍不确定,应鼓励智能体探索更多空间,此时应增大α,当某一区域几乎探索完毕时,应减小α。
证明过程如下:
通过上面的分析,可以从最后的时间T开始优化:
为后续证明方便,定义以下函数:
则优化问题(P1)可改写成:
(P1.1)max f(πT)s.t.h(πT)≥0
将上述问题(P1.1)转化为拉格朗日对偶问题,并乘上拉格朗日乘子αT(αT≥0):
L(πT,αT)=f(πT)+αTh(πT)
考虑最小化拉格朗日函数L(πT,αT),并考虑以下两种情况:
1.当约束满足,即h(πT)≥0,可以令αT=0,此时L(πT,0)=f(πT);
2.当约束不满足,即h(πT)<0,当αT→∞时,L(πT,αT)→-∞,此时L(πT,0)=f(πT)。
由此拉格朗日对偶问题可以写成(注意要确保满足约束条件才能保证f(πT)能被合理地最大化且不会变成-∞):
则有:
注意到原问题(P1)的目标函数为线性函数,约束是关于πT凸函数,因此原问题的强对偶性成立。
现在回推T-1时刻,由Q函数的贝尔曼方程及贝尔曼最优方程知:
QT-1(sT-1,aT-1)=r(sT-1,aT-1)+Ε[Q(sT,aT)-αTlogπ(αT|sT)]
=r(sT-1,aT-1)+Ε[r(sT,aT)+αTH(πT)]
仿照上述T时刻的推导,可以得出在T-1时刻有:
即能得到当前状态(state)下最优的熵权重αt。
基于深度强化学习的SAC算法对神经网络进行训练时,基于策略的强化学习迭代,使得策略的每一次输出动作上最大,训练完成,得到最佳策略表示为:
对于最大熵的贝尔曼方程表示为:
其对应的Q值函数可以写成:
基于策略的强化学习迭代分为两个阶段,策略评价以及策略改进,在策略评价阶段,固定策略,利用Q值函数更新Q值直到收敛;在策略改进阶段,利用下式对策略进行更新:
其中,πnew表示更新后的策略;DKL表示Kullback-Leibler散度。
在使用策略网络输出动作时,使用tanh函数将动作限定在(-1,1)的范围内,导致策略分布发生变化,因此对对数似然值作出修正,表达式为:
其中,ut是在t时刻策略网络输出没有被tanh函数作出限制的动作;在训练时,对Q值网络以及策略网络πφ使用Layer Normalization归一化,使得网络数据分布更加合理,并且加快了智能体探索的速度,减少训练时间,同时Layer Normalization归一化对batch的大小并不敏感,让神经网络更加容易训练。
S5.根据训练好的神经网络求解出频谱共享优化模型,得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。
下面结合具体的实验结果对本发明所提的方法做进一步的验证。
图3表示本发明实施例中提出的最大发射功率对次要用户通信速率的影响及数值算法(AO)和强化学***均奖赏,进一步反映次要用户通信速率,平均奖赏值由下式给出:
从图3中可以看到两种强化学习算法(SAC和DDPG)性能与常规使用数值方法所的出的结果几乎一致,而强化学习算法无需复杂的数学分析,能适应不同的优化模型,此外,由图3可以看出,SAC算法在性能上比传统的DDPG算法更为优秀。
进一步,为了更加清晰的分析本发明所提的SAC算法与DDPG算法的优劣性,图4表示在2000步处做奖赏平均处理时,在不同发射功率下,本发明实施例中提出的采用SAC与DDPG算法(传统深度强化学***均奖赏,分别对两个算法在20000步的奖赏做平均处理,从图4中可以看到无论在较小的发射功率(0dB)或者较大的发射功率(10dB),SAC的性能都优于DDPG,此外当功率较大时,SAC的优势更加明显。
图5表示在最大传输速率Pmax取0时,本发明实施例中所提出的采用SAC算法与DDPG算法(传统深度强化学***均奖赏值分布图,横坐标表示时间步数,总做表表示平均奖赏,由于DDPG算法的动作探索是通过人为在输出动作端加上噪声实现的,因此它的输出动作分布方差很大,从而导致奖赏值会振荡得比较厉害,相反对于SAC算法,它的动作是从策略分布函数中随机抽取的,这样不仅达到了加载噪声的效果,而且策略分布函数是智能体自动地通过经验不断学***均奖赏值低于SAC算法的平均奖赏值的原因。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于深度强化学习的RIS辅助频谱共享方法,其特征在于,至少包括:
S1.建立RIS辅助的频谱共享模型,确定频谱共享模型的主要用户PU与次要用户SU,以及主要用户PU的发射端及接收端,次要用户SU的发射端及接收端;
S2.计算次要用户SU在接收端的信噪比,根据次要用户SU在接收端的信噪比,计算次要用户SU在接收端的通信速率;
S3.以次要用户SU在接收端的通信速率最大为目标函数,以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件,建立频谱共享优化模型;
S4.定义当前状态空间、动作空间,以次要用户SU在接收端的信噪比为奖赏函数,设置下一状态空间,引入神经网络,基于深度强化学习的SAC算法对神经网络进行训练;
S5.根据训练好的神经网络求解出频谱共享优化模型,得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。
2.根据权利要求1所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S1中所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU,所述主要用户PU包括发射端用户P2及接收端用户P1,所述次要用户SU包括发射端用户S2及接收端用户S1,所有用户节点均为单天线,RIS的反射单元数量为N,RIS的相位转换对角矩阵为Θ=diag(v1,v2,...,vN),其中,表示RIS的第N个反射单元的相位,θn∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移,n=1,...,N;
4.根据权利要求3所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,次要用户SU在接收端的通信速率的表达式为:
Rs=log2(1+γs)
其中,Rs表示次要用户SU在接收端的通信速率。
8.根据权利要求7所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S43中,Q值网络输出单值Q,策略网络分别输出均值和方差来表示当前的(st,at)分布ρt,根据贝尔曼方程以及Q值函数,通过最小化贝尔曼方程误差来更新Q值网络参数:
步骤S44中,更新策略网络πφ通过最小化策略的KL散度实现,其中,
其中,at=μt+σt⊙εε~N(0,I),使得训练过程可微,I表示全为1的向量;Z是一个常数,用于对分布进行归一化;μ以及σ分别为策略网络输出的均值和方差,ε为噪声,以此增强智能体的探索能力,最后,最小化KL散度表示为:
步骤S45中,为找到在任意时刻的最优权重α,构造一个带约束的优化问题:
通过解决优化问题得到α的更新函数:
其中,E表示期望,H0表示目标熵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513622.4A CN113259944B (zh) | 2021-05-11 | 2021-05-11 | 一种基于深度强化学习的ris辅助频谱共享方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513622.4A CN113259944B (zh) | 2021-05-11 | 2021-05-11 | 一种基于深度强化学习的ris辅助频谱共享方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113259944A true CN113259944A (zh) | 2021-08-13 |
CN113259944B CN113259944B (zh) | 2022-05-10 |
Family
ID=77222845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110513622.4A Active CN113259944B (zh) | 2021-05-11 | 2021-05-11 | 一种基于深度强化学习的ris辅助频谱共享方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113259944B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709755A (zh) * | 2021-08-25 | 2021-11-26 | 武汉大学 | 一种基于ris技术的异构网络公平共存方法 |
CN114509765A (zh) * | 2021-12-31 | 2022-05-17 | 江苏微之润智能技术有限公司 | 一种利用深度强化学习的自动调节对波机械转轴的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110225525A (zh) * | 2019-06-06 | 2019-09-10 | 广东工业大学 | 一种基于认知无线电网络的频谱共享方法、装置及设备 |
WO2020244906A1 (en) * | 2019-06-03 | 2020-12-10 | Nokia Solutions And Networks Oy | Uplink power control using deep q-learning |
CN112350759A (zh) * | 2020-11-05 | 2021-02-09 | 北京理工大学 | 一种ris辅助的多用户多天线通信与雷达频谱共享方法 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
US20210135703A1 (en) * | 2019-10-30 | 2021-05-06 | CCDC Army Research Laboratory | Method and system for optimizing transceiver spectrum sharing |
-
2021
- 2021-05-11 CN CN202110513622.4A patent/CN113259944B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244906A1 (en) * | 2019-06-03 | 2020-12-10 | Nokia Solutions And Networks Oy | Uplink power control using deep q-learning |
CN110225525A (zh) * | 2019-06-06 | 2019-09-10 | 广东工业大学 | 一种基于认知无线电网络的频谱共享方法、装置及设备 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
US20210135703A1 (en) * | 2019-10-30 | 2021-05-06 | CCDC Army Research Laboratory | Method and system for optimizing transceiver spectrum sharing |
CN112350759A (zh) * | 2020-11-05 | 2021-02-09 | 北京理工大学 | 一种ris辅助的多用户多天线通信与雷达频谱共享方法 |
Non-Patent Citations (1)
Title |
---|
XINRONG GUAN, ET AL.: "Joint Power Control and Passive Beamforming in IRS-Assisted Spectrum Sharing", 《IEEE COMMUNICATIONS LETTERS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709755A (zh) * | 2021-08-25 | 2021-11-26 | 武汉大学 | 一种基于ris技术的异构网络公平共存方法 |
CN113709755B (zh) * | 2021-08-25 | 2022-06-07 | 武汉大学 | 一种基于ris技术的异构网络公平共存方法 |
CN114509765A (zh) * | 2021-12-31 | 2022-05-17 | 江苏微之润智能技术有限公司 | 一种利用深度强化学习的自动调节对波机械转轴的方法 |
CN114509765B (zh) * | 2021-12-31 | 2024-05-28 | 江苏微之润智能技术有限公司 | 一种利用深度强化学习的自动调节对波机械转轴的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113259944B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN114389678B (zh) | 一种基于决策性能评估的多波束卫星资源分配方法 | |
CN110971279B (zh) | 一种毫米波通信***中智能波束训练方法及预编码*** | |
CN113259944B (zh) | 一种基于深度强化学习的ris辅助频谱共享方法 | |
CN114422363B (zh) | 一种无人机搭载ris辅助通信***容量优化方法及装置 | |
CN113193894A (zh) | 可重构智能表面辅助的多用户miso下行无线通信谱效能效联合优化方法 | |
CN112019249B (zh) | 一种基于深度强化学习的智能反射面调控方法及装置 | |
CN113225794B (zh) | 一种基于深度强化学习的全双工认知通信功率控制方法 | |
CN113691295B (zh) | 一种基于irs的异构网络中干扰抑制方法 | |
CN111726156A (zh) | 一种基于noma的资源分配方法与装置 | |
CN112803978B (zh) | 基于逐次逼近的智能表面miso***联合波束成形方法 | |
CN114143150A (zh) | 一种用户公平性通信传输方法 | |
Yan et al. | QoE-based semantic-aware resource allocation for multi-task networks | |
CN116916429A (zh) | 基于模糊逻辑的读写器动态功率控制方法 | |
CN111740766A (zh) | 一种基于码本的波束设计方法与装置 | |
CN115733533B (zh) | 基于流形的irs辅助去蜂窝大规模mimo***波束赋形方法 | |
CN116684851A (zh) | 基于mappo的多ris辅助车联网吞吐量提升方法 | |
CN116709538A (zh) | 一种双ris协作辅助的noma***上行传输方法及装置 | |
CN114845363B (zh) | 一种反射面辅助的低功耗数据卸载方法及*** | |
CN116033461A (zh) | 一种基于star-ris辅助的共生无线电传输方法 | |
CN113395757B (zh) | 基于改进回报函数的深度强化学习认知网络功率控制方法 | |
CN112468197B (zh) | 一种联合优化c-ran中波束成形和用户关联方法 | |
CN114938512A (zh) | 一种宽带容量优化方法及装置 | |
CN113747386A (zh) | 认知无线电网络频谱共享中的智能功率控制方法 | |
CN113595609A (zh) | 一种基于强化学习的蜂窝移动通信***协作式信号发送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |