CN113259944A - 一种基于深度强化学习的ris辅助频谱共享方法 - Google Patents

一种基于深度强化学习的ris辅助频谱共享方法 Download PDF

Info

Publication number
CN113259944A
CN113259944A CN202110513622.4A CN202110513622A CN113259944A CN 113259944 A CN113259944 A CN 113259944A CN 202110513622 A CN202110513622 A CN 202110513622A CN 113259944 A CN113259944 A CN 113259944A
Authority
CN
China
Prior art keywords
user
ris
receiving end
strategy
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110513622.4A
Other languages
English (en)
Other versions
CN113259944B (zh
Inventor
张广驰
钟灿伟
崔苗
刘圣海
王昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110513622.4A priority Critical patent/CN113259944B/zh
Publication of CN113259944A publication Critical patent/CN113259944A/zh
Application granted granted Critical
Publication of CN113259944B publication Critical patent/CN113259944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出一种基于深度强化学习的RIS辅助频谱共享方法,解决了传统优化方法需复杂的数学计算和数学推导,无法对模型泛化的问题,首先建立RIS辅助的频谱共享模型,使得主要用户和次要用户均能获得良好的通信质量;以最大化次要用户SU在接收端的通信速率为目标,并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件,采用基于深度强化学习的SAC算法进行求解,即使优化模型转换,本申请所提的方法也具有通用性,拥有较好的动作探索能力,有效避免陷入局部次优解,收敛性能稳定。

Description

一种基于深度强化学习的RIS辅助频谱共享方法
技术领域
本发明涉及无线通信频谱资源优化的技术领域,更具体地,涉及一种基于深度强化学习的RIS辅助频谱共享方法。
背景技术
近年来,一种全新的技术引起了无线通信研究界的关注:可重构智能反射平面(RIS)。RIS技术被认为是一种非常有发展潜力和前景的B5G/6G无线通信技术,它是一个包含了大量无源反射单元的平面,平面上每一个单元都能独立智能地改变和控制入射信号的幅度以及相位。通过大规模地在无线网络通信中部署RIS,可以灵活地调整发射机和接收机之间地信号传输状态和无线信道状态,以达到大幅改善信号传输性能和获取所需要的无线信道状态分布的目的,从而为从根本上解决无线信道衰落和干扰问题提供了一种全新地方法,并由此可能让无线通信能力和可靠性有一个巨大地飞跃。
此外,6G技术的开发也是为了寻找新的可用频谱资源,频谱稀缺问题已成为的全世界通信难题。而在频谱资源如此稀缺的时代下,无线电认知的频谱共享技术成为了解决频谱资源稀缺的重要手段,然而在传统的无线电认知***中,由于主要用户的通信链路强干扰,使得次要用户很难得到比较良好的通信质量,而RIS则很有效地解决了这个问题,在保证主要用户的通信速率同时,极大地改善了次要用户地通信速率。
RIS主要是通过改变入射信号的幅度和相位来实现它相应的功能,因此如何设计反射单元的幅度和相位变换能让RIS能反射出用户所需要的信号成为实现RIS技术的关键所在,即应该如何设计RIS的反射波束成形。目前使用优化RIS反射波束成形的方法主要是在优化领域的数值方法,如2020年7月,X.Guan,Q.Wu,R.Zhang在IEEE CommunicationsLetters上发表“Joint Power Control and Passive Beamforming in IRS-AssistedSpectrum Sharing(vol.24,no.7,pp.1553-1557)”的文章,阐述了通过传统优化方法以及在RIS辅助下,设计RIS的反射波束成形,在保证主用户通信速率的前提下最大化次用户的通信速率,此过程中使用了传统的数值优化方法,但是算法复杂度大且使用了复杂的数学变换,此外一旦变换了模型和优化问题后,便要重新寻找新的算法。另外,关于RIS反射波束成形的优化问题大多数是非凸问题,因此使用传统的优化方法去解决这一类问题会变得十分困难,涉及到许多十分复杂的数学推导和数值优化技术。
发明内容
为解决传统优化方法需复杂的数学计算和数学推导,无法对模型泛化的问题,本发明提出一种基于深度强化学习的RIS辅助频谱共享方法,探索能力强,有效避免陷入局部次优解,拥有稳定的收敛性能。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度强化学习的RIS辅助频谱共享方法,至少包括:
S1.建立RIS辅助的频谱共享模型,确定频谱共享模型的主要用户PU与次要用户SU,以及主要用户PU的发射端及接收端,次要用户SU的发射端及接收端;
S2.计算次要用户SU在接收端的信噪比,根据次要用户SU在接收端的信噪比,计算次要用户SU在接收端的通信速率;
S3.以次要用户SU在接收端的通信速率最大为目标函数,以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件,建立频谱共享优化模型;
S4.定义当前状态空间、动作空间,以次要用户SU在接收端的信噪比为奖赏函数,设置下一状态空间,引入神经网络,基于深度强化学习的SAC算法对神经网络进行训练;
S5.根据训练好的神经网络求解出频谱共享优化模型,得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。
在本技术方案中,首先建立RIS辅助的频谱共享模型,确认以RIS为中心的主要用户PU与次要用户SU的信道传输,使用智能反射平面重新调整发射端、主要接收用户和次要接收用户的信道,使得主要用户和次要用户都能获得良好的通信质量,然后以最大化次要用户SU在接收端的通信速率为目标,优化变量为RIS对入射信号的相移以及次要用户SU在接收端的传输速率,并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件,采用基于深度强化学习的SAC算法进行求解,算法所基于的是构建神经网络以及神经网络的训练,SAC属于最大熵深度强化学习算法,除了强化学习的基本目标外,还要求策略每一次输出的动作熵最大,得出最佳策略,所述的最佳策略可直接对应RIS对入射信号的相移,进一步得出次要用户SU在接收端的传输速率,即使优化模型转换,本申请所提的方法也具有通用性,而且拥有更好的动作探索能力,有效避免陷入局部次优解,收敛性能稳定。
优选地,步骤S1中所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU,所述主要用户PU包括发射端用户P2及接收端用户P1,所述次要用户SU包括发射端用户S2及接收端用户S1,所有用户节点均为单天线,RIS的反射单元数量为N,RIS的相位转换对角矩阵为Θ=diag(v1,v2,...,vN),其中,
Figure BDA0003061236760000031
表示RIS的第N个反射单元的相位,θn∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移,n=1,...,N;
发射端用户P2与接收端用户S2均存在复高斯加性噪声,分别为
Figure BDA0003061236760000032
Figure BDA0003061236760000033
发射端用户P2的传输功率固定为p0=P0,发射端用户S2的传输功率在(0,Pmax]中变化,
Figure BDA0003061236760000034
均表示复高斯分布的方差,P0代表主要用户PU的发射端P2的功率,为固定常数,P_max是次要用户所允许的最大发射功率。
在此,考虑到信道衰落,RIS辅助的频谱共享模型中被RIS反射两次及以上的信号在计算中忽略不计,从发射端用户P2(发射端用户S2)到接收端用户P1(接收端用户S1)以及到RIS的基带等价信道可分别表示为hpp,hps
Figure BDA0003061236760000035
(hsp,hss
Figure BDA0003061236760000036
),与此同时从RIS到P1和S1的信道可以分别表示为
Figure BDA0003061236760000037
Figure BDA0003061236760000038
优选地,步骤S2所述的次要用户SU在接收端的信噪比的表达式为:
Figure BDA0003061236760000039
其中,ps表示次要用户SU的接收端用户S1的传输功率,pp表示主要用户PU的接收端用户P1的传输功率,设
Figure BDA00030612367600000310
vN=[v1,v2,...,vN],则
Figure BDA00030612367600000311
i,j∈{p,s};hsrs表示由次要用户SU的发射端用户S2到RIS,再至由次要用户SU的接收端用户S1的基带等价信道;hss表示由次要用户SU的发射端用户S2到次要用户SU的接收端用户S1的基带等价信道;hprs表示由主要用户PU的发射端用户P2到RIS,再至次要用户SU的接收端用户S1的基带等价信道。
优选地,次要用户SU在接收端的通信速率的表达式为:
Rs=log2(1+γs)
其中,Rs表示次要用户SU在接收端的通信速率。
优选地,步骤S3所述的频谱共享优化模型的目标函数表达式为:
Figure BDA0003061236760000041
其中,目标函数的优化变量为ps和RIS的相移v,ps表示次要用户SU的接收端用户S1的传输功率;
约束条件表达式为:
Figure BDA0003061236760000042
ps≤Pmax,
|vn|=1,n=1,...,N
优选地,步骤S4中,
Figure BDA0003061236760000043
以及
Figure BDA0003061236760000044
则当前状态空间st为:
Figure BDA0003061236760000045
其中,
Figure BDA0003061236760000046
表示参数;
动作空间at为:
Figure BDA0003061236760000047
奖赏函数rt为:
rt=γs
下一状态空间st+1
Figure BDA0003061236760000048
引入神经网络的个数为5个,分别表示为:
Figure BDA0003061236760000049
πφ,其中,
Figure BDA00030612367600000410
表示第一Q值网络;
Figure BDA0003061236760000051
表示第二Q值网络;
Figure BDA0003061236760000052
表示第一个目标Q值网络;
Figure BDA0003061236760000053
表示第二个目标Q值网络;πφ表示策略网络。
优选地,步骤S4中基于深度强化学习的SAC算法对神经网络进行训练的过程为:
S41.初始化经验池D,随机选取初始状态s0,确定超参数;
S42.对于对每一个时间步数t,获取当前动作at~πφ(at|st)以及下一状态空间st+1,并将{st,at,rt,st+1}存进经验池D;
S43.更新Q值网络,表示Qθ(st,at),满足
Figure BDA0003061236760000054
S44.更新策略网络πφ,表示策略πφ(st,at),满足
Figure BDA0003061236760000055
S45.更新熵权重α,即
Figure BDA0003061236760000056
S46.更新目标Q值网络,即
Figure BDA0003061236760000057
以上,λ表示学习率,
Figure BDA0003061236760000058
表示求偏导;J代表损失函数。
优选地,步骤S43中,Q值网络输出单值Q,策略网络分别输出均值和方差来表示当前的(st,at)分布ρt,根据贝尔曼方程以及Q值函数,通过最小化贝尔曼方程误差来更新Q值网络参数:
Figure BDA0003061236760000059
其中,D为经验池,
Figure BDA00030612367600000510
为目标Q值网络,其参数
Figure BDA00030612367600000511
通过soft update进行更新;
步骤S44中,更新策略网络πφ通过最小化策略的KL散度实现,其中,
Figure BDA00030612367600000512
其中,
Figure BDA00030612367600000513
使得训练过程可微,I表示全为1的向量;Z是一个常数,用于对分布进行归一化;μ以及σ分别为策略网络输出的均值和方差,ε为噪声,以此增强智能体的探索能力,
最后,最小化KL散度表示为:
Figure BDA0003061236760000061
步骤S45中,为找到在任意时刻的最优权重α,构造一个带约束的优化问题:
Figure BDA0003061236760000062
Figure BDA0003061236760000063
通过解决优化问题得到α的更新函数:
Figure BDA0003061236760000064
其中,E表示期望,H0表示目标熵。
在此,由于在训练过程中,回报(reward)是不断变化的,人为固定熵的权重α并不合理,会让整个训练变得极不稳定,因此权重α应根据当前环境自动调节。当策略探索到新的区域时,最优动作仍不确定,应鼓励智能体探索更多空间,此时应增大α,当某一区域几乎探索完毕时,应减小α。
优选地,基于深度强化学习的SAC算法对神经网络进行训练时,基于策略的强化学习迭代,使得策略的每一次输出动作上最大,训练完成,得到最佳策略表示为:
Figure BDA0003061236760000065
π*表示最佳策略;
对于最大熵的贝尔曼方程表示为:
Figure BDA0003061236760000066
其对应的Q值函数可以写成:
Figure BDA0003061236760000067
基于策略的强化学习迭代分为两个阶段,策略评价以及策略改进,在策略评价阶段,固定策略,利用Q值函数更新Q值直到收敛;在策略改进阶段,利用下式对策略进行更新:
Figure BDA0003061236760000071
其中,πnew表示更新后的策略;DKL表示Kullback-Leibler散度
优选地,在使用策略网络输出动作时,使用tanh函数将动作限定在(-1,1)的范围内,导致策略分布发生变化,因此对对数似然值作出修正,表达式为:
Figure BDA0003061236760000072
其中,ut是在t时刻策略网络输出没有被tanh函数作出限制的动作;在训练时,对Q值网络以及策略网络πφ使用Layer Normalization归一化,使得网络数据分布更加合理,并且加快了智能体探索的速度,减少训练时间,同时Layer Normalization归一化对batch的大小并不敏感,让神经网络更加容易训练。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于深度强化学***面重新调整发射端、主要接收用户和次要接收用户的信道,使得主要用户和次要用户均能获得良好的通信质量,然后以最大化次要用户SU在接收端的通信速率为目标,优化变量为RIS对入射信号的相移以及次要用户SU在接收端的传输速率,并考虑主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移的约束条件,采用基于深度强化学习的SAC算法进行求解,即使优化模型转换,本申请所提的方法也具有通用性,而且拥有更好的动作探索能力,有效避免陷入局部次优解,收敛性能稳定。
附图说明
图1表示本发明实施例中提出的基于深度强化学习的RIS辅助频谱共享方法的流程图;
图2表示本发明实施例中建立的RIS辅助的频谱共享模型的结构图;
图3表示本发明实施例中提出的最大发射功率对次要用户通信速率的影响及数值算法(AO)和强化学习算法的性能比较折线图;
图4表示在2000步处做奖赏平均处理时,在不同发射功率下,本发明实施例中提出的采用SAC与DDPG算法(传统深度强化学习算法)的性能比较图;
图5表示在最大传输速率Pmax取0时,本发明实施例中所提出的采用SAC算法与DDPG算法(传统深度强化学***均奖赏值分布图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
如图1所示的基于深度强化学习的RIS辅助频谱共享方法的流程图,参见图1,所述方法包括:
S1.建立RIS辅助的频谱共享模型,确定频谱共享模型的主要用户PU与次要用户SU,以及主要用户PU的发射端及接收端,次要用户SU的发射端及接收端;
参见图2,所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU,所述主要用户PU包括发射端用户P2及接收端用户P1,所述次要用户SU包括发射端用户S2及接收端用户S1,所有用户节点均为单天线,RIS的反射单元数量为N,RIS的相位转换对角矩阵为Θ=diag(v1,v2,...,vN),其中,
Figure BDA0003061236760000081
表示RIS的第N个反射单元的相位,θn∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移,n=1,...,N;
发射端用户P2与接收端用户S2均存在复高斯加性噪声,分别为
Figure BDA0003061236760000082
Figure BDA0003061236760000083
发射端用户P2的传输功率固定为p0=P0,发射端用户S2的传输功率在(0,Pmax]中变化,
Figure BDA0003061236760000084
均表示复高斯分布的方差,P0代表主要用户PU的发射端P2的功率,为固定常数,P_max是次要用户所允许的最大发射功率。在本实施例中,考虑到信道衰落,RIS辅助的频谱共享模型中被RIS反射两次及以上的信号在计算中忽略不计,从发射端用户P2(发射端用户S2)到接收端用户P1(接收端用户S1)以及到RIS的基带等价信道可分别表示为hpp,hps
Figure BDA0003061236760000091
(hsp,hss
Figure BDA0003061236760000092
),与此同时从RIS到P1和S1的信道可以分别表示为
Figure BDA0003061236760000093
Figure BDA0003061236760000094
S2.计算次要用户SU在接收端的信噪比,根据次要用户SU在接收端的信噪比,计算次要用户SU在接收端的通信速率;
次要用户SU在接收端的信噪比的表达式为:
Figure BDA0003061236760000095
其中,ps表示次要用户SU的接收端用户S1的传输功率,pp表示主要用户PU的接收端用户P1的传输功率,设
Figure BDA0003061236760000096
vN=[v1,v2,...,vN],则
Figure BDA0003061236760000097
i,j∈{p,s};hsrs表示由次要用户SU的发射端用户S2到RIS,再至由次要用户SU的接收端用户S1的基带等价信道;hss表示由次要用户SU的发射端用户S2到次要用户SU的接收端用户S1的基带等价信道;hprs表示由主要用户PU的发射端用户P2到RIS,再至次要用户SU的接收端用户S1的基带等价信道。
在本实施例中,P1端的信噪比可以表示为:
Figure BDA0003061236760000098
令γp≥γth以保证P1端的服务质量(QoS),其中γth是P1端最低要求的信噪比。次要用户SU在接收端的通信速率的表达式为:
Rs=log2(1+γs)
其中,Rs表示次要用户SU在接收端的通信速率。
S3.以次要用户SU在接收端的通信速率最大为目标函数,以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件,建立频谱共享优化模型;
在本实施例中,频谱共享优化模型的目标函数表达式为:
Figure BDA0003061236760000099
其中,目标函数的优化变量为ps和RIS的相移v,ps表示次要用户SU的接收端用户S1的传输功率;
约束条件表达式为:
Figure BDA0003061236760000101
ps≤Pmax,
|vn|=1,n=1,...,N
上述模型是一个目标函数为非凹函数以及优化变量相互耦合的非凸优化问题,利用传统优化方法求解显得十分困难,因此,执行步骤S4,引入深度强化学习的方法解决问题。
一个强化学习***包含两个主要部分:智能体和环境。智能体和环境直之间地互动可以用马尔科夫决策过程(MDP)来描述。即在每一幕的时间步数t,智能体与环境交互并从状态空间集合S中获取状态st,接着根据策略π从动作空间集合A中选择动作at。一旦动作完成,环境将当前状态更新为st+1并给智能体奖赏rt。智能体的目标则是学习出可以使得在整个决策过程中获得的累计奖赏最多的策略。
对于一个强化学习过程可以用以下要素来描述:
(1)状态(State):描述智能体所在的环境的集合,状态st∈S表示在t时刻智能体所处的状态环境。
(2)动作(Action):描述智能体所能做出的所有动作集合,动作at∈A表示在t时刻智能体所做出的动作。
(3)奖赏(Reward):用于评价智能体在当前状态下所做出的动作的好坏,奖赏rt=(st,at)表示智能体在t时刻做出动作at后所能得到的奖赏。
(4)策略(Policy):策略π(st,at)表示智能体在处在状态st的前提下选择做出动作at的概率,并满足
Figure BDA0003061236760000102
(5)状态-动作价值函数(state-action value function):状态-动作价值函数表示智能体在状态st下做出动作at后在后续决策过程中所能获得的潜在未来总奖赏,即Qπ(st,at)=Eπ[Rt|st,at],其中
Figure BDA0003061236760000103
γ∈(0,1]。
按照以上定义,最佳策略可表示为:
Figure BDA0003061236760000111
其中ρt表示在整个过程中(st,at)的分布函数。具体的执行步骤S4:
S4.定义当前状态空间、动作空间,以次要用户SU在接收端的信噪比为奖赏函数,设置下一状态空间,引入神经网络,基于深度强化学习的SAC算法对神经网络进行训练;
Figure BDA0003061236760000112
以及
Figure BDA0003061236760000113
则当前状态空间st为:
Figure BDA0003061236760000114
其中,
Figure BDA0003061236760000115
表示参数
动作空间at为:
Figure BDA0003061236760000116
奖赏函数rt为:
rt=γs
下一状态空间st+1
Figure BDA0003061236760000117
引入神经网络的个数为5个,分别表示为:
Figure BDA0003061236760000118
πφ,其中,
Figure BDA0003061236760000119
表示第一Q值网络;
Figure BDA00030612367600001110
表示第二Q值网络;
Figure BDA00030612367600001111
表示第一个目标Q值网络;
Figure BDA00030612367600001112
表示第二个目标Q值网络;πφ表示策略网络。
基于深度强化学习的SAC算法对神经网络进行训练的过程为:
S41.初始化经验池D,随机选取初始状态s0,确定超参数;在本实施例中,超参数设置如表1所示:
表1
Figure BDA00030612367600001113
Figure BDA0003061236760000121
S42.对于对每一个时间步数t,获取当前动作at~πφ(at|st)以及下一状态空间st+1,并将{st,at,rt,st+1}存进经验池D;
S43.更新Q值网络,表示Qθ(st,at),满足
Figure BDA0003061236760000122
步骤S43中,Q值网络输出单值Q,策略网络分别输出均值和方差来表示当前的(st,at)分布ρt,根据贝尔曼方程以及Q值函数,通过最小化贝尔曼方程误差来更新Q值网络参数:
Figure BDA0003061236760000123
其中,D为经验池,
Figure BDA0003061236760000124
为目标Q值网络,其参数
Figure BDA0003061236760000125
通过soft update进行更新;
S44.更新策略网络πφ,表示策略πφ(st,at),满足
Figure BDA0003061236760000126
步骤S44中,更新策略网络πφ通过最小化策略的KL散度实现,其中,
Figure BDA0003061236760000127
其中,
Figure BDA0003061236760000131
使得训练过程可微,I表示全为1的向量;Z是一个常数,用于对分布进行归一化;μ以及σ分别为策略网络输出的均值和方差,ε为噪声,以此增强智能体的探索能力,最后,最小化KL散度表示为:
Figure BDA0003061236760000132
S45.更新熵权重α,即
Figure BDA0003061236760000133
步骤S45中,为找到在任意时刻的最优权重α,构造一个带约束的优化问题:
Figure BDA0003061236760000134
Figure BDA0003061236760000135
通过解决优化问题得到α的更新函数:
Figure BDA0003061236760000136
在此,由于在训练过程中,回报(reward)是不断变化的,人为固定熵的权重α并不合理,会让整个训练变得极不稳定,因此权重α应根据当前环境自动调节。当策略探索到新的区域时,最优动作仍不确定,应鼓励智能体探索更多空间,此时应增大α,当某一区域几乎探索完毕时,应减小α。
证明过程如下:
由于在t时刻的策略πt对之前时刻t-1的策略πt-1不会产生影响,因此累计回报
Figure BDA0003061236760000137
可以拆解为:
Figure BDA0003061236760000138
通过上面的分析,可以从最后的时间T开始优化:
Figure BDA0003061236760000139
为后续证明方便,定义以下函数:
Figure BDA00030612367600001310
Figure BDA0003061236760000141
则优化问题(P1)可改写成:
(P1.1)max f(πT)s.t.h(πT)≥0
将上述问题(P1.1)转化为拉格朗日对偶问题,并乘上拉格朗日乘子αTT≥0):
L(πTT)=f(πT)+αTh(πT)
考虑最小化拉格朗日函数L(πTT),并考虑以下两种情况:
1.当约束满足,即h(πT)≥0,可以令αT=0,此时L(πT,0)=f(πT);
2.当约束不满足,即h(πT)<0,当αT→∞时,L(πTT)→-∞,此时L(πT,0)=f(πT)。
综合上述讨论,f(πT)为L(πTT)的对偶函数,即
Figure BDA0003061236760000142
由此拉格朗日对偶问题可以写成(注意要确保满足约束条件才能保证f(πT)能被合理地最大化且不会变成-∞):
Figure BDA0003061236760000143
则有:
Figure BDA0003061236760000144
注意到原问题(P1)的目标函数为线性函数,约束是关于πT凸函数,因此原问题的强对偶性成立。
接下来对πT与αT进行交替迭代,即对给定的当前αT计算出当前最优
Figure BDA0003061236760000145
然后将
Figure BDA0003061236760000151
代入计算出当前最优
Figure BDA0003061236760000152
由此可以得出:
Figure BDA0003061236760000153
Figure BDA0003061236760000154
现在回推T-1时刻,由Q函数的贝尔曼方程及贝尔曼最优方程知:
QT-1(sT-1,aT-1)=r(sT-1,aT-1)+Ε[Q(sT,aT)-αTlogπ(αT|sT)]
=r(sT-1,aT-1)+Ε[r(sT,aT)+αTH(πT)]
Figure BDA0003061236760000155
仿照上述T时刻的推导,可以得出在T-1时刻有:
Figure BDA0003061236760000156
同理得到最优
Figure BDA0003061236760000157
以及
Figure BDA0003061236760000158
Figure BDA0003061236760000159
Figure BDA00030612367600001510
Figure BDA00030612367600001511
以及
Figure BDA00030612367600001512
表达式可知,在每个时刻t最小化目标函数:
Figure BDA00030612367600001513
即能得到当前状态(state)下最优的熵权重αt
S46.更新目标Q值网络,即
Figure BDA00030612367600001514
以上,λ表示学习率,▽表示求偏导;J代表损失函数。
基于深度强化学习的SAC算法对神经网络进行训练时,基于策略的强化学习迭代,使得策略的每一次输出动作上最大,训练完成,得到最佳策略表示为:
Figure BDA0003061236760000161
对于最大熵的贝尔曼方程表示为:
Figure BDA0003061236760000162
其对应的Q值函数可以写成:
Figure BDA0003061236760000163
基于策略的强化学习迭代分为两个阶段,策略评价以及策略改进,在策略评价阶段,固定策略,利用Q值函数更新Q值直到收敛;在策略改进阶段,利用下式对策略进行更新:
Figure BDA0003061236760000164
其中,πnew表示更新后的策略;DKL表示Kullback-Leibler散度。
在使用策略网络输出动作时,使用tanh函数将动作限定在(-1,1)的范围内,导致策略分布发生变化,因此对对数似然值作出修正,表达式为:
Figure BDA0003061236760000165
其中,ut是在t时刻策略网络输出没有被tanh函数作出限制的动作;在训练时,对Q值网络以及策略网络πφ使用Layer Normalization归一化,使得网络数据分布更加合理,并且加快了智能体探索的速度,减少训练时间,同时Layer Normalization归一化对batch的大小并不敏感,让神经网络更加容易训练。
S5.根据训练好的神经网络求解出频谱共享优化模型,得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。
下面结合具体的实验结果对本发明所提的方法做进一步的验证。
图3表示本发明实施例中提出的最大发射功率对次要用户通信速率的影响及数值算法(AO)和强化学***均奖赏,进一步反映次要用户通信速率,平均奖赏值由下式给出:
Figure BDA0003061236760000171
从图3中可以看到两种强化学习算法(SAC和DDPG)性能与常规使用数值方法所的出的结果几乎一致,而强化学习算法无需复杂的数学分析,能适应不同的优化模型,此外,由图3可以看出,SAC算法在性能上比传统的DDPG算法更为优秀。
进一步,为了更加清晰的分析本发明所提的SAC算法与DDPG算法的优劣性,图4表示在2000步处做奖赏平均处理时,在不同发射功率下,本发明实施例中提出的采用SAC与DDPG算法(传统深度强化学***均奖赏,分别对两个算法在20000步的奖赏做平均处理,从图4中可以看到无论在较小的发射功率(0dB)或者较大的发射功率(10dB),SAC的性能都优于DDPG,此外当功率较大时,SAC的优势更加明显。
图5表示在最大传输速率Pmax取0时,本发明实施例中所提出的采用SAC算法与DDPG算法(传统深度强化学***均奖赏值分布图,横坐标表示时间步数,总做表表示平均奖赏,由于DDPG算法的动作探索是通过人为在输出动作端加上噪声实现的,因此它的输出动作分布方差很大,从而导致奖赏值会振荡得比较厉害,相反对于SAC算法,它的动作是从策略分布函数中随机抽取的,这样不仅达到了加载噪声的效果,而且策略分布函数是智能体自动地通过经验不断学***均奖赏值低于SAC算法的平均奖赏值的原因。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度强化学习的RIS辅助频谱共享方法,其特征在于,至少包括:
S1.建立RIS辅助的频谱共享模型,确定频谱共享模型的主要用户PU与次要用户SU,以及主要用户PU的发射端及接收端,次要用户SU的发射端及接收端;
S2.计算次要用户SU在接收端的信噪比,根据次要用户SU在接收端的信噪比,计算次要用户SU在接收端的通信速率;
S3.以次要用户SU在接收端的通信速率最大为目标函数,以主要用户PU在接收端的信噪比、次要用户SU在接收端的传输速率、RIS对入射信号的相移为约束条件,建立频谱共享优化模型;
S4.定义当前状态空间、动作空间,以次要用户SU在接收端的信噪比为奖赏函数,设置下一状态空间,引入神经网络,基于深度强化学习的SAC算法对神经网络进行训练;
S5.根据训练好的神经网络求解出频谱共享优化模型,得到RIS对入射信号的相移及次要用户SU在接收端的传输速率。
2.根据权利要求1所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S1中所述RIS辅助的频谱共享模型包括RIS、主要用户PU及次要用户SU,所述主要用户PU包括发射端用户P2及接收端用户P1,所述次要用户SU包括发射端用户S2及接收端用户S1,所有用户节点均为单天线,RIS的反射单元数量为N,RIS的相位转换对角矩阵为Θ=diag(v1,v2,...,vN),其中,
Figure FDA0003061236750000011
表示RIS的第N个反射单元的相位,θn∈[0,2π)是RIS上由第n个反射单元对入射信号作出的相移,n=1,...,N;
发射端用户P2与接收端用户S2均存在复高斯加性噪声,分别为
Figure FDA0003061236750000012
Figure FDA0003061236750000013
发射端用户P2的传输功率固定为p0=P0,发射端用户S2的传输功率在(0,Pmax]中变化,
Figure FDA0003061236750000014
均表示复高斯分布的方差,P0代表主要用户PU的发射端P2的功率,为固定常数,P_max是次要用户所允许的最大发射功率。
3.根据权利要求2所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S2所述的次要用户SU在接收端的信噪比的表达式为:
Figure FDA0003061236750000021
其中,ps表示次要用户SU的接收端用户S1的传输功率,pp表示主要用户PU的接收端用户P1的传输功率,设
Figure FDA0003061236750000022
vN=[v1,v2,...,vN],则
Figure FDA0003061236750000023
hsrs表示由次要用户SU的发射端用户S2到RIS,再至由次要用户SU的接收端用户S1的基带等价信道;hss表示由次要用户SU的发射端用户S2到次要用户SU的接收端用户S1的基带等价信道;hprs表示由主要用户PU的发射端用户P2到RIS,再至次要用户SU的接收端用户S1的基带等价信道。
4.根据权利要求3所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,次要用户SU在接收端的通信速率的表达式为:
Rs=log2(1+γs)
其中,Rs表示次要用户SU在接收端的通信速率。
5.根据权利要求4所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S3所述的频谱共享优化模型的目标函数表达式为:
Figure FDA0003061236750000024
其中,目标函数的优化变量为ps和RIS的相移v,ps表示次要用户SU的接收端用户S1的传输功率;
约束条件表达式为:
Figure FDA0003061236750000025
6.根据权利要求5所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S4中,
Figure FDA0003061236750000026
以及
Figure FDA0003061236750000027
则当前状态空间st为:
Figure FDA0003061236750000031
其中,
Figure FDA0003061236750000032
表示参数;
动作空间at为:
Figure FDA0003061236750000033
奖赏函数rt为:
rt=γs
下一状态空间st+1
Figure FDA0003061236750000034
引入神经网络的个数为5个,分别表示为:
Figure FDA0003061236750000035
πφ;其中,
Figure FDA0003061236750000036
表示第一Q值网络;
Figure FDA0003061236750000037
表示第二Q值网络;
Figure FDA0003061236750000038
表示第一个目标Q值网络;
Figure FDA0003061236750000039
表示第二个目标Q值网络;πφ表示策略网络。
7.根据权利要求6所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S4中基于深度强化学习的SAC算法对神经网络进行训练的过程为:
S41.初始化经验池D,随机选取初始状态s0,确定超参数;
S42.对于对每一个时间步数t,获取当前动作at~πφ(at|st)以及下一状态空间st+1,并将{st,at,rt,st+1}存进经验池D;
S43.更新Q值网络,表示Qθ(st,at),满足
Figure FDA00030612367500000310
S44.更新策略网络πφ,表示策略πφ(st,at),满足
Figure FDA00030612367500000311
S45.更新熵权重α,即
Figure FDA00030612367500000312
S46.更新目标Q值网络,即
Figure FDA00030612367500000313
以上,λ表示学习率,▽表示求偏导;J代表损失函数。
8.根据权利要求7所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,步骤S43中,Q值网络输出单值Q,策略网络分别输出均值和方差来表示当前的(st,at)分布ρt,根据贝尔曼方程以及Q值函数,通过最小化贝尔曼方程误差来更新Q值网络参数:
Figure FDA00030612367500000314
其中,D为经验池,
Figure FDA00030612367500000315
为目标Q值网络,其参数
Figure FDA00030612367500000316
通过soft update进行更新;
步骤S44中,更新策略网络πφ通过最小化策略的KL散度实现,其中,
Figure FDA0003061236750000041
其中,at=μtt⊙εε~N(0,I),使得训练过程可微,I表示全为1的向量;Z是一个常数,用于对分布进行归一化;μ以及σ分别为策略网络输出的均值和方差,ε为噪声,以此增强智能体的探索能力,最后,最小化KL散度表示为:
Figure FDA0003061236750000042
步骤S45中,为找到在任意时刻的最优权重α,构造一个带约束的优化问题:
Figure FDA0003061236750000043
Figure FDA0003061236750000044
通过解决优化问题得到α的更新函数:
Figure FDA0003061236750000045
其中,E表示期望,H0表示目标熵。
9.根据权利要求8所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,基于深度强化学习的SAC算法对神经网络进行训练时,基于策略的强化学习迭代,使得策略的每一次输出动作上最大,训练完成,得到最佳策略表示为:
Figure FDA0003061236750000046
π*表示最佳策略;
对于最大熵的贝尔曼方程表示为:
Figure FDA0003061236750000047
q表示策略下的Q值其对应的Q值函数可以写成:
Figure FDA0003061236750000051
基于策略的强化学习迭代分为两个阶段,策略评价以及策略改进,在策略评价阶段,固定策略,利用Q值函数更新Q值直到收敛;在策略改进阶段,利用下式对策略进行更新:
Figure FDA0003061236750000052
其中,πnew表示更新后的策略;DKL表示Kullback-Leibler散度。
10.根据权利要求8所述的基于深度强化学习的RIS辅助频谱共享方法,其特征在于,在使用策略网络输出动作时,使用tanh函数将动作限定在(-1,1)的范围内,导致策略分布发生变化,因此对对数似然值作出修正,表达式为:
Figure FDA0003061236750000053
其中,ut是在t时刻策略网络输出没有被tanh函数作出限制的动作;在训练时,对Q值网络以及策略网络πφ使用Layer Normalization归一化。
CN202110513622.4A 2021-05-11 2021-05-11 一种基于深度强化学习的ris辅助频谱共享方法 Active CN113259944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110513622.4A CN113259944B (zh) 2021-05-11 2021-05-11 一种基于深度强化学习的ris辅助频谱共享方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110513622.4A CN113259944B (zh) 2021-05-11 2021-05-11 一种基于深度强化学习的ris辅助频谱共享方法

Publications (2)

Publication Number Publication Date
CN113259944A true CN113259944A (zh) 2021-08-13
CN113259944B CN113259944B (zh) 2022-05-10

Family

ID=77222845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110513622.4A Active CN113259944B (zh) 2021-05-11 2021-05-11 一种基于深度强化学习的ris辅助频谱共享方法

Country Status (1)

Country Link
CN (1) CN113259944B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709755A (zh) * 2021-08-25 2021-11-26 武汉大学 一种基于ris技术的异构网络公平共存方法
CN114509765A (zh) * 2021-12-31 2022-05-17 江苏微之润智能技术有限公司 一种利用深度强化学习的自动调节对波机械转轴的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备
WO2020244906A1 (en) * 2019-06-03 2020-12-10 Nokia Solutions And Networks Oy Uplink power control using deep q-learning
CN112350759A (zh) * 2020-11-05 2021-02-09 北京理工大学 一种ris辅助的多用户多天线通信与雷达频谱共享方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
US20210135703A1 (en) * 2019-10-30 2021-05-06 CCDC Army Research Laboratory Method and system for optimizing transceiver spectrum sharing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244906A1 (en) * 2019-06-03 2020-12-10 Nokia Solutions And Networks Oy Uplink power control using deep q-learning
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
US20210135703A1 (en) * 2019-10-30 2021-05-06 CCDC Army Research Laboratory Method and system for optimizing transceiver spectrum sharing
CN112350759A (zh) * 2020-11-05 2021-02-09 北京理工大学 一种ris辅助的多用户多天线通信与雷达频谱共享方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINRONG GUAN, ET AL.: "Joint Power Control and Passive Beamforming in IRS-Assisted Spectrum Sharing", 《IEEE COMMUNICATIONS LETTERS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709755A (zh) * 2021-08-25 2021-11-26 武汉大学 一种基于ris技术的异构网络公平共存方法
CN113709755B (zh) * 2021-08-25 2022-06-07 武汉大学 一种基于ris技术的异构网络公平共存方法
CN114509765A (zh) * 2021-12-31 2022-05-17 江苏微之润智能技术有限公司 一种利用深度强化学习的自动调节对波机械转轴的方法
CN114509765B (zh) * 2021-12-31 2024-05-28 江苏微之润智能技术有限公司 一种利用深度强化学习的自动调节对波机械转轴的方法

Also Published As

Publication number Publication date
CN113259944B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN114389678B (zh) 一种基于决策性能评估的多波束卫星资源分配方法
CN110971279B (zh) 一种毫米波通信***中智能波束训练方法及预编码***
CN113259944B (zh) 一种基于深度强化学习的ris辅助频谱共享方法
CN114422363B (zh) 一种无人机搭载ris辅助通信***容量优化方法及装置
CN113193894A (zh) 可重构智能表面辅助的多用户miso下行无线通信谱效能效联合优化方法
CN112019249B (zh) 一种基于深度强化学习的智能反射面调控方法及装置
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
CN113691295B (zh) 一种基于irs的异构网络中干扰抑制方法
CN111726156A (zh) 一种基于noma的资源分配方法与装置
CN112803978B (zh) 基于逐次逼近的智能表面miso***联合波束成形方法
CN114143150A (zh) 一种用户公平性通信传输方法
Yan et al. QoE-based semantic-aware resource allocation for multi-task networks
CN116916429A (zh) 基于模糊逻辑的读写器动态功率控制方法
CN111740766A (zh) 一种基于码本的波束设计方法与装置
CN115733533B (zh) 基于流形的irs辅助去蜂窝大规模mimo***波束赋形方法
CN116684851A (zh) 基于mappo的多ris辅助车联网吞吐量提升方法
CN116709538A (zh) 一种双ris协作辅助的noma***上行传输方法及装置
CN114845363B (zh) 一种反射面辅助的低功耗数据卸载方法及***
CN116033461A (zh) 一种基于star-ris辅助的共生无线电传输方法
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
CN112468197B (zh) 一种联合优化c-ran中波束成形和用户关联方法
CN114938512A (zh) 一种宽带容量优化方法及装置
CN113747386A (zh) 认知无线电网络频谱共享中的智能功率控制方法
CN113595609A (zh) 一种基于强化学习的蜂窝移动通信***协作式信号发送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant