CN113225794B - 一种基于深度强化学习的全双工认知通信功率控制方法 - Google Patents
一种基于深度强化学习的全双工认知通信功率控制方法 Download PDFInfo
- Publication number
- CN113225794B CN113225794B CN202110473425.4A CN202110473425A CN113225794B CN 113225794 B CN113225794 B CN 113225794B CN 202110473425 A CN202110473425 A CN 202110473425A CN 113225794 B CN113225794 B CN 113225794B
- Authority
- CN
- China
- Prior art keywords
- transmitter
- secondary user
- receiver
- power control
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
- H04W52/14—Separate analysis of uplink or downlink
- H04W52/143—Downlink power control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/243—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/26—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
- H04W52/265—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the quality of service QoS
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种基于深度强化学习的全双工认知通信功率控制方法,包括:步骤1,建立全双工认知通信***;步骤2,初始化所述全双工认知通信***的***参数;步骤3,基于发射机的某发射功率,计算接收机相应的信干噪比;步骤4,初始化发射机的发射功率以及动作集合,构建次用户发射机功率控制的马尔可夫决策模型;步骤5,基于次用户发射机功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机的功率控制策略;步骤6,进行次用户发射机的功率控制。本发明能够实现根据无线电环境调整发射功率,满足通信***中所有用户服务质量要求,并且计算量及参数量较少,适合在硬件设备上部署。
Description
技术领域
本发明涉及机器学习以及无线通信技术领域,具体而言,涉及一种基于深度强化学习的全双工认知通信功率控制方法。
背景技术
随着第五代(5G)移动通信和物联网(IoT)技术的迅速发展,海量的设备链接和各种新兴业务不断涌入,无线频谱资源变得愈加紧缺。传统的频谱分配方法导致频谱资源无法充分使用,难以满足未来一段时间内无线通信的需求。日益增长的频谱需求以及有限的频谱资源之间的矛盾必将成为限制未来无线通信技术发展的重要因素之一。认知无线电技术和全双工技术均被认为是提高频谱资源利用效率的关键技术。
全双工(即同时同频全双工)技术的特点是用户可以在同一时间以相同的频率进行信号的接收和发送,该技术近年来备受关注,逐渐成为当前信息领域的研究热点和重要发展方向。全双工无线通信面临的主要技术难点是“自干扰问题”,现有的基于天线域、射频域以及数字域的自干扰消除技术已经比较成熟,可将自干扰信号强度有效衰减70~120dB,从而保证了这一技术在实际通信***中的有效应用。
认识无线电技术的基本思想是当授权用户(主用户,PU)不使用该频段或非授权用户(次用户,SU)对主用户的干扰低于一定阈值时,非授权用户可以使用该频段,进而提高频谱使用效率。功率控制技术是认知无线电网络中实现主、次用户共享频谱资源的关键技术之一。传统的功率控制算法主要分为两种:静态功率控制算法和动态功率控制算法。
静态功率控制算法需要知道通信***的准确的数学模型并假设***的参数精确已知,通过优化具有一系列约束条件的能够描述通信***性能的目标函数来求解最优的功率。即将无线电网络功率控制描述为一个约束优化问题,通过求解一个或多个优化目标来获得各次用户最优的发射功率。针对不同网络功率控制需求,功率分配优化的目标在各个网络中也有所不同,常见的优化目标有:最大化认知无线电网络能量有效性以及最大化次用户的传输效率。这些方案均假设通信***的信道状态是理想已知的,由于实际中无线信道的复杂性和时变性,这一假设是十分不合理的。考虑到通信***参数的不确定性,采用鲁棒性优化理论的功率控制算法将参数的随机特性假设为一个不确定性集合并通过Bayesian等方法进行最优功率的求解。在认知无线电网络中,各用户的离开和加入都是随机的,通信***时变性较高的特点使得这一基于概率统计模型的功率分配方案不能很好地满足***的性能要求。
动态功率控制算法考虑到了通信***的时变特性,如测量误差以及延迟反馈,主要包括分布式受限的功率控制算法(DCPC)和基于效用的功率控制算法(UBPC)。DCPC算法基于信干噪比以及接收端信干噪比的要求,迭代调整发射机功率以满足全部用户的服务质量(QoS)要求。UBPC算法则是基于“软”信噪比(SIR),所谓“软”信噪比,指的是当用户感知到网络流量拥塞时,用户将自动减少其目标SIR。然而认知无线电网络信道变化迅速,这使得动态功率控制算法参数调整存在滞后效应,难以满足认知无线电网络功率控制算法所要求的适应性和灵活性。
深度强化学习技术是机器学习的一个分支,其目的是在复杂的动态环境中寻找最优决策,深度强化学习通过一个智能体不断地探索周围的环境,每做一个决策,都会得到一个相应的奖励值,如果智能体当前选择的策略是正确的,则得到一个正反馈信号,否则得到一个负反馈信号,利用深度神经网络(DNN)对历史数据进行分析并学习环境变化规律,最终根据学习到的规律得到最优的控制策略。由于信道的时变等原因,无线通信网络的功率控制问题实际上是一个在动态环境中的最优决策问题,这与深度强化学习技术的设计的目标相吻合。深度强化学习技术强大的学习与决策能力可以对认知无线电网络进行智能管理,使其在复杂的通信环境中能够精准地匹配用户需求,最终提升网络的实际承载能力和用户通信体验。文献(X.Li,J.Fang,W.Cheng,H.Duan,Z.Chen and H.Li,“Intelligent PowerControl for Spectrum Sharing in Cognitive Radios:A Deep ReinforcementLearning Approach,”IEEE Access,vol.6,pp.25463-25473,2018.)提出的半双工模式下基于深度强化学习的认知无线电网络次用户发射机功率控制算法采用了一个deep neuralnetwork(DNN)网络作为Q网络,该网络包括3个全连接层,分别具有256,256,512个神经元,这使得该算法的每秒钟浮点数运算量(FLOPs)以及参数量十分庞大,算法实际的硬件部署实现较为困难。
鉴于以上问题,有必要设计一种适合在硬件设备上部署的基于深度强化学习的次用户发射机功率控制方法。
发明内容
本发明旨在提供一种基于深度强化学习的全双工认知通信功率控制方法,以解决上述技术问题。
本发明提供的一种基于深度强化学习的全双工认知通信功率控制方法,包括如下步骤:
步骤1,建立全双工认知通信***;所述全双工认知通信***包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2;
步骤2,初始化所述全双工认知通信***的***参数;
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。
进一步的,步骤1中所述全双工认知通信***中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。
进一步的,步骤2中所述初始化所述全双工认知通信***的***参数包括初始化所述全双工认知通信***中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps;
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn;
发射功率共有k档,发射功率集合为PT,PT={p1,p2,......,pk},其中p1<p2<......<pk;
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2。
进一步的,步骤3中所述基于发射机发射的某功率信号计算接收机相应的信干噪比的方法包括:
主用户接收机RX1的信干噪比SINR1为:
次用户接收机RX2的信干噪比SINR2为:
其中,P1为主用户发射机TX1的发射功率,P2为次用户发射机TX2的发射功率。
进一步的,步骤4中所述构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT;
(3)定义***奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0。
进一步的,步骤5中所述目标函数定义为:
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1]。
进一步的,步骤5中所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2;
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练。
进一步的,步骤5-4中所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ) (4)
其中,L(θ)表示损失函数的值,Qtarget(s,a;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[]表示期望运算。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明基于深度强化学习的全双工认知通信功率控制方法可应用于各种下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多全双工认知通信***中次用户发射机的功率控制,实现根据无线电环境调整发射功率,满足通信***中所有用户服务质量要求。并且计算量及参数量较少,适合在硬件设备上部署。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于深度强化学习的全双工认知通信功率控制方法的流程图。
图2为本发明实施例建立的全双工认知通信***示意图。
图3为本发明实施例的DQN算法训练流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例提出一种基于深度强化学习的全双工认知通信功率控制方法,包括如下步骤:
步骤1,建立全双工认知通信***;
本实施例中,所述全双工认知通信***下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多无线网络的抽象模型,特指下行链路模式下由一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2组成的多用户通信***,如图2所示。其中,所述全双工认知通信***中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收,即工作在全双工模式;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,如DCPC算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。
步骤2,初始化所述全双工认知通信***的***参数;
所述所述初始化所述全双工认知通信***的***参数包括初始化所述全双工认知通信***中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps;
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn;
发射功率共有k档,发射功率集合为PT,PT={p1,p2,......,pk},其中p1<p2<......<pk;
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2。
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
针对主用户发射机TX1的发射功率P1,次用户发射机TX2的发射功率P2,主用户接收机RX1的信干噪比SINR1为:
次用户接收机RX2的信干噪比SINR2为:
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;马尔可夫决策模型主要组成部分包含状态集合、动作集合、奖励函数以及不同状态下的转移概率。对于马尔可夫决策模型而言,其下一状态取决于当前状态下所采取的动作。而马尔可夫决策模型就是要找到一种最优的策略,基于此策略决策者可以通过执行特定的动作而获得最大化的累计奖励。本发明的决策者是次用户发射机,其主要负责动作的执行,即根据指示信息进行功率值的调整,该指示信息是基于通信***的状态产生的,与每个接收机接收到信号以后的信干噪比有关。由此,构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT;
(3)定义***奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0。
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
所述目标函数定义为:
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1]。
如图3所示,所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2;
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;因为在训练过程中需要很多的经验数据,当经验数据累积到一定条目以后,从数据容器ME中随机抽取小批量数据并且传入网络CNN1进行训练;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ)] (4)
其中,L(θ)表示损失函数的值,Qtarget(s,a;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[ ]表示期望运算。
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练。
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。
本发明基于深度强化学习的全双工认知通信功率控制方法可应用于各种下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多全双工认知通信***中次用户发射机的功率控制,实现根据无线电环境调整发射功率,满足通信***中所有用户服务质量要求。并且计算量及参数量较少,适合在硬件设备上部署。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于深度强化学习的全双工认知通信功率控制方法,其特征在于,包括如下步骤:
步骤1,建立全双工认知通信***;所述全双工认知通信***包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2;
步骤2,初始化所述全双工认知通信***的***参数;
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制;
步骤1中所述全双工认知通信***中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上;
步骤2中所述初始化所述全双工认知通信***的***参数包括初始化所述全双工认知通信***中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps;
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn;
发射功率共有k档,发射功率集合为PT,PT={p1,p2,......,pk},其中p1<p2<......<pk;
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2;
步骤3中所述基于发射机发射的某功率信号计算接收机相应的信干噪比的方法包括:
主用户接收机RX1的信干噪比SINR1为:
次用户接收机RX2的信干噪比SINR2为:
其中,P1为主用户发射机TX1的发射功率,P2为次用户发射机TX2的发射功率;
步骤4中所述构建次用户发射机TX2功率控制的马尔可夫决策模型的方法包括:
(1)初始化主用户发射机TX1的发射功率P1∈PT,次用户发射机TX2的发射功率P2∈PT,动作选择空间A=PT;
(3)定义***奖励函数,确定次用户发射机TX2在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r,若SINR1>τ1且SINR2>τ2,记录奖励值r=Rc,否则记奖励值r=0;
步骤5中所述目标函数定义为:
其中,Rt表示t时刻累积奖励函数,即要优化的所述目标函数;rl(sl,al)表示l时刻基于状态-动作对(sl,al)的奖励值,sl表示第l个状态,al表示与sl对应的动作;λ表示奖励值衰减因子,取值范围为(0,1];
步骤5中所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括:
步骤5-1,构建两个结构相同的卷积神经网络,其中一个记作CNN1;另一个为目标网络,记作CNN2;
步骤5-2,初始化网络CNN1的参数θ,目标网络CNN2的参数θ-,数据容器ME的缓存容量NE以及目标网络CNN2更新步数T;
步骤5-3,生成经验数据ei=(si,ri,ai,si+1)并存储在数据容器ME中;i表示生成经验数据的时刻;
步骤5-4,当存储在数据容器ME中的经验数据超过缓存容量NE时,随机抽取B条经验数据传到网络CNN1中,B<NE,通过最小化损失函数进行训练;
步骤5-5,每经过T步对目标网络CNN2进行更新,即令θ-=θ;
步骤5-6,判断训练迭代次数是否达到最大值,如果是,则训练结束,得到最优的次用户发射机TX2的功率控制策略;否则,返回步骤5-3继续训练;
步骤5-4中所述损失函数定义为:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ)] (4)
其中,L(θ)表示损失函数的值,Qtarget(s,a;θ-)表示目标网络CNN2的Q值,Q(s,a;θ)表示网络CNN1的Q值,E[]表示期望运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473425.4A CN113225794B (zh) | 2021-04-29 | 2021-04-29 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473425.4A CN113225794B (zh) | 2021-04-29 | 2021-04-29 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113225794A CN113225794A (zh) | 2021-08-06 |
CN113225794B true CN113225794B (zh) | 2022-09-27 |
Family
ID=77089979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110473425.4A Active CN113225794B (zh) | 2021-04-29 | 2021-04-29 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113225794B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114126021B (zh) * | 2021-11-26 | 2024-04-09 | 福州大学 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
CN114928549A (zh) * | 2022-04-20 | 2022-08-19 | 清华大学 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
CN116321390A (zh) * | 2023-05-23 | 2023-06-23 | 北京星河亮点技术股份有限公司 | 功率控制方法、装置和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109962728A (zh) * | 2019-03-28 | 2019-07-02 | 北京邮电大学 | 一种基于深度增强学习的多节点联合功率控制方法 |
CN110784882A (zh) * | 2019-10-28 | 2020-02-11 | 南京邮电大学 | 一种基于强化学习的能量采集d2d通信资源分配方法 |
CN111800217A (zh) * | 2020-07-30 | 2020-10-20 | 遵义医科大学 | 非理想信道状态下全双工认知多输入多输出中继协作方法 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170090307A (ko) * | 2016-01-28 | 2017-08-07 | 한국전자통신연구원 | 전이중화 기반 이동 통신 시스템에서의 신호 전송 방법 및 그 장치 |
CN110248402B (zh) * | 2018-03-09 | 2022-02-25 | 华为技术有限公司 | 一种功率控制方法及设备 |
-
2021
- 2021-04-29 CN CN202110473425.4A patent/CN113225794B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109962728A (zh) * | 2019-03-28 | 2019-07-02 | 北京邮电大学 | 一种基于深度增强学习的多节点联合功率控制方法 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
CN110784882A (zh) * | 2019-10-28 | 2020-02-11 | 南京邮电大学 | 一种基于强化学习的能量采集d2d通信资源分配方法 |
CN111800217A (zh) * | 2020-07-30 | 2020-10-20 | 遵义医科大学 | 非理想信道状态下全双工认知多输入多输出中继协作方法 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
Non-Patent Citations (3)
Title |
---|
R1-99460 "Power Control on Multi-code Channels for the UTRA/FDD Uplink";Nortel Networks;《3GPP tsg_ran\WG1_RL1》;19990512;全文 * |
协作中继认知无线电中功率分配算法;周明月等;《吉林大学学报(理学版)》;20200126(第01期);全文 * |
接入与回传一体化小基站的接入控制与资源分配联合优化算法;唐伦等;《电子与信息学报》;20190615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113225794A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113225794B (zh) | 一种基于深度强化学习的全双工认知通信功率控制方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN109474980B (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN108112082B (zh) | 一种基于无状态q学习的无线网络分布式自主资源分配方法 | |
US10080200B2 (en) | Intelligent deployment cascade control device based on an FDD-OFDMA indoor small cell in multi-user and interference environments | |
CN109861728B (zh) | 大规模mimo***的联合多中继选择与时隙资源配置方法 | |
CN114867030B (zh) | 双时间尺度智能无线接入网切片方法 | |
CN111446992B (zh) | 无线供电大规模mimo网络中的最大化最小能效资源分配方法 | |
CN115766089B (zh) | 一种能量采集认知物联网络抗干扰最优传输方法 | |
Bi et al. | Deep reinforcement learning based power allocation for D2D network | |
Ouamri et al. | Double deep q-network method for energy efficiency and throughput in a uav-assisted terrestrial network | |
Yin et al. | Decentralized federated reinforcement learning for user-centric dynamic TFDD control | |
CN113038567B (zh) | 多中继通信中的抗干扰***的抗干扰方法 | |
CN113747396A (zh) | 一种基于ris的社会感知v2x网络联合资源优化方法 | |
Adeogun et al. | Distributed channel allocation for mobile 6G subnetworks via multi-agent deep Q-learning | |
Zhang et al. | Deep reinforcement learning for modulation and coding scheme selection in cognitive HetNets | |
CN108650705B (zh) | 一种能量利用率最大化的异构无线网络鲁棒功率控制方法 | |
CN116321236A (zh) | Ris辅助的安全无蜂窝大规模mimo***能效优化方法 | |
CN113453197B (zh) | 一种联合移动预测和动态功率的用户配对方法 | |
CN113395757B (zh) | 基于改进回报函数的深度强化学习认知网络功率控制方法 | |
CN113747386A (zh) | 认知无线电网络频谱共享中的智能功率控制方法 | |
Joshi et al. | Optimized fuzzy power control over fading channels in spectrum sharing cognitive radio using ANFIS | |
Du et al. | Joint time and power control of energy harvesting CRN based on PPO | |
CN105577591A (zh) | 一种异构网中基于全双工通信的跨层串行干扰删除方法 | |
Tang et al. | Joint mode selection and power allocation for NOMA systems with D2D communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |