CN113225794B

CN113225794B - 一种基于深度强化学习的全双工认知通信功率控制方法

Info

Publication number: CN113225794B
Application number: CN202110473425.4A
Authority: CN
Inventors: 卜智勇; 鲁敏; 周斌
Original assignee: Chengdu Zhongke Micro Information Technology Research Institute Co Ltd
Current assignee: Chengdu Zhongke Micro Information Technology Research Institute Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-09-27
Anticipated expiration: 2041-04-29
Also published as: CN113225794A

Abstract

本发明提供一种基于深度强化学习的全双工认知通信功率控制方法，包括：步骤1，建立全双工认知通信***；步骤2，初始化所述全双工认知通信***的***参数；步骤3，基于发射机的某发射功率，计算接收机相应的信干噪比；步骤4，初始化发射机的发射功率以及动作集合，构建次用户发射机功率控制的马尔可夫决策模型；步骤5，基于次用户发射机功率控制的马尔可夫决策模型，运用深度强化学习中的DQN算法训练优化目标函数，得到最优的次用户发射机的功率控制策略；步骤6，进行次用户发射机的功率控制。本发明能够实现根据无线电环境调整发射功率，满足通信***中所有用户服务质量要求，并且计算量及参数量较少，适合在硬件设备上部署。

Description

一种基于深度强化学习的全双工认知通信功率控制方法

技术领域

本发明涉及机器学习以及无线通信技术领域，具体而言，涉及一种基于深度强化学习的全双工认知通信功率控制方法。

背景技术

随着第五代(5G)移动通信和物联网(IoT)技术的迅速发展，海量的设备链接和各种新兴业务不断涌入，无线频谱资源变得愈加紧缺。传统的频谱分配方法导致频谱资源无法充分使用，难以满足未来一段时间内无线通信的需求。日益增长的频谱需求以及有限的频谱资源之间的矛盾必将成为限制未来无线通信技术发展的重要因素之一。认知无线电技术和全双工技术均被认为是提高频谱资源利用效率的关键技术。

全双工(即同时同频全双工)技术的特点是用户可以在同一时间以相同的频率进行信号的接收和发送，该技术近年来备受关注，逐渐成为当前信息领域的研究热点和重要发展方向。全双工无线通信面临的主要技术难点是“自干扰问题”，现有的基于天线域、射频域以及数字域的自干扰消除技术已经比较成熟，可将自干扰信号强度有效衰减70～120dB，从而保证了这一技术在实际通信***中的有效应用。

认识无线电技术的基本思想是当授权用户(主用户，PU)不使用该频段或非授权用户(次用户，SU)对主用户的干扰低于一定阈值时，非授权用户可以使用该频段，进而提高频谱使用效率。功率控制技术是认知无线电网络中实现主、次用户共享频谱资源的关键技术之一。传统的功率控制算法主要分为两种：静态功率控制算法和动态功率控制算法。

静态功率控制算法需要知道通信***的准确的数学模型并假设***的参数精确已知，通过优化具有一系列约束条件的能够描述通信***性能的目标函数来求解最优的功率。即将无线电网络功率控制描述为一个约束优化问题，通过求解一个或多个优化目标来获得各次用户最优的发射功率。针对不同网络功率控制需求，功率分配优化的目标在各个网络中也有所不同，常见的优化目标有：最大化认知无线电网络能量有效性以及最大化次用户的传输效率。这些方案均假设通信***的信道状态是理想已知的，由于实际中无线信道的复杂性和时变性，这一假设是十分不合理的。考虑到通信***参数的不确定性，采用鲁棒性优化理论的功率控制算法将参数的随机特性假设为一个不确定性集合并通过Bayesian等方法进行最优功率的求解。在认知无线电网络中，各用户的离开和加入都是随机的，通信***时变性较高的特点使得这一基于概率统计模型的功率分配方案不能很好地满足***的性能要求。

动态功率控制算法考虑到了通信***的时变特性，如测量误差以及延迟反馈，主要包括分布式受限的功率控制算法(DCPC)和基于效用的功率控制算法(UBPC)。DCPC算法基于信干噪比以及接收端信干噪比的要求，迭代调整发射机功率以满足全部用户的服务质量(QoS)要求。UBPC算法则是基于“软”信噪比(SIR)，所谓“软”信噪比，指的是当用户感知到网络流量拥塞时，用户将自动减少其目标SIR。然而认知无线电网络信道变化迅速，这使得动态功率控制算法参数调整存在滞后效应，难以满足认知无线电网络功率控制算法所要求的适应性和灵活性。

深度强化学习技术是机器学习的一个分支，其目的是在复杂的动态环境中寻找最优决策，深度强化学习通过一个智能体不断地探索周围的环境，每做一个决策，都会得到一个相应的奖励值，如果智能体当前选择的策略是正确的，则得到一个正反馈信号，否则得到一个负反馈信号，利用深度神经网络(DNN)对历史数据进行分析并学习环境变化规律，最终根据学习到的规律得到最优的控制策略。由于信道的时变等原因，无线通信网络的功率控制问题实际上是一个在动态环境中的最优决策问题，这与深度强化学习技术的设计的目标相吻合。深度强化学习技术强大的学习与决策能力可以对认知无线电网络进行智能管理，使其在复杂的通信环境中能够精准地匹配用户需求，最终提升网络的实际承载能力和用户通信体验。文献(X.Li,J.Fang,W.Cheng,H.Duan,Z.Chen and H.Li,“Intelligent PowerControl for Spectrum Sharing in Cognitive Radios:A Deep ReinforcementLearning Approach,”IEEE Access,vol.6,pp.25463-25473,2018.)提出的半双工模式下基于深度强化学习的认知无线电网络次用户发射机功率控制算法采用了一个deep neuralnetwork(DNN)网络作为Q网络，该网络包括3个全连接层，分别具有256，256，512个神经元，这使得该算法的每秒钟浮点数运算量(FLOPs)以及参数量十分庞大，算法实际的硬件部署实现较为困难。

鉴于以上问题，有必要设计一种适合在硬件设备上部署的基于深度强化学习的次用户发射机功率控制方法。

发明内容

本发明旨在提供一种基于深度强化学习的全双工认知通信功率控制方法，以解决上述技术问题。

本发明提供的一种基于深度强化学习的全双工认知通信功率控制方法，包括如下步骤：

步骤1，建立全双工认知通信***；所述全双工认知通信***包括一对下行链路模式下工作在半双工模式下的主用户发射机TX₁和主用户接收机RX₁，一个工作在全双工模式下的次用户发射机TX₂，以及一个工作在半双工模式下的次用户接收机RX₂；

步骤2，初始化所述全双工认知通信***的***参数；

步骤3，基于主用户发射机TX₁和次用户发射机TX₂的某发射功率，计算主用户接收机RX₁和次用户接收机RX₂相应的信干噪比；

步骤4，初始化主用户发射机TX₁，次用户发射机TX₂的发射功率以及动作集合，构建次用户发射机TX₂功率控制的马尔可夫决策模型；

步骤5，基于所述次用户发射机TX₂功率控制的马尔可夫决策模型，运用深度强化学习中的DQN算法训练优化目标函数，得到最优的次用户发射机TX₂的功率控制策略；

步骤6，采用所述最优的次用户发射机TX₂的功率控制策略进行次用户发射机TX₂的功率控制。

进一步的，步骤1中所述全双工认知通信***中的主用户发射机TX₁、主用户接收机RX₁、次用户发射机TX₂和次用户接收机RX₂设置如下：

(1)次用户发射机TX₂具有自干扰消除能力，并能够在同一时间和频率上进行信号的发送和接收；

(2)主用户发射机TX₁、主用户接收机RX₁和次用户接收机RX₂不具备自干扰消除能力，在同一时间和频率上进行信号的发送或者接收；

(3)主用户发射机TX₁与次用户发射机TX₂采用不同的功率控制方法，即主用户发射机TX₁采用预先定义的功率控制算法，次用户发射机TX₂采用所述基于深度强化学习的全双工认知通信功率控制方法；

(4)主用户发射机TX₁与次用户发射机TX₂彼此不知道对方的功率控制方法；

(5)主用户发射机TX₁、主用户接收机RX₁、次用户发射机TX₂和次用户接收机RX₂均工作在相同频段上。

进一步的，步骤2中所述初始化所述全双工认知通信***的***参数包括初始化所述全双工认知通信***中的所有信道增益，次用户发射机的自干扰消除系数，噪声功率，发射功率集合，以及接收机的服务质量要求；其中：

主用户发射机TX₁与主用户接收机RX₁的信道增益为h₁₁，主用户发射机TX₁与次用户接收机RX₂的信道增益为h₁₂、次用户发射机TX₂与次用户接收机RX₂的信道增益为h₂₂、次用户发射机TX₂与主用户接收机RX₁的信道增益为h₂₁；主用户发射机TX₁与次用户发射机TX₂的信道增益为h_ps；

次用户发射机TX₂的自干扰消除系数χ，χ∈[0，1]；

噪声功率为P_n；

发射功率共有k档，发射功率集合为P_T,P_T＝{p₁，p₂，......，p_k}，其中p₁＜p₂＜......＜p_k；

主用户接收机RX₁满足服务质量要求的最小信干噪比为τ₁∈[0，1]，次用户接收机RX₂满足服务质量要求的最小信干噪比为τ₂∈[0.5，1.5]，且τ₁＜τ₂。

进一步的，步骤3中所述基于发射机发射的某功率信号计算接收机相应的信干噪比的方法包括：

主用户接收机RX₁的信干噪比SINR₁为：

次用户接收机RX₂的信干噪比SINR₂为：

其中，P₁为主用户发射机TX₁的发射功率，P₂为次用户发射机TX₂的发射功率。

进一步的，步骤4中所述构建次用户发射机TX₂功率控制的马尔可夫决策模型的方法包括：

(1)初始化主用户发射机TX₁的发射功率P₁∈P_T，次用户发射机TX₂的发射功率P₂∈P_T，动作选择空间A＝P_T；

(2)得到主用户发射机TX₁的观测功率信号

并通过功率信号抽样将观测功率信号离散化，得到***状态离散化表示：

K表示***状态数量；

(3)定义***奖励函数，确定次用户发射机TX₂在执行每个动作a∈A即选取动作集合A中的某个发射功率时得到的奖励值r，若SINR₁＞τ₁且SINR₂＞τ₂，记录奖励值r＝R_c，否则记奖励值r＝0。

进一步的，步骤5中所述目标函数定义为：

其中，R_t表示t时刻累积奖励函数，即要优化的所述目标函数；r_l(s_l，a_l)表示l时刻基于状态-动作对(s_l，a_l)的奖励值，s_l表示第l个状态，a_l表示与s_l对应的动作；λ表示奖励值衰减因子，取值范围为(0，1]。

进一步的，步骤5中所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括：

步骤5-1，构建两个结构相同的卷积神经网络，其中一个记作CNN₁；另一个为目标网络，记作CNN₂；

步骤5-2，初始化网络CNN₁的参数θ，目标网络CNN₂的参数θ^-，数据容器ME的缓存容量N_E以及目标网络CNN₂更新步数T；

步骤5-3，生成经验数据e_i＝(s_i，r_i，a_i，s_i+1)并存储在数据容器ME中；i表示生成经验数据的时刻；

步骤5-4，当存储在数据容器ME中的经验数据超过缓存容量N_E时，随机抽取B条经验数据传到网络CNN₁中，B＜N_E，通过最小化损失函数进行训练；

步骤5-5，每经过T步对目标网络CNN₂进行更新，即令θ^-＝θ；

步骤5-6，判断训练迭代次数是否达到最大值，如果是，则训练结束，得到最优的次用户发射机TX₂的功率控制策略；否则，返回步骤5-3继续训练。

进一步的，步骤5-4中所述损失函数定义为：

θ：minL(θ)＝E[Q_target(s，a；θ^-）-Q(s，a；θ) (4)

其中，L(θ)表示损失函数的值，Q_target(s，a；θ^-）表示目标网络CNN₂的Q值，Q(s，a；θ)表示网络CNN₁的Q值，E[]表示期望运算。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明基于深度强化学习的全双工认知通信功率控制方法可应用于各种下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多全双工认知通信***中次用户发射机的功率控制，实现根据无线电环境调整发射功率，满足通信***中所有用户服务质量要求。并且计算量及参数量较少，适合在硬件设备上部署。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于深度强化学习的全双工认知通信功率控制方法的流程图。

图2为本发明实施例建立的全双工认知通信***示意图。

图3为本发明实施例的DQN算法训练流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提出一种基于深度强化学习的全双工认知通信功率控制方法，包括如下步骤：

步骤1，建立全双工认知通信***；

本实施例中，所述全双工认知通信***下行链路全双工认知蜂窝网、全双工认知自组网、全双工认知传感网等诸多无线网络的抽象模型，特指下行链路模式下由一对下行链路模式下工作在半双工模式下的主用户发射机TX₁和主用户接收机RX₁，一个工作在全双工模式下的次用户发射机TX₂，以及一个工作在半双工模式下的次用户接收机RX₂组成的多用户通信***，如图2所示。其中，所述全双工认知通信***中的主用户发射机TX₁、主用户接收机RX₁、次用户发射机TX₂和次用户接收机RX₂设置如下：

(1)次用户发射机TX₂具有自干扰消除能力，并能够在同一时间和频率上进行信号的发送和接收，即工作在全双工模式；

(3)主用户发射机TX₁与次用户发射机TX₂采用不同的功率控制方法，即主用户发射机TX₁采用预先定义的功率控制算法，如DCPC算法，次用户发射机TX₂采用所述基于深度强化学习的全双工认知通信功率控制方法；

步骤2，初始化所述全双工认知通信***的***参数；

所述所述初始化所述全双工认知通信***的***参数包括初始化所述全双工认知通信***中的所有信道增益，次用户发射机的自干扰消除系数，噪声功率，发射功率集合，以及接收机的服务质量要求；其中：

次用户发射机TX₂的自干扰消除系数χ，χ∈[0，1]；

噪声功率为P_n；

针对主用户发射机TX₁的发射功率P₁，次用户发射机TX₂的发射功率P₂，主用户接收机RX₁的信干噪比SINR₁为：

次用户接收机RX₂的信干噪比SINR₂为：

步骤4，初始化主用户发射机TX₁，次用户发射机TX₂的发射功率以及动作集合，构建次用户发射机TX₂功率控制的马尔可夫决策模型；马尔可夫决策模型主要组成部分包含状态集合、动作集合、奖励函数以及不同状态下的转移概率。对于马尔可夫决策模型而言，其下一状态取决于当前状态下所采取的动作。而马尔可夫决策模型就是要找到一种最优的策略，基于此策略决策者可以通过执行特定的动作而获得最大化的累计奖励。本发明的决策者是次用户发射机，其主要负责动作的执行，即根据指示信息进行功率值的调整，该指示信息是基于通信***的状态产生的，与每个接收机接收到信号以后的信干噪比有关。由此，构建次用户发射机TX₂功率控制的马尔可夫决策模型的方法包括：

(2)得到主用户发射机TX₁的观测功率信号

K表示***状态数量；

所述目标函数定义为：

如图3所示，所述运用深度强化学习中的DQN算法训练优化目标函数的方法包括：

步骤5-3，生成经验数据e_i＝(s_i，r_i，a_i，s_i+1)并存储在数据容器ME中；i表示生成经验数据的时刻；因为在训练过程中需要很多的经验数据，当经验数据累积到一定条目以后，从数据容器ME中随机抽取小批量数据并且传入网络CNN₁进行训练；

步骤5-4，当存储在数据容器ME中的经验数据超过缓存容量N_E时，随机抽取B条经验数据传到网络CNN₁中，B＜N_E，通过最小化损失函数进行训练；所述损失函数定义为：

θ：minL(θ)＝E[Q_target(s，a；θ^-)-Q(s，a；θ)] (4)

其中，L(θ)表示损失函数的值，Q_target(s，a；θ^-)表示目标网络CNN₂的Q值，Q(s，a；θ)表示网络CNN₁的Q值，E[ ]表示期望运算。

步骤5-5，每经过T步对目标网络CNN₂进行更新，即令θ^-＝θ；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。