CN112954814B

CN112954814B - 一种认知无线电中信道质量性接入方法

Info

Publication number: CN112954814B
Application number: CN202110107271.7A
Authority: CN
Inventors: 叶方; 张音捷; 李一兵; 孙骞; 田园
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-05-20
Anticipated expiration: 2041-01-27
Also published as: CN112954814A

Abstract

本发明提供了一种认知无线电中信道质量性接入方法，具体步骤为：本地网络有自己的演员网络与评论家网络，演员网络负责信道选择，与环境进行互动收集交互信息，评论家网络评价演员网络信道选择策略的优劣，但是本地网络不更新梯度，而是将梯度收集起来传递给全局网络，全局网络自身不与环境进行交互，其将各个本地网络收集到的梯度汇总起来，在自身上进行梯度更新，并且将更新后的网络参数再次传给本地网络。本发明综合考虑了信道质量和空闲概率，次用户能够有效避免接入劣质信道，大幅提高接入符合服务质量要求的接入成功率。

Description

一种认知无线电中信道质量性接入方法

(一)技术领域

本发明属于通信技术领域，特别是认知无线电通信技术，具体涉及认知无线电中信道质量性接入方法。

(二)背景技术

随着4G/5G网络的普及，移动设备不断增多，以及云计算、物联网、人工智能等多元学科的产生，新兴通信业务层出不穷。然而，无线频谱作为各类通信业务的运行基础在现有的频谱规划管理下已经变得日益稀缺。现有频谱分配方式具有独占性和排他性，即使授权用户并未使用其被分配到的频段，其他用户也无法使用。认知无线电通过动态频谱接入的方式使用授权频段，在不对授权用户/主用户造成有害干扰的前提下，为提高频谱利用率提供了全新的方案。而次用户感知接入的信道将直接影响次用户的感知延迟，传输性能等方面，其研究迫在眉睫，将成为提高认知无线电***性能的关键因素之一。

现有的信道接入算法采用序贯检测接入，在感知前确定感知顺序，按照定义好的感知顺序进行感知。序贯检测接入在已知某些信道环境先验信息的条件下，如信道空闲概率、主用户占用规律和信道信噪比等信息，设计信道感知接入顺序。虽然序贯检测接入设计简单，但是其需要知道大部分的环境先验信息，其在实际环境中很难实现。并且序贯检测算法性能很容易受到环境中“劣质信道”的影响，信道虽然空闲程度较高，但是信噪比较小；或者信道虽然较大，但是主用户占用频繁。如基于信噪比序贯检测算法很容易选择信噪比较高但是主用户占用频繁的信道，造成感知接入成功率低；或者基于信道空闲概率的序贯检测算法容易选择空闲程度高但是信噪比较低的信道，造成不符合次用户服务质量要求，次用户获得的吞吐量较低的结果。

深度强化学习在电子游戏、机器人、围棋等领域取得了优秀成功，其可以在缺失大部分环境先验信息的前提下，与环境互动进行学习，从而进行智能决策。本发明将深度强化学习中的异步优势演员评论家网络引入认知无线电中，使次用户可以在未知大部分信道环境先验信息的条件下智能选择符合自身服务质量需求的信道进行感知接入。

(三)发明内容

本发明的目的在于提出一种可以克服序贯检测算法容易受到环境中劣质信道的干扰的缺点与不足；并且在未知大部分信道环境先验信息方法智能选择符合自身服务质量需求的信道进行感知接入的方法。

本发明的目的是这样实现的：

1.1初始化全局网络中的演员网络与评论家网络参数，将全局网络参数赋予本地网络；

1.2本地网络下，次用户根据观测信息组成的观测矩阵以及当前策略选择信道进行接入，次用户感知接入所选择的信道，根据信道状态获得即时回报；

1.3每经过若干轮迭代，本地演员网络与本地评论家网络分别计算梯度，传递至全局网络，并重置本地演员网络梯度和评论家网络梯度；

1.4根据演员网络更新函数更新全局演员网络，根据评论家网络更新函数更新全局评论家网络，将更新后的全局网络参数赋予本地网络；

1.5循环执行步骤1.2至步骤1.4，直至完成所有循环次数后，获得完整神经网络模型。

本发明包括的异步优势演员评论家网络其主要内容为：异步优势演员评论家网络分为两大部分，全局网络和本地网络。全局网络和本地网络的神经网络结构相同，其中演员网络为一层隐藏层，神经元个数为200，激活函数为线性整流函数。评论家网络也为一层隐藏层，神经元个数为200，激活函数为线性整流函数。

本发明包括的本地网络其主要内容为：每个本地网络独立与环境进行交互，因此也有各自独立的演员网络与评论家网络，本地演员网络分别独立与信道环境进行交互，评论家网络评估演员网络的动作策略，并且各个本地网络的网络结构都完全相同。

本发明包括的观测矩阵其主要内容为：其特征是：次用户只能观测到其选择感知信道的状态，其在第t个时隙的观测信息为：

O_t＝[o_1,t,o_2,t,...,o_N,t]

引入暂时记忆机制后，次用户可以存储前M步的观测信息。M步观测信息组成一个观测矩阵，第t个时刻的观测矩阵可表示为：

S_t＝[O_t-1,O_t-2,O_t-3,...,O_t-M]

本发明包括的互动回报函数其主要内容为：次用户选择感知接入的信道为空闲并且符合自身的服务质量需求，则说明这次的决策正确，获得正反馈回报；若次用户选择感知的信道被主用户占用，则说明这次的决策错误，收到负反馈惩罚。考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态，设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道，其依然能获得一个较小的正反馈。

D_i表示第i个信道的所获得的吞吐量，η为次用户的吞吐量门限。(D_i-η)/η为第i个信道所获得的吞吐量与门限η差值的比值，主要是引导次用户选择更优秀的信道。

本发明包括的全局网络其主要内容为：全局网络不与环境进行互动，其主要工作为收集各个网络的梯度数据，通过这些梯度数据更新网络，再将更新后的网络参数传递给各个本地网络。

全局演员网络的更新函数为：

其中θ表示全局演员网络的参数；A(s,a)表示优势函数，表示该环境状态下动作的优劣程度；H(π_θ'(s))为策略熵，用于增加前期次用户的探索性；；β表示策略熵权重，用于控制探索程度。

全局评论家网络的更新函数为：

其中μ表示全局评论家网络的参数；r表示次用户获得的即时回报；γ为折扣因子；λ为评论家网络的学习率。

与现有技术相比，本发明的有益效果是：

1.本发明综合考虑信道的信噪比和空闲概率，可以有效避免环境中的劣质信道，有效提高次用户接入优质信道的成功率；

2.本发明的回报函数设置鼓励次用户在满足QoS的前提下接入更优秀的信道，可以引导次用户做出更好的决策；

3.本发明在缺失大部分环境先验信息的条件下接近已知先验信息算法的接入成功率，并且在感知次数较少时高于部分已知先验信息算法的接入成功率。

(四)附图说明

图1本发明算法流程图；

图2每次循环内不同信道的选择次数；

图3本发明与不同已知先验信息的序列感知接入成功率对比。

(五)具体实施方式

下面结合附图和具体实施例对本文作进一步具体说明：

本发明算法的最终目标是次用户可以根据所学到的信道接入策略，智能选择符合自身服务质量的空闲信道进行感知接入，抽象至强化学习中，即智能体所采用的策略能最大化累计回报。单次循环次用户的通信也可以随着时间无限进行，累计回报趋于无限，无法有效评价策略优劣。因此限定单次迭代内的时隙数量为T。上述问题可表示为下式：

其中r_i,t表示在t时刻选择第i条信道获得的即时回报。

本发明设定环境中存在N条信道和一个次用户，N条信道状态都是时变的，信道状态只与主用户占用有关；设定次用户可以在一个时隙内感知n(n<<N)条信道，在第t个时隙，次用户所能观测到的环境信息为：

O_t＝[o_1,t,o_2,t,...,o_N,t] (2)

其中o_i,t表示在次用户在t时刻对第i条信道的观测信息：

其中x_i,t在t时刻第i条信道的信道状态。引入暂时记忆机制后，次用户可以存储前M步的观测信息。M步观测信息组成一个观测矩阵，第t个时刻的观测矩阵可表示为：

S_t＝[O_t-1,O_t-2,O_t-3,...,O_t-M] (4)

次用户在感知n条信道之后选择最符合自己QoS需求的进行感知接入。在选择n条信道感知时其动作集合的元素数量为：

如在环境中存在5条信道时单个时隙内选择两条信道进行感知，其动作集合为A＝{(1,2),(1,3),(1,4),...,(4,5)}。若单个时隙只能感知一个信道，动作集合即为环境中存在的信道数量：

A＝{1,2,3,...,N} (6)

若次用户选择感知接入的信道为空闲并且符合自身的服务质量需求，则说明这次的决策正确，获得正反馈回报；若次用户选择感知的信道被主用户占用，则说明这次的决策错误，收到负反馈惩罚。考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态，设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道，其依然能获得一个较小的正反馈。回报函数可由下式表示：

次用户的服务质量需求由吞吐量判定，只有接入信道的获得的吞吐量高于门限要求才判定服务质量合格。D_i表示第i个信道的所获得的吞吐量，η为次用户的吞吐量门限。(D_i-η)/η为第i个信道所获得的吞吐量与门限η差值的比值，主要是引导次用户选择更优秀的信道。

异步优势演员评论家网络中分为本地网络与全局网络。每个本地网络独立与环境进行交互，因此也有各自独立的演员网络与评论家网络，本地演员网络分别独立与信道环境进行交互，评论家网络评估演员网络的动作策略，并且各个本地网络的网络结构都完全相同。全局网络不与环境进行互动，其主要工作为收集各个网络的梯度数据，通过这些梯度数据更新网络，再将更新后的网络参数传递给各个本地网络。

本地网络中的演员网络进行与环境交互和动作选择，其主要任务为策略学习，其直接对策略进行梯度计算：

其中J(θ)表示策略网络的目标函数；π_θ(s,a)表示在网络参数为θ时，状态s下选择动作a的概率；d(s)表示此次互动所采集到的状态数；

表示状态s下选择动作a所获得的即时回报。

本地评论家网络主要用于估计状态价值，评价演员网络动作策略的优劣程度，通过优势函数指导演员网络更新。优势函数为在状态s下，某动作a相对于平均而言的优势。异步优势演员评论家网络中采用多步采样以加速收敛：

其中V(s)表示状态s的价值，可由评论家网络估计得出。结合式(9)，式(8)的策略梯度计算变为：

全局网络不与环境进行互动，其主要工作为收集各个网络的梯度数据，通过这些梯度数据更新网络，再将更新后的网络参数传递给各个本地网络。由于参数和梯度的相互传递，因此全局网络的结构也与本地网络保持一致。全局网络中的演员网络也是负责更新动作策略，其梯度更新可表示为：

其中θ表示全局演员网络的参数；A(s,a)表示优势函数，表示该环境状态下动作的优劣程度；H(π_θ'(s))为策略熵，用于增加前期次用户的探索性；β表示策略熵权重，用于控制探索程度。引入优势函数后，全局网络评论家网络通过最小化优势函数的平方，来提高对于值函数的拟合精度，其梯度更新可表示为：

本发明仿真实例的仿真参数设定：仿真参数分为***环境参数和神经网络参数两个部分。其中***环境参数为：环境中存在N＝10条独立信道，每条信道都可能被主用户占用，其占用概率P_busy为(0,1)之间，信道的信噪比范围为[-10,10]dB。仿真实验中设定10条信道的信噪比为SNR＝[-10,-8,-9,-5,-3,0,4,5,7,10]，其对应的占用概率为P_busy＝[0.1,0.3,0.4,0.3,0.2,0.5,0.3,0.4,0.4,0.9]。神经网络参数为：本地网络和全局网络的演员与评论家网络结构相同，演员网络为一层隐藏层，神经元个数为200，激活函数为线性整流函数；输出层直接输出动作选择概率分布。评论家网络也为一层隐藏层，神经元个数为200，激活函数为线性整流函数；输出层为输出对于状态动作价值的估计。评论家网络的学习率需大于等于演员网络，本发明设定评论家网络的学习率Lr_c＝0.001，演员网络的学习率Lr_a＝0.0001。本发明设定接入成功率为次用户成功接入符合服务质量的空闲信道的概率。

如图2所示，环境中存在3条符合QoS需求的信道，每个时隙感知一次时这三条信道被次用户选择感知接入的次数。从图中可以看出，迭代初始由于探索性，三条信道被选择的次数几乎相同。但是随着迭代的进行，第10条信道虽然信噪比较高，但是主用户占用频率也高，因此被选择次数也不断降低。说明经过学习次用户从更长远的角度考虑信道接入，能够有效避免劣质信道。另外两条符合QoS需求的信道由于其主用户占用频率较小，因此其被选择次数慢慢增加。同时由于本发明的回报函数设置，在主用户占用概率相差不大的情况下，次用户就偏向于接入第9条信道，这说明本发明的回报函数设置可以引导次用户做出更好的决策。

如图3所示，环境中存在3条信道符合QoS需求时，本发明与不同已知先验信息的序列感知在不同感知次数下的接入成功率对比。全知感知为该算法假设次用户已知所有信道的信噪比与各信道对应的主用户占用概率，按照信噪比与主用户空闲概率的乘积(SNR(1-P_busy))进行序列感知。从图中可以看出全知感知由于其序列感知的特点，总是感知固定信道，造成其在感知1次的情况下其接入成功率十分依赖第一次的感知信道，而本发明提出的感知接入算法能够智能选择合适的信道进行接入，而不局限于序列性感知接入。

本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种认知无线电中信道质量性接入方法，其特征是：包括如下步骤：

表示状态s下选择动作a所获得的即时回报；

本地评论家网络主要用于估计状态价值，评价演员网络动作策略的优劣程度，通过优势函数指导演员网络更新，优势函数为在状态s下，某动作a相对于平均而言的优势，异步优势演员评论家网络中采用多步采样以加速收敛：

A(s,a)＝Q(s,a)-V(s)

＝r_t+1+γr_t+2+...+γ^n-1r_t+n+γⁿV(s')-V(s)

其中V(s)表示状态s的价值，可由评论家网络估计得出，对策略进行梯度计算变为：

全局演员网络的更新函数为：

其中θ表示全局演员网络的参数，A(s,a)表示优势函数，表示该环境状态下动作的优劣程度，H(π_θ'(s))为策略熵，用于增加前期次用户的探索性；

全局评论家网络的更新函数为：

其中μ表示全局评论家网络的参数，r表示次用户获得的即时回报，γ为折扣因子，λ为评论家网络的学习率；

2.根据权利要求1所述的认知无线电中信道质量性接入方法，其特征是：环境中存在多个信道可接入，次用户快速找到并接入符合自身服务质量要求的信道。

3.根据权利要求1所述的认知无线电中信道质量性接入方法，其特征是：所述步骤1.1全局网络和本地网络的神经网络结构相同，其中演员网络为一层隐藏层，神经元个数为200，激活函数为线性整流函数，评论家网络为一层隐藏层，神经元个数为200，激活函数为线性整流函数。

4.根据权利要求1所述的认知无线电中信道质量性接入方法，其特征是：所述步骤1.2每个本地网络独立与环境进行交互，演员网络与评论家网络各自独立，本地演员网络分别独立与信道环境进行交互，评论家网络评估演员网络的动作策略，并且各个本地网络的网络结构都完全相同。

5.根据权利要求1所述的一种认知无线电中信道质量性接入方法，其特征是：所述步骤1.2中的观测矩阵，次用户只能观测到其选择感知信道的状态，其在第t个时隙的观测信息为：

O_t＝[o_1,t,o_2,t,...,o_N,t]

引入暂时记忆机制后，次用户存储前M步的观测信息，M步观测信息组成一个观测矩阵，第t个时刻的观测矩阵可表示为：

S_t＝[O_t-1,O_t-2,O_t-3,...,O_t-M]

与环境互动后获得回报，其回报函数为：

次用户选择感知接入的信道为空闲并且符合自身的服务质量需求，则说明这次的决策正确，获得正反馈回报；若次用户选择感知的信道被主用户占用，则说明这次的决策错误，收到负反馈惩罚；考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态，设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道，其依然能获得一个较小的正反馈，D_i表示第i个信道的所获得的吞吐量，η为次用户的吞吐量门限，(D_i-η)/η为第i个信道所获得的吞吐量与门限η差值的比值，主要是引导次用户选择更优秀的信道。