CN103209419B

CN103209419B - 一种面向用户需求和提升网络性能的动态频谱接入的方法

Info

Publication number: CN103209419B
Application number: CN201310148115.0A
Authority: CN
Inventors: 裴庆祺; 李男; 潘楠; 李红宁; 苏文桂; 李子; 康毓涛; 马立川
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-04-25
Filing date: 2013-04-25
Publication date: 2015-10-21
Anticipated expiration: 2033-04-25
Also published as: CN103209419A

Abstract

本发明公开一种面向用户需求和提升网络性能的动态频谱接入方法，主要解决针对用户需求和网络整体性能两个方面进行资源的优化分配的新问题。其实现步骤为：次级用户根据Q学习算法计算出自己想要申请的信道标号，并将此申请提交给控制节点；控制节点根据分配策略处理各个次级用户上交的申请；控制节点处理完所有次级用户的申请后，将频谱分配结果下发给各个次级用户；次级用户根据控制节点下发的分配结果调整自己的Q值表，为下一次信道申请做好准备。本发明能够在优化网络整体性能，减少资源浪费现象的同时，尽量满足用户需求，使得用户获得更好的服务质量。

Description

一种面向用户需求和提升网络性能的动态频谱接入的方法

技术领域

本发明涉及通信技术领域次级用户资源优化分配，具体涉及一种面向用户需求和提升网络性能的动态频谱接入方法，可用于认知无线网络。

背景技术

随着无线技术的飞速发展，与日俱增的用户需求使得无线频谱资源面临着紧缺的危险。而传统的固定的频谱分配策略严重限制了用户接入能力，从而导致了频谱资源的严重浪费。基于此，认知无线电技术应运而生，其基本功能就是整合空闲频谱，为择机使用频谱的用户提供接入服务，提高频谱利用率。但次级用户在使用空闲的主用户信道时，必须满足在主用户不做任何改变的情况下不能给主用户带来任何形式的干扰的条件。具体而言，当信道没有被主用户占用而处于空闲的状态时，次级用户可以接入空闲信道进行通信；当信道被主用户占用而处于忙碌的状态时，次级用户则立即停止在此信道的通信并且切换到其他空闲信道继续数据通信。

由于主用户使用频谱的限制，次级用户可用频谱的数量和位置随时间而不断变化，因此对于这些“不确定”的频谱资源进行优化分配本质上是一个受限的频谱分配问题。所以，有效的，能够自适应调整的频谱资源分配方案及管理策略以保证各用户的需求是扩大无线通信应用范围和层次，满足无线终端***成为综合的，智能的信息终端的最为关键的技术保证。而Q学习算法适用于外部环境变化复杂，但是奖励易积累计算的场景的特性，非常符合我们现在的动态频谱接入环境，能够为我们提供一种动态的，自适应的频谱资源优化方法。

Yinglei Teng等人在文章“Reinforcement Learning BasedAuction Algorithm for Dynamic spectrum Access in CognitiveRadio Networks”（Vehicular Technology Conference Fall,2010IEEE72nd，中文名称为“认知无线网络中基于拍卖算法的强化学习的动态频谱接入算法”）中提出了一种用Q学习算法优化投标策略的动态频谱接入方法，根据缓存中数据量的多少，动态提出投标值，提高投标效率。该方法的步骤如下：1、首先构建Q学习算法运行的各个步骤，将投标值引入到奖赏函数中；2、利用Q学习算法状态动作对函数值和缓存数据量的大小更新每次的投标值；3、将投标值上报给拍卖人，根据拍卖人的决策结果调整状态动作对函数值的大小，继续新一轮Q学习算法的运行。

该方法的不足之处：首先，该方法只是将Q学习算法作为资源优化的一种辅助算法，这样不能充分发挥Q学习算法的动态性和智能性；其次，该方法只是以缓存中数据量的多少作为优化的目标，并未考虑信道的质量，网络的性能等方面的因素，无法使得网络整体性能得到很好的优化。

在公开的专利申请中，专利申请号201110197066.0，专利申请公布号102256262A的专利申请“基于分布式独立学习的多用户动态频谱接入方法”，根据公开的技术方案得知，其提供了一种认知无线电***中基于分布式独立学习的多用户动态频谱接入方法。该方法的主要过程为：1、每个次级用户由状态感知模块感知频谱环境，根据感知结果构建状态空间；2、每个次级用户由动作预测模块和已构建的状态空间获取动作状态函数值；3、采用贪婪算法进行动作的选择；4、依据奖赏函数确定获取的回报；5、根据更新公式对状态动作函数值进行更新。

上述方法存在的不足之处：首先，虽然该方法将各个用户所接入信道的信噪比引入到奖赏函数中，在一定程度上提高了***的平均容量，但是也仅仅单独考虑了对***整体性能的优化，并没有从用户角度考虑对服务质量的优化；其次，该方法并不适用于当次级用户彼此之间竞争比较激烈，即信道数少于次级用户数的情况，因为在这种条件下很可能出现某个特定次级用户一直处于无法接入空闲频谱的情况。

发明内容

鉴于现有技术的不足，本发明旨在于提供一种面向用户需求和提升网络性能的动态频谱接入方法，从用户和网络两个角度对频谱资源进行优化分配，在使得网络整体性能较好的情况下尽量满足用户的需求，为用户提供更好的服务质量。

为实现上述目的，本发明采用的技术方案如下：

一种面向用户需求和提升网络性能的动态频谱接入的方法，所述方法包括以下步骤：

（1）入网初始化；

A.各个次级用户将自己在各个信道的传输速率通过控制信道发送给控制节点，同时自己也存储好自己在各个信道的传输速率和误码率的相关信息，控制节点根据次级用户的上报信息，将信息以表格的形式存储，其中，默认各个次级用户有不相同的传输能力，即不同用户在同一信道有不同的传输速率，但是传输速率按大小排序是相同的，同时，同一用户在不同信道有不同的传输速率。不同次级用户在不同信道有不同的误码率；

B.控制节点将每个次级用户申请信道失败的记录器（m表示次级用户个数）全部初始化为0，其中所述信道失败为没有分配到任何信道可进行数据通信；

C.控制节点将所有次级用户的优先级全部初始化为0，即pri_i＝0,i∈{1,…,m}，其中，m为次级用户个数；

D.每个次级用户都单独执行Q学习算法，每个次级用户的状态动作对函数值全部初始化为0；

E.随机初始化各个主用户占用信道的状态；

（2）每个次级用户SU_i，i∈{1,2,…,m}在数据传输时隙刚开时都计算出自己想要申请的信道标号j并向控制节点提交申请；

A.状态空间的构建：次级用户SU_i的根据感知结果确定状态空间为其中s_ki＝0表示信道被主用户占用，s_ki＝1表示信道未被主用户占用，即信道空闲，s_ki＝2表示此信道的误码率不符合用户SU_i的要求，即此信道不在用户选择范围内，舍弃不用，所以每个次级用户的状态空间是不相同的，s_1i～s_di表示有d个可与次级用户共享的主用户信道；

B.各个次级用户根据自己的状态空间，调整自己Q值表的大小；

C.动作选择策略：根据贪婪策略的动作选择公式，选择使得当前Q值表取得最大值的动作作为下一次动作；

D.由下一次动作可得到下一次状态令各个次级用户将自己想要申请的信道j通过控制信道上报给控制节点；

E.次级用户根据自己的通信需求紧急程度选取urg_i的取值，通过pri_i＝pri_i+urg_i修改自己的优先级，并将自己的优先级数值pri_i也通过控制信道上报给控制节点，其中，pri_i代表次级用户SU_i的优先级，urg_i代表次级用户SU_i此次数据传输的紧急程度，urg_i∈{0,1,2,3}，默认值为0，urg_i取值越大，则次级用户所要付出的额外代价（如额外的费用）越高，将优先级数值上报给控制节点后，默认恢复pri_i＝0,urg_i＝0；

（3）控制节点根据各个次级用户的上报信息处理各个次级用户所提交的申请；

A.次级用户SU_i所提交的信道申请j没有与其他次级用户的信道申请冲突，控制节点则直接将信道j分配给次级用户SU_i；

B.次级用户SU_i所提交的信道申请j与次级用户SU_j所提交的信道申请i冲突，即两者申请了同一个空闲信道，控制节点首先依据优先级判断，比较pri_i和pri_j，将信道优先分给优先级比较大的次级用户，若pri_i＝pri_j，则计算两者信道申请失败的计数器的差值的绝对值。若则将信道优先分配给计数器数值比较大的次级用户；若则将信道分配给发送能力比较强的次级用户，其中，N₀为判定门限；

C.控制节点处理完所有次级用户的信道申请后，若不存在次级用户没有申请到信道的情况，则转至下一步D；若存在次级用户没有申请到信道的情况，控制节点判断是否还有未被分配出去的空闲信道，若无，则转至下一步D；若有，则将空闲信道随机分给没有申请到信道的次级用户，直至全部次级用户都分配到信道或者所有空闲信道都被分配给次级用户；

D.对于信道申请成功的用户，若则若则保持数值不变。对于信道申请失败的用户，则

（4）控制节点通过控制信道将分配信息下发给各个次级用户，次级用户利用自己分配到的空闲信道开始数据传输直至下一个感知时隙的到来；

（5）在感知时隙期间，各个次级用户根据上次分配结果调整自己的Q值表；

A.根据奖赏规则确定奖赏函数，并计算出奖赏函数的值，奖赏函数公式如下：

r_{s_{i}} = \{\begin{matrix} a + b * v_{ij} (1) \\ a - b * v_{ik} (2) \\ a - b * v_{ij} (3) \end{matrix}

其中，表示次级用户SU_i的奖赏函数数值，v_ij表示次级用户SU_i在信道i上的传输速率，a，b都表示一个常量，满足对任意的v_ij,i∈{1,…,m},j∈{1,…,d}都有a-b*v_ij＜0；

B.将奖赏函数的值代入更新公式中，根据更新公式更新各个次级用户的Q值表；

（6）各个次级用户是否还存在数据需要传输，若无，则转至步骤（7），若有，则转至步骤（2）；

（7）数据传输结束，次级用户退出认知网络。

需要进一步说明的是，所述的次级用户SU_i存储信息的形式为v_ik≤v_if≤…≤v_ig，个数为d，p_if≤p_ig≤…≤p_ik，个数为d，其中，v_ik表示次级用户SU_i在信道k上的传输速率，p_if表示次级用户SU_i在信道f上的误码率，d表示可与次级用户共享的主用户信道数目，控制节点的信息存储形式为SU＝{su_k,su_i,…,su_m},su_i≤su_k≤…≤su_m，其中，su_i表示标号为i的次级用户，m表示次级用户的个数。

需要进一步说明的是，所述的状态动作对函数值的形式为其中，表示次级用户SU_i在t₀时刻的状态，表示次级用户SU_i在t₀时隙所采取的动作，Q值表以如下的形式存储：

当表示时刻0时，所处状态为采取动作为Q值的大小为

需要进一步说明的是，所述调整Q值表大小的具体方法为：根据状态空间各状态的取值，当s_ki＝0或者s_ki＝2时，若原Q值表中存在关于信道k的Q值信息，则去掉代表信道k的Q值信息，若原Q值表中不存在关于信道k的Q值信息，则保持Q值表不变。当s_ki＝1时，若原Q值表中存在关于信道k的Q值信息，则保持Q值表不变，若原Q值表中不存在关于信道k的Q值信息，则在Q值表中加入信道k的Q值信息，并全部初始化为0。

需要进一步说明的是，所述的动作选择公式如下：

{(a_{j}^{t + 1})}^{*} = \arg \max (Q_{s_{i}}^{t} (s_{i}^{t}, a_{j}^{t}))

其中，表示在第t+1时隙所采取的动作，表示在第t时刻所采取的动作，表示在t时刻，次级用户SU_i在状态为动作为时Q值的大小，arg()表示求下角标的意思，整个公式的含义为在当前时刻t，次级用户SU_i所处的状态为的前提下，遍历此时所有能采取的动作将使取得最大值的作为在t+1时刻所采取的动作

需要进一步说明的是，所述的奖赏公式的具体使用条件为：当次级用户SU_i申请信道j，控制节点分配给该用户信道j时，使用公式(1)令当次级用户SU_i申请信道j，控制节点分配给该用户信道k时，使用公式(2)令当次级用户SU_i申请信道j，控制节点没有分配给该用户任何空闲信道进行数据通信时，使用公式(3)令

r_{s_{i}} = a - b * v_{ij} .

需要进一步说明的是，所述的Q值更新公式如下：

其中，为环境对次级用户SU_i的奖赏函数，表示学习速率，学习速率越接近越接近1，奖赏变化越快速，表示折扣因子，代表了未来回报对当前回报的重要性，t表示当前所处时刻，也表示状态行动对的迭代次数。

本发明有益效果在于：

1、本发明从网络整体性能和用户需求两个角度出发，在优化网络整体性能的同时尽量满足用户需求，提出了一种自适应学习的资源优化方法，克服了现有技术因为更偏重于网络整体性能或者用户需求单方面的情况，从而导致明显的用户服务质量差或者网络整体资源的明显浪费的现象。

2、本发明将用户需求细分为硬性需求（误码率）和软性需求（传输速率），在必须满足硬性需求的同时尽量满足软性需求，与现有技术比较笼统的提法相比，更符合实际情况，同时也使得外部环境变得更为复杂，更好的凸显出了Q学习算法用在动态频谱接入方面的优势。

3、本发明将控制节点的一部分运算转移到次级用户节点上，即每个次级用户都单独执行自己的Q学习算法，在一定程度上将串行运算变成了并行运算，减轻了控制节点的运算负担，缩短了算法的运行时间，为数据通信赢得了更多的时间。

4、本发明加入了一些接入控制策略，避免了现有技术因为考虑网络整体性能的优化而使得某些次级用户经常无法接入空闲信道的情况。同时，为那些急需数据通信但却没有竞争到空闲信道的次级用户提供了一种可接入空闲信道的途径，使得次级用户得到了更好的服务质量。

附图说明

图1为本发明的应用场景图；

图2为本发明的总流程图；

图3为本发明的次级用户计算标号提交申请的流程图；

图4为本发明的控制节点处理申请的流程图；

图5为本发明的次级用户调整Q值表大小的流程图。

具体实施措施

下面将结合附图对发明作进一步描述。

如图1所示，为本发明的认知无线网络应用场景图，场景中充当控制节点的可以是次级用户基站，也可以是一个分层分簇型网络中有较强运算能力的簇头节点。场景中次级用户和次级用户的控制节点与主用户和主用户基站共存在同一地理位置区域，次级用户根据感知结果计算出自己想要申请的信道标号，并通过公共控制信道将申请提交给控制节点，控制节点根据申请处理策略分配信道，并通过公共控制信道将分配信息下发到次级用户节点，次级用户利用分配到的信道进行数据通信，并根据分配结果调整自己的Q值表，为下次申请信道做准备。

如图2～5所示，本发明为一种面向用户需求和提升网络性能的动态频谱接入的方法，所述方法包括以下步骤：

（1）入网初始化；

A.各个次级用户将自己在各个信道的传输速率通过控制信道发送给控制节点，同时自己也存储好自己在各个信道的传输速率和误码率的相关信息，存储的具体形式为：v_ik≤v_if≤…≤v_ig，个数为d，p_if≤p_ig≤…≤p_ik，个数为d。其中，v_ik表示次级用户SU_i在信道k上的传输速率，p_if表示次级用户SU_i在信道f上的误码率，d表示可与次级用户共享的主用户信道数目。控制节点根据次级用户的上报信息，将信息以表格的形式存储。具体形式为：SU＝{su_k,su_i,…,su_m},su_i≤su_k≤…≤su_m。其中，su_i表示标号为i的次级用户，m表示次级用户的个数。

其中，默认各个次级用户有不相同的传输能力，即不同用户在同一信道有不同的传输速率，但是传输速率按大小排序是相同的，同时，同一用户在不同信道有不同的传输速率。不同次级用户在不同信道有不同的误码；

B.控制节点将每个次级用户申请信道失败（即没有分配到任何信道可进行数据通信）的记录器（m表示次级用户个数）全部初始化为0；

C.控制节点将所有次级用户的优先级全部初始化为0，即pri_i＝0,i∈{1,…,m}（m表示次级用户个数）；

D.每个次级用户都单独执行Q学习算法。将每个次级用户的状态动作对函数值全部初始化为0。状态动作对函数值的形式为其中，表示次级用户SU_i在t₀时刻的状态，表示次级用户SU_i在t₀时隙所采取的动作。Q值表以如下的形式存储：

当表示时刻t₀时，所处状态为采取动作为Q值的大小为

E.随机初始化各个主用户占用信道的状态；

（2）每个次级用户SU_i，i∈{1,2,…,m}（m表示次级用户个数）在数据传输时隙刚开时都计算出自己想要申请的信道标号j并向控制节点提交申请；

A.状态空间的构建：次级用户SU_i的根据感知结果确定状态空间为其中s_ki＝0表示信道被主用户占用，s_ki＝1表示信道未被主用户占用，即信道空闲，s_ki＝2表示此信道的误码率不符合用户SU_i的要求，即此信道不在用户选择范围内，舍弃不用。所以每个次级用户的状态空间是不相同的。s_1i～s_di表示有d个可与次级用户共享的主用户信道；

调整Q值表大小的具体方法为：根据状态空间各状态的取值，当s_ki＝0或者s_ki＝2时，若原Q值表中存在关于信道k的Q值信息，则去掉代表信道k的Q值信息，若原Q值表中不存在关于信道k的Q值信息，则保持Q值表不变。当s_ki＝1时，若原Q值表中存在关于信道k的Q值信息，则保持Q值表不变，若原Q值表中不存在关于信道k的Q值信息，则在Q值表中加入信道k的Q值信息，并全部初始化为0。

C.动作选择策略：根据贪婪策略的动作选择公式选择使得当前Q值表取得最大值的动作作为下一次动作

其中，表示在第t+1时隙所采取的动作，表示在第t时刻所采取的动作，表示在t时刻，次级用户SU_i在状态为动作为时Q值的大小，arg()表示求下角标的意思。整个公式的含义为在当前时刻t，次级用户SU_i所处的状态为的前提下，遍历此时所有能采取的动作将使取得最大值的作为在t+1时刻所采取的动作

E.次级用户根据自己的通信需求紧急程度选取urg_i的取值，通过pri_i＝pri_i+urg_i修改自己的优先级，并将自己的优先级数值pri_i也通过控制信道上报给控制节点。其中，pri_i代表次级用户SU_i的优先级，urg_i代表次级用户SU_i此次数据传输的紧急程度。urg_i∈{0,1,2,3}，默认值为0，urg_i取值越大，则次级用户所要付出的额外代价（如额外的费用）越高。将优先级数值上报给控制节点后，默认恢复pri_i＝0,urg_i＝0；

（3）控制节点根据各个次级用户的上报信息处理各个次级用户所提交的申请。

B.次级用户SU_i所提交的信道申请j与次级用户SU_j所提交的信道申请i冲突，即两者申请了同一个空闲信道，控制节点首先依据优先级判断，比较pri_i和pri_j，将信道优先分给优先级比较大的次级用户，若pri_i＝pri_j，则计算两者信道申请失败的计数器的差值的绝对值。若则将信道优先分配给计数器数值比较大的次级用户；若则将信道分配给发送能力比较强的次级用户。其中，N₀为判定门限；

C.控制节点处理完所有次级用户的信道申请后，若不存在次级用户没有申请到信道的情况，则转3d）；若存在次级用户没有申请到信道的情况，控制节点判断是否还有未被分配出去的空闲信道，若无，则转3d)；若有，则将空闲信道随机分给没有申请到信道的次级用户，直至全部次级用户都分配到信道或者所有空闲信道都被分配给次级用户；

A.根据奖赏规则确定奖赏函数，并计算出奖赏函数的值。奖赏函数公式如下：

r_{s_{i}} = \{\begin{matrix} a + b * v_{ij} (1) \\ a - b * v_{ik} (2) \\ a - b * v_{ij} (3) \end{matrix}

其中，表示次级用户SU_i的奖赏函数数值，v_ij表示次级用户SU_i在信道i上的传输速率，a，b都表示一个常量，满足对任意的v_ij,i∈{1,…,m},j∈{1,…,d}都有a-b*v_ij＜0。而奖赏公式的具体使用条件为：当次级用户SU_i申请信道j，控制节点分配给该用户信道j时，使用公式(1)令当次级用户SU_i申请信道j，控制节点分配给该用户信道k时，使用公式(2)令当次级用户SU_i申请信道j，控制节点没有分配给该用户任何空闲信道进行数据通信时，使用公式(3)令

r_{s_{i}} = a - b * v_{ij};

B.将奖赏函数的值代入如下的更新公式中，根据更新公式更新各个次级用户的Q值表。

其中，为环境对次级用户SU_i的奖赏函数，表示学习速率，学习速率越接近越接近1，奖赏变化越快速，表示折扣因子，代表了未来回报对当前回报的重要性，t表示当前所处时刻，也表示状态行动对的迭代次数；

（6）各个次级用户是否还存在数据需要传输，若无，则转步骤7，若有，则转步骤2；

（7）数据传输结束，次级用户退出认知网络。

Claims

1.一种面向用户需求和提升网络性能的动态频谱接入的方法，其特征在于，所述方法包括以下步骤：

(1)入网初始化；

A.各个次级用户将自己在各个信道的传输速率通过控制信道发送给控制节点，同时自己也存储好自己在各个信道的传输速率和误码率的相关信息，控制节点根据次级用户的上报信息，将信息以表格的形式存储，其中，默认各个次级用户有不相同的传输能力，即不同用户在同一信道有不同的传输速率，但是传输速率按大小排序是相同的，同时，同一用户在不同信道有不同的传输速率，不同次级用户在不同信道有不同的误码率；

B.控制节点将每个次级用户申请信道失败的记录器i∈{1,…,m}，其中m表示次级用户个数，全部初始化为0，其中所述信道失败为没有分配到任何信道可进行数据通信；

E.随机初始化各个主用户占用信道的状态；

(2)每个次级用户SU_i，i∈{1,2,…,m}在数据传输时隙刚开时都计算出自己想要申请的信道标号j并向控制节点提交申请；

C.动作选择策略：根据贪婪策略的动作选择公式，选择使得当前Q值表取得最大值的动作作为下一次动作；其中，所述贪婪策略的动作选择公式为：

{(a_{j}^{t + 1})}^{*} = \arg \max (Q_{s_{i}}^{t} (s_{i}^{t}, a_{j}^{t}))

选择使得当前Q值表取得最大值的动作作为下一次动作

其中，表示在第t+1时隙所采取的动作，表示在第t时刻所采取的动作，表示在t时刻，次级用户SU_i在状态为动作为时Q值的大小，arg( )表示求下角标的意思；整个公式的含义为在当前时刻t，次级用户SU_i所处的状态为的前提下，遍历此时所有能采取的动作将使取得最大值的作为在t+1时刻所采取的动作

E.次级用户根据自己的通信需求紧急程度选取urg_i的取值，通过pri_i＝pri_i+urg_i修改自己的优先级，并将自己的优先级数值pri_i也通过控制信道上报给控制节点，其中，pri_i代表次级用户SU_i的优先级，urg_i代表次级用户SU_i此次数据传输的紧急程度，urg_i∈{0,1,2,3}，默认值为0，urg_i取值越大，则次级用户所要付出的额外代价越高，将优先级数值上报给控制节点后，默认恢复pri_i＝0,urg_i＝0；

(3)控制节点根据各个次级用户的上报信息处理各个次级用户所提交的申请；

B.次级用户SU_i所提交的信道申请j与次级用户SU_j所提交的信道申请i冲突，即两者申请了同一个空闲信道，控制节点首先依据优先级判断，比较pri_i和pri_j，将信道优先分给优先级比较大的次级用户，若pri_i＝pri_j，则计算两者信道申请失败的计数器的差值的绝对值；若则将信道优先分配给计数器数值比较大的次级用户；若则将信道分配给发送能力比较强的次级用户，其中，N₀为判定门限；

D.对于信道申请成功的用户，若则若则保持数值不变；对于信道申请失败的用户，则

(4)控制节点通过控制信道将分配信息下发给各个次级用户，次级用户利用自己分配到的空闲信道开始数据传输直至下一个感知时隙的到来；

(5)在感知时隙期间，各个次级用户根据上次分配结果调整自己的Q值表；

r_{s_{i}} = \{\begin{matrix} a + b * v_{ij} (1) \\ a - b * v_{ik} (2) \\ a - b * v_{ij} (3) \end{matrix}

B.将奖赏函数的值代入更新公式中，根据更新公式更新各个次级用户的Q值表；其中，更新公式为：

(6)各个次级用户是否还存在数据需要传输，若无，则转至步骤(7)，若有，则转至步骤(2)；

(7)数据传输结束，次级用户退出认知网络。

2.根据权利要求1所述的动态频谱接入方法，其特征在于，所述的次级用户SU_i存储信息的形式为v_ik≤v_if≤…≤v_ig，个数为d，p_if≤p_ig≤…≤p_ik，个数为d，其中，v_ik表示次级用户SU_i在信道k上的传输速率，p_if表示次级用户SU_i在信道f上的误码率，d表示可与次级用户共享的主用户信道数目，控制节点的信息存储形式为SU＝{su_k,su_i,…,su_m},su_i≤su_k≤…≤su_m，其中，su_i表示标号为i的次级用户，m表示次级用户的个数。

3.根据权利要求1所述的动态频谱接入方法，其特征在于，所述的状态动作对函数值的形式为其中，表示次级用户SU_i在t₀时刻的状态，表示次级用户SU_i在t₀时隙所采取的动作，Q值表以如下的形式存储：

当表示时刻0时，所处状态为采取动作为Q值的大小为

4.根据权利要求1所述的动态频谱接入方法，其特征在于，所述调整Q值表大小的具体方法为：根据状态空间各状态的取值，当s_ki＝0或者s_ki＝2时，若原Q值表中存在关于信道k的Q值信息，则去掉代表信道k的Q值信息，若原Q值表中不存在关于信道k的Q值信息，则保持Q值表不变；当s_ki＝1时，若原Q值表中存在关于信道k的Q值信息，则保持Q值表不变，若原Q值表中不存在关于信道k的Q值信息，则在Q值表中加入信道k的Q值信息，并全部初始化为0。

5.根据权利要求1所述的动态频谱接入方法，其特征在于，所述的动作选择公式如下：

{(a_{j}^{t + 1})}^{*} = \arg \max (Q_{s_{i}}^{t} (s_{i}^{t}, a_{j}^{t}))

其中，表示在第t+1时隙所采取的动作，表示在第t时刻所采取的动作，表示在t时刻，次级用户SU_i在状态为动作为时Q值的大小，arg( )表示求下角标的意思，整个公式的含义为在当前时刻t，次级用户SU_i所处的状态为的前提下，遍历此时所有能采取的动作将使取得最大值的作为在t+1时刻所采取的动作

6.根据权利要求1所述的动态频谱接入方法，其特征在于，所述的奖赏公式的具体使用条件为：当次级用户SU_i申请信道j，控制节点分配给该用户信道j时，使用公式(1)令当次级用户SU_i申请信道j，控制节点分配给该用户信道k时，使用公式(2)令当次级用户SU_i申请信道j，控制节点没有分配给该用户任何空闲信道进行数据通信时，使用公式(3)令

7.根据权利要求1所述的动态频谱接入方法，其特征在于，所述的Q值更新公式如下：