CN112188503B

CN112188503B - 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

Info

Publication number: CN112188503B
Application number: CN202011055360.3A
Authority: CN
Inventors: 徐友云; 李大鹏; 蒋锐
Original assignee: Nanjing Nanyou Communication Network Industry Research Institute Co ltd; Nanjing Ai Er Win Technology Co ltd
Current assignee: Nanjing Nanyou Communication Network Industry Research Institute Co ltd; Nanjing Ai Er Win Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-06-22
Anticipated expiration: 2040-09-30
Also published as: CN112188503A

Abstract

本发明公开了一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，其技术方案要点是包括提供信道分配***以及若干用户终端，信道分配***与用户终端通信连接；信道分配***内配置有遵循部分可观测马尔可夫链的动态多信道模型，动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式，最优策略算法通过深度强化学习方法进行训练优化。该方法通过深度强化学习避免了庞大的指数级计算量，在保证用户终端通信质量的前提下，使得用户终端可以快速接入最优信道，提高频谱利用率。

Description

一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

技术领域

本发明涉及通信技术领域，更具体的说是涉及一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法。

背景技术

无线频谱是无线通信中的一种有限而珍贵的自然资源，现有无线通信是采取基于授权的方法分配频谱，即将无线频谱划分成若干固定宽度的频谱段，由政府管理部门分配给用户终端单独使用。但是随着无线通信技术的迅速发展以及新业务的不断增长，加之，频谱利用率的低效带来的频谱资源短缺的问题，频谱资源变得越来越稀缺，日益稀缺的频谱已经无法满足无线通信日益增长的需求。这一现象也促进了高效地动态频谱接入方案的发展，以迎合新兴的无线网络技术。其中认知无线电技术已经成为提高频谱利用率的关键技术，该技术的主要思想是检测哪些频谱处于空闲状态，然后智能选择和接入这些空闲频谱，这样能够大大提高频谱利用率。

作为认知无线电技术的关键技术之一的动态频谱接入技术的研究正在展开，现有的方法主要是马尔可夫建模，即将用户终端的动态频谱接入过程建模成马尔可夫模型。用二维或者多维的马尔可夫链精确的描述接入过程。通过马尔可夫建模虽然能够提高频谱利用率，但是对环境的要求较高，且***没有经过学习的过程，收敛速度慢。

随着强化学习的蓬勃发展，给动态频谱接入技术带来了新的研究。强化学习是指从环境状态到动作映射的学习，强化学习着重研究在状态转移概率函数未知的情况下，***如何学习最优行为策略。强化学习对环境知识要求较少，对动态变化环境适应性强，应用到无线网络时兼容性较好，这些特点都使得强化学习在认知无线电领域的营业具有广泛的前景。然而，当用户终端数剧增时，强化学习产生的状态量也是幂级的，算法复杂度变得非常大，这种指数级计算量导致强化学习难以实际运用。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，该方法能够避免进行庞大的指数级计算，在保证用户终端通信质量的前提下，使得用户终端可以快速接入最优信道，提高频谱利用率。

为实现上述目的，本发明提供了如下技术方案：一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，提供信道分配***以及若干用户终端，所述信道分配***与所述用户终端通信连接；

所述信道分配***内配置有遵循部分可观测马尔可夫链的动态多信道模型，所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式，所述信道状态表征在所述信道上是否成功发送数据，所述最优策略算法通过深度强化学习方法进行优化，所述深度强化学习方法包括以下步骤；

S10，所述信道分配***内配置有经验池、主神经网络以及目标神经网络，所述经验池用于存储数据集，所述经验池具有容量阀值D，所述容量阀值D表征所述经验池存储数据集的最大值，通过所述最优策略算法构建所述主神经网络和目标神经网络，所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重，所述信道状态为s，所述执行动作为a，所述执行动作a表征信道的分配方式，所述主神经网络的权重为w，所述目标神经网络的权重为w^-，另目标神经网络的权重等于主神经网络的权重，并进入S20；

S20，所述信道分配***根据用户终端当前时隙分配的信道的信道状态s，通过预设的分配算法得到下一时隙的执行动作a，并进入S30；

S30，所述信道分配***根据执行动作a分配信道至用户终端，所述通信分配***通过预设的奖励算法，以用户终端是否通过信道成功发送数据为变量，计算得到奖励值r_t+1并保存，并进入S40；

S40，所述信道分配***通过当前时隙的信道状态s_t、当前时隙的执行动作a_t获得下一时隙的信道状态s_t+1，并将(s_t,a_t,r_t,s_t+1)作为一组数据集保存至所述经验池，r_t为t-1时隙的信道状态s_t-1，执行动作a_t-1后在t时隙获得的奖励值，并进入S50；

S50，判断所述经验池的容量是否达到所述容量阀值D，若未达到，则令s_t＝s_t+1并返回步骤S20；反之，则进入步骤S60；

S60，所述信道分配***以随机采样方式从所述经验池中获取若干组数据集(s_t,a_t,r_t,s_t+1)，所述主神经网络对每组数据集进行训练得到估计Q值，所述目标神经网络通过预设的实际Q值算法计算得到实际Q值，并进入S70；

S70，通过预设的误差算法计算估计Q值与实际Q值的误差值，并根据梯度下降法更新主神经网络的权重w，并进入S80；

S80，每隔预设的更新间隔步数C，令w^-＝w，所述更新间隔步数C表征将目标神经网络的权重改为主神经网络的权重所经过的步数，并进入S90；

S90，将误差值与预设的收敛临界值比较，当误差值大于收敛临界值时，返回步骤S30，反之，则结束，所述收敛临界值表征主神经网络收敛状态下的最大误差值。

所述动态多信道模型为遵循部分可观测马尔可夫链的动态多信道模型，所述动态多信道模型遵循的约束条件为：

C1：

C2：

C3：

C4：Ω(t+1)＝Ω'(t)P

C5：

C6：

其中：C1为部分可观测马尔可夫链的状态空间，每个状态s_i(i∈{1,2,...,3^N})都是一个长度为N的向量[s_i1,...,s_ij,...,s_iN]，s_ij表示j信道的信道状态；

C2是置信向量，

为所述信道分配***处于s_i状态，并且知道过去时隙的执行动作以及下一时隙的各个信道的信道状态的条件概率；

C3是置信向量中每个可能的状态的更新方式，I(·)是一个指示函数，a(t)为t时隙用户终端接入的信道，o(t)为t时隙用户终端接入的信道的信道状态观测值，所述观测值为1表征信道状态好，所述观测值为0.5表征信道状态不确定，所述观测值为0表征信道状态差；

C4是置信向量的更新公式，P是部分可观测马尔可夫链的转移矩阵；

C5是最优策略算法，γ为预设的折扣因子，r_t+1为t时隙的信道状态s执行动作a后在t+1时隙获得的奖励值；

C6是当累计的奖励值最大时得到的最优的信道分配策略。

作为本发明的进一步改进，所述分配算法配置为：

其中，

表示当前主神经网络估计Q值最大的接入动作，a_random表示在所有可能的接入方案中随机选择一种接入方案，ε为预设的分配概率值。

作为本发明的进一步改进，所述奖励算法配置为：

作为本发明的进一步改进，所述实际Q值算法配置为：

其中，y_t为所述实际Q值。

作为本发明的进一步改进，所述误差算法配置为：

L(w)＝(y_t-Q(s_t,a_t；w))²

其中，L(w)为所述误差值。

本发明的有益效果：信道分配***中配置有动态多信道模型，用于计算最优信道分配方式，并通过深度强化学习实现对最优策略算法的不断优化。该动态多信道接入方法降低了对环境的要求，使得信道分配***可以经过学习快速将各信道以最优化的方式分配至各个用户终端，并且将动态多信道模型通过深度强化学习方法进行求解，由此避免了庞大的指数级计算量。因此该动态多信道接入方法能够避免进行庞大的指数级计算，在保证用户终端通信质量的前提下，使得用户终端可以快速接入最优信道，提高频谱利用率。

附图说明

图1为深度强化学习方法的流程图；

图2为无线网络动态多信道接入场景图；

图3为深度强化学习方法的结构图；

图4为误差算法在不同学习速率下的收敛对比图；

图5为误差算法在学习速率为0.1时的收敛图；

图6为动态多信道模型采用深度强化学习方法后与理想状态以及随机选择在归一化奖励方面的对比；

图7为动态多信道模型采用深度强化学习方法后与理想状态以及随机选择在误差值方面的对比。

具体实施方式

下面结合附图和实施例，对本发明进一步详细说明。

参照图1、图2、图3所示，本实施例的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，提供信道分配***以及若干用户终端，所述信道分配***与所述用户终端通信连接。

所述信道分配***内配置有遵循部分可观测马尔可夫链的动态多信道模型，所述动态多信道模型用于根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式。动态多信道模型的配置原理如下：

参照图2所示，假设某一范围内覆盖有一个基站和M个用户终端，每个用户终端需要从N个信道中选择一个发送数据包。并且假设用户一直有数据要发送，以及N个信道相互正交。在每个时隙，用户终端需要动态的感知信道的状态并选择一个来发送数据，信道的状态为三种，分别为信道状态好、信道状态不确定以及信道状态差，信道状态好表示用户终端的数据能够成功发送，信道状态不确定表示用户终端的数据不一定能够成功发送，信道状态差表示用户终端的数据无法成功发送。用S来对信道状态进行数据话表示，表示规则如下：

用户终端根据分配的信道的实际信道状态获得相应的奖励，若用户终端选择的是信道状态好的，则会得到一个正的奖励值(+1)；若用户终端选择的是信道状态差的，则会得到一个负的奖励值(-1)；若用户终端选择的状态是信道状态不确定的，则也会得到一个负的奖励值(-0.1)，用r_t表示奖励值。

用一个3^N-状态马尔可夫链来模拟信道之间的相关性，部分可观测马尔可夫链的状态空间为

每个状态s_i(i∈{1,2,...,3^N})都是一个长度为N的向量[s_i1,s_i2,...,s_iN]，s_ij表示j信道的信道状态：信道状态好(1)，信道状态差(0)，信道状态不确定(0.5)。每个信道可以被刻画成一个3×3的状态转移矩阵，状态转移矩阵具体如下：

其中，P_i(x|y)，x,y∈{0,0.5,1}，定义为信道从状态x到状态y的状态转移概率。整个马尔可夫链的状态转移矩阵定义为P。由于用户终端只能感知一个信道并在每个时隙的开始观察其状态，因此无法观察到所有信道的信道状态。但是，信道分配***可以观察并预测***中信道状态的分布。因此，将动态多信道接入问题建模为部分可观测的马尔可夫决策过程的通用框架，其遵循的约束条件为：

C1：

C2：

C3：

C4：Ω(t+1)＝Ω'(t)P

C5：

C6：

其中：C1为部分可观测马尔可夫链的状态空间，每个状态s_i(i∈{1,2,...,3^N})都是一个长度为N的向量[s_i1,...,s_ij,...,s_iN]，s_ij表示j信道的信道状态。

C2是置信向量，

为所述信道分配***处于s_i状态，并且知道过去时隙的执行动作以及下一时隙的各个信道的信道状态的条件概率。

C3是置信向量中每个可能的状态的更新方式，I(·)是一个指示函数，在每个时隙，信道分配***需要给用户终端分配接入策略，a(t)为t时隙用户终端接入的信道，即用户终端的执行动作，将用户终端的执行动作进行数据化表示：

a_t＝{0,1,2,...,N}

其中a_t＝0表征用户终端在时隙t不发送数据，而a_t＝n,1≤n≤N表征在时隙t用户终端选择接入n信道发送数据。

o(t)为t时隙用户终端接入的信道的信道状态观测值，所述观测值为1表征信道状态好，所述观测值为0.5表征信道状态不确定，所述观测值为0表征信道状态差。

C4是置信向量的更新公式，P是部分可观测马尔可夫链的转移矩阵。

C5是最优策略算法，γ为预设的折扣因子，r_t+1为t时隙的信道状态s执行动作a后根据奖励算法在t+1时隙获得的奖励值，需要注意的是，用户是在t时隙处于状态s_t采取动作a_t后是在t+1时隙获得奖励。奖励算法配置为：

在动态多信道模型中，信道分配***需要去最大化长期的累加折扣奖励值，累加折扣奖励值表征根据当前的信道状态，预测之后一段时隙执行动作后获得的奖励值的累计值，累加折扣奖励值的计算算法配置为：

其中，折扣因子γ(0≤γ≤1)，通过该算法，使得预测的时隙距离当前时隙越久，则获得的奖励值的绝对值相对越小，从而使得预测的时隙距离当前时隙越久，对累加折扣奖励值的影响越小。

C6是通过贝尔曼方程找到最优的信道分配策略

。

Q学习是强化学习中最常用的求解

的算法，但是Q学习处理大的动作空间比较复杂。而深度强化学习结合传统的强化学习和深度神经网络可以解决这个缺点。深度神经网络可以找到输入数据和输出数据之间的数学关系，因此我们使用一个主神经网络去近似权重为w的最优策略算法，即Q(s,a；w)≈Q_π(s,a)，同时使用一个目标神经网络Q(s',a'；w^-)去产生主神经网络训练所需的目标值。两个神经网络框架相同，仅权重不同，通过这样设置来打乱相关性，主神经网络用于估计Q值，具有最新的参数，而目标神经网络用到很久以前的参数。另一个特点是经验回放，利用以前的经验进行学习。这两个特点使得深度强化学习方法优胜于传统的强化学习。参照图1、图3所示，深度强化学习方法包括以下步骤：

S10，所述信道分配***内配置有经验池、主神经网络Q(s,a；w)以及目标神经网络Q(s',a'；w^-)，所述经验池用于存储数据集，所述经验池具有容量阀值D，所述容量阀值D表征所述经验池存储数据集的最大值，所述主神经网络Q(s,a；w)和目标神经网络Q(s',a'；w^-)均由最优策略算法加权得到，s为信道状态，a为执行动作，所述执行动作a表征信道的分配方式，w为神经网络的权重，令w^-＝w。并且所述信道分配***接收操作人员指令对学习速率α、容量阀值D、折扣因子γ、分配概率值ε、信道数量N以及更新间隔步数C进行赋值，并进入S20。

S20，所述信道分配***根据用户终端当前时隙分配的信道的信道状态s，通过预设的分配算法得到下一时隙的执行动作a。所述分配算法配置为：

其中，

表示当前主神经网络估计Q值最大的接入动作，a_random表示在所有可能的接入方案中随机选择一种接入方案，ε为预设的分配概率值，并进入S30。

S30，所述信道分配***根据执行动作a分配信道至用户终端，所述通信分配***通过预设的奖励算法，以用户终端是否通过信道成功发送数据为变量，计算得到奖励值r_t+1并保存。奖励算法配置为：

即信道分配***将信道分配给用户终端，用户终端根据信道状态观测值o_t在此信道上发送数据。当数据成功发送时，奖励r_t+1＝+1；当数据发送失败时，奖励r_t+1＝-1；当在此信道上不发送数据的时候，奖励r_t+1＝-0.1，并进入S40。

S40，所述信道分配***通过当前时隙的信道状态s_t、当前时隙的执行动作a_t获得下一时隙的信道状态s_t+1，并将(s_t,a_t,r_t,s_t+1)作为一组数据集保存至所述经验池，r_t为t-1时隙的信道状态s_t-1，执行动作a_t-1后在t时隙获得的奖励值，并进入S50。

S50，判断所述经验池的容量是否达到所述容量阀值D，若未达到，则令s_t＝s_t+1并返回步骤S20；反之，则进入步骤S60。

S60，所述信道分配***以随机采样方式从所述经验池中获取若干组数据集(s_t,a_t,r_t,s_t+1)，所述主神经网络Q(s,a；w)对于每组数据集进行训练得到估计Q值，所述目标神经网络Q(s',a'；w^-)通过预设的实际Q值算法计算得到实际Q值；实际Q值算法配置为：

其中，y_t为所述实际Q值，并进入S70。

S70，通过预设的误差算法计算估计Q值与实际Q值的误差值，误差算法配置为：

L(w)＝(y_t-Q(s_t,a_t；w))²

并根据梯度下降法更新主神经网络Q(s,a；w)的权重w，具体方式如下：

其中，α为预设的学习速率，并进入S80。

S80，每隔预设的更新间隔步数C，令w^-＝w，所述更新间隔步数C表征将目标神经网络Q(s,a；w)的权重改为主神经网络Q(s',a'；w^-)的权重所经过的步数，并进入S90。

S90，将误差值与预设的收敛临界值比较，当误差值大于收敛临界值时，返回步骤S30，反之，则结束，所述收敛临界值表征主神经网络Q(s,a；w)收敛状态下的最大误差值。

主神经网络Q(s,a；w)和目标神经网络Q(s',a'；w^-)均采用三个隐层(50个神经元)的全连接神经网络，优化方法采用Adam优化器，网络主要参数的设置如表1所示。

表1主要参数设置

学习速率α	0.01
		容量阀值D	10000
折扣因子γ	0.9
		分配概率值ε	0.9
信道数量N	32
		更新间隔步数C	300

参照图4、图5所示，学习速率的大小直接影响误差算法的收敛性能。若学习率太小，收敛速度会很慢；若学习速率太大，会跳过最优，甚至会产生震荡。因而学习速率的设定非常重要。参照图4所示，随着训练次数的增加，3条曲线的都趋向收敛，尤其是当学习速率为0.01的时候，只需要很少的训练次数就可收敛；参照图5所示，当学习速率设置为0.1的时候，误差值出现了突然的骤增，性能很差。

图6、图7为动态多信道模型采用深度强化学习方法后的性能与理想状态以及随机选择的情况的对比。理想状态时，信道分配***计算所有可能的选择，并选择在每个回合中最大化Q值的接入策略，这种情况可以认为是理想状态。随机选择时，信道分配***在每个回合中都随机的选择接入策略。参照图6、图7所示，采用深度强化学习方法后获得的归一化奖励要远远胜于随机选择的性能，尽管随机选择有最低的误差值。当ε设置为0.99的时候，采用深度强化学习方法后获得的归一化奖励比理想状态低12.45％，当ε设置为0.9的时候，采用深度强化学习方法后获得的归一化奖励近乎接近理想状态，这证明了本发明的动态多信道接入方法在动态多信道模型中通过深度强化学习方法可以得到一个接近最优的信道分配方式。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。