CN112188503B - 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 - Google Patents

一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 Download PDF

Info

Publication number
CN112188503B
CN112188503B CN202011055360.3A CN202011055360A CN112188503B CN 112188503 B CN112188503 B CN 112188503B CN 202011055360 A CN202011055360 A CN 202011055360A CN 112188503 B CN112188503 B CN 112188503B
Authority
CN
China
Prior art keywords
channel
value
neural network
time slot
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011055360.3A
Other languages
English (en)
Other versions
CN112188503A (zh
Inventor
徐友云
李大鹏
蒋锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanyou Communication Network Industry Research Institute Co ltd
Nanjing Ai Er Win Technology Co ltd
Original Assignee
Nanjing Nanyou Communication Network Industry Research Institute Co ltd
Nanjing Ai Er Win Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nanyou Communication Network Industry Research Institute Co ltd, Nanjing Ai Er Win Technology Co ltd filed Critical Nanjing Nanyou Communication Network Industry Research Institute Co ltd
Priority to CN202011055360.3A priority Critical patent/CN112188503B/zh
Publication of CN112188503A publication Critical patent/CN112188503A/zh
Application granted granted Critical
Publication of CN112188503B publication Critical patent/CN112188503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其技术方案要点是包括提供信道分配***以及若干用户终端,信道分配***与用户终端通信连接;信道分配***内配置有遵循部分可观测马尔可夫链的动态多信道模型,动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,最优策略算法通过深度强化学习方法进行训练优化。该方法通过深度强化学习避免了庞大的指数级计算量,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。

Description

一种应用于蜂窝网络的基于深度强化学习的动态多信道接入 方法
技术领域
本发明涉及通信技术领域,更具体的说是涉及一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法。
背景技术
无线频谱是无线通信中的一种有限而珍贵的自然资源,现有无线通信是采取基于授权的方法分配频谱,即将无线频谱划分成若干固定宽度的频谱段,由政府管理部门分配给用户终端单独使用。但是随着无线通信技术的迅速发展以及新业务的不断增长,加之,频谱利用率的低效带来的频谱资源短缺的问题,频谱资源变得越来越稀缺,日益稀缺的频谱已经无法满足无线通信日益增长的需求。这一现象也促进了高效地动态频谱接入方案的发展,以迎合新兴的无线网络技术。其中认知无线电技术已经成为提高频谱利用率的关键技术,该技术的主要思想是检测哪些频谱处于空闲状态,然后智能选择和接入这些空闲频谱,这样能够大大提高频谱利用率。
作为认知无线电技术的关键技术之一的动态频谱接入技术的研究正在展开,现有的方法主要是马尔可夫建模,即将用户终端的动态频谱接入过程建模成马尔可夫模型。用二维或者多维的马尔可夫链精确的描述接入过程。通过马尔可夫建模虽然能够提高频谱利用率,但是对环境的要求较高,且***没有经过学习的过程,收敛速度慢。
随着强化学习的蓬勃发展,给动态频谱接入技术带来了新的研究。强化学习是指从环境状态到动作映射的学习,强化学习着重研究在状态转移概率函数未知的情况下,***如何学习最优行为策略。强化学习对环境知识要求较少,对动态变化环境适应性强,应用到无线网络时兼容性较好,这些特点都使得强化学习在认知无线电领域的营业具有广泛的前景。然而,当用户终端数剧增时,强化学习产生的状态量也是幂级的,算法复杂度变得非常大,这种指数级计算量导致强化学习难以实际运用。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,该方法能够避免进行庞大的指数级计算,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。
为实现上述目的,本发明提供了如下技术方案:一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,提供信道分配***以及若干用户终端,所述信道分配***与所述用户终端通信连接;
所述信道分配***内配置有遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,所述信道状态表征在所述信道上是否成功发送数据,所述最优策略算法通过深度强化学习方法进行优化,所述深度强化学习方法包括以下步骤;
S10,所述信道分配***内配置有经验池、主神经网络以及目标神经网络,所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,通过所述最优策略算法构建所述主神经网络和目标神经网络,所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重,所述信道状态为s,所述执行动作为a,所述执行动作a表征信道的分配方式,所述主神经网络的权重为w,所述目标神经网络的权重为w-,另目标神经网络的权重等于主神经网络的权重,并进入S20;
S20,所述信道分配***根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a,并进入S30;
S30,所述信道分配***根据执行动作a分配信道至用户终端,所述通信分配***通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值rt+1并保存,并进入S40;
S40,所述信道分配***通过当前时隙的信道状态st、当前时隙的执行动作at获得下一时隙的信道状态st+1,并将(st,at,rt,st+1)作为一组数据集保存至所述经验池,rt为t-1时隙的信道状态st-1,执行动作at-1后在t时隙获得的奖励值,并进入S50;
S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令st=st+1并返回步骤S20;反之,则进入步骤S60;
S60,所述信道分配***以随机采样方式从所述经验池中获取若干组数据集(st,at,rt,st+1),所述主神经网络对每组数据集进行训练得到估计Q值,所述目标神经网络通过预设的实际Q值算法计算得到实际Q值,并进入S70;
S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,并根据梯度下降法更新主神经网络的权重w,并进入S80;
S80,每隔预设的更新间隔步数C,令w-=w,所述更新间隔步数C表征将目标神经网络的权重改为主神经网络的权重所经过的步数,并进入S90;
S90,将误差值与预设的收敛临界值比较,当误差值大于收敛临界值时,返回步骤S30,反之,则结束,所述收敛临界值表征主神经网络收敛状态下的最大误差值。
所述动态多信道模型为遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型遵循的约束条件为:
C1:
Figure GDA0003035860400000031
C2:
Figure GDA0003035860400000032
C3:
Figure GDA0003035860400000033
C4:Ω(t+1)=Ω'(t)P
C5:
Figure GDA0003035860400000034
C6:
Figure GDA0003035860400000035
其中:C1为部分可观测马尔可夫链的状态空间,每个状态si(i∈{1,2,...,3N})都是一个长度为N的向量[si1,...,sij,...,siN],sij表示j信道的信道状态;
C2是置信向量,
Figure GDA0003035860400000036
为所述信道分配***处于si状态,并且知道过去时隙的执行动作以及下一时隙的各个信道的信道状态的条件概率;
C3是置信向量中每个可能的状态的更新方式,I(·)是一个指示函数,a(t)为t时隙用户终端接入的信道,o(t)为t时隙用户终端接入的信道的信道状态观测值,所述观测值为1表征信道状态好,所述观测值为0.5表征信道状态不确定,所述观测值为0表征信道状态差;
C4是置信向量的更新公式,P是部分可观测马尔可夫链的转移矩阵;
C5是最优策略算法,γ为预设的折扣因子,rt+1为t时隙的信道状态s执行动作a后在t+1时隙获得的奖励值;
C6是当累计的奖励值最大时得到的最优的信道分配策略。
作为本发明的进一步改进,所述分配算法配置为:
Figure GDA0003035860400000041
其中,
Figure GDA0003035860400000042
表示当前主神经网络估计Q值最大的接入动作,arandom表示在所有可能的接入方案中随机选择一种接入方案,ε为预设的分配概率值。
作为本发明的进一步改进,所述奖励算法配置为:
Figure GDA0003035860400000043
作为本发明的进一步改进,所述实际Q值算法配置为:
Figure GDA0003035860400000044
其中,yt为所述实际Q值。
作为本发明的进一步改进,所述误差算法配置为:
L(w)=(yt-Q(st,at;w))2
其中,L(w)为所述误差值。
本发明的有益效果:信道分配***中配置有动态多信道模型,用于计算最优信道分配方式,并通过深度强化学习实现对最优策略算法的不断优化。该动态多信道接入方法降低了对环境的要求,使得信道分配***可以经过学习快速将各信道以最优化的方式分配至各个用户终端,并且将动态多信道模型通过深度强化学习方法进行求解,由此避免了庞大的指数级计算量。因此该动态多信道接入方法能够避免进行庞大的指数级计算,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。
附图说明
图1为深度强化学习方法的流程图;
图2为无线网络动态多信道接入场景图;
图3为深度强化学习方法的结构图;
图4为误差算法在不同学习速率下的收敛对比图;
图5为误差算法在学习速率为0.1时的收敛图;
图6为动态多信道模型采用深度强化学习方法后与理想状态以及随机选择在归一化奖励方面的对比;
图7为动态多信道模型采用深度强化学习方法后与理想状态以及随机选择在误差值方面的对比。
具体实施方式
下面结合附图和实施例,对本发明进一步详细说明。
参照图1、图2、图3所示,本实施例的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,提供信道分配***以及若干用户终端,所述信道分配***与所述用户终端通信连接。
所述信道分配***内配置有遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型用于根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式。动态多信道模型的配置原理如下:
参照图2所示,假设某一范围内覆盖有一个基站和M个用户终端,每个用户终端需要从N个信道中选择一个发送数据包。并且假设用户一直有数据要发送,以及N个信道相互正交。在每个时隙,用户终端需要动态的感知信道的状态并选择一个来发送数据,信道的状态为三种,分别为信道状态好、信道状态不确定以及信道状态差,信道状态好表示用户终端的数据能够成功发送,信道状态不确定表示用户终端的数据不一定能够成功发送,信道状态差表示用户终端的数据无法成功发送。用S来对信道状态进行数据话表示,表示规则如下:
Figure GDA0003035860400000051
用户终端根据分配的信道的实际信道状态获得相应的奖励,若用户终端选择的是信道状态好的,则会得到一个正的奖励值(+1);若用户终端选择的是信道状态差的,则会得到一个负的奖励值(-1);若用户终端选择的状态是信道状态不确定的,则也会得到一个负的奖励值(-0.1),用rt表示奖励值。
用一个3N-状态马尔可夫链来模拟信道之间的相关性,部分可观测马尔可夫链的状态空间为
Figure GDA0003035860400000052
每个状态si(i∈{1,2,...,3N})都是一个长度为N的向量[si1,si2,...,siN],sij表示j信道的信道状态:信道状态好(1),信道状态差(0),信道状态不确定(0.5)。每个信道可以被刻画成一个3×3的状态转移矩阵,状态转移矩阵具体如下:
Figure GDA0003035860400000053
其中,Pi(x|y),x,y∈{0,0.5,1},定义为信道从状态x到状态y的状态转移概率。整个马尔可夫链的状态转移矩阵定义为P。由于用户终端只能感知一个信道并在每个时隙的开始观察其状态,因此无法观察到所有信道的信道状态。但是,信道分配***可以观察并预测***中信道状态的分布。因此,将动态多信道接入问题建模为部分可观测的马尔可夫决策过程的通用框架,其遵循的约束条件为:
C1:
Figure GDA0003035860400000061
C2:
Figure GDA0003035860400000062
C3:
Figure GDA0003035860400000063
C4:Ω(t+1)=Ω'(t)P
C5:
Figure GDA0003035860400000064
C6:
Figure GDA0003035860400000065
其中:C1为部分可观测马尔可夫链的状态空间,每个状态si(i∈{1,2,...,3N})都是一个长度为N的向量[si1,...,sij,...,siN],sij表示j信道的信道状态。
C2是置信向量,
Figure GDA0003035860400000066
为所述信道分配***处于si状态,并且知道过去时隙的执行动作以及下一时隙的各个信道的信道状态的条件概率。
C3是置信向量中每个可能的状态的更新方式,I(·)是一个指示函数,在每个时隙,信道分配***需要给用户终端分配接入策略,a(t)为t时隙用户终端接入的信道,即用户终端的执行动作,将用户终端的执行动作进行数据化表示:
at={0,1,2,...,N}
其中at=0表征用户终端在时隙t不发送数据,而at=n,1≤n≤N表征在时隙t用户终端选择接入n信道发送数据。
o(t)为t时隙用户终端接入的信道的信道状态观测值,所述观测值为1表征信道状态好,所述观测值为0.5表征信道状态不确定,所述观测值为0表征信道状态差。
C4是置信向量的更新公式,P是部分可观测马尔可夫链的转移矩阵。
C5是最优策略算法,γ为预设的折扣因子,rt+1为t时隙的信道状态s执行动作a后根据奖励算法在t+1时隙获得的奖励值,需要注意的是,用户是在t时隙处于状态st采取动作at后是在t+1时隙获得奖励。奖励算法配置为:
Figure GDA0003035860400000071
在动态多信道模型中,信道分配***需要去最大化长期的累加折扣奖励值,累加折扣奖励值表征根据当前的信道状态,预测之后一段时隙执行动作后获得的奖励值的累计值,累加折扣奖励值的计算算法配置为:
Figure GDA0003035860400000072
其中,折扣因子γ(0≤γ≤1),通过该算法,使得预测的时隙距离当前时隙越久,则获得的奖励值的绝对值相对越小,从而使得预测的时隙距离当前时隙越久,对累加折扣奖励值的影响越小。
C6是通过贝尔曼方程找到最优的信道分配策略
Figure DA00030358604045863478
Q学习是强化学习中最常用的求解
Figure DA00030358604045867009
的算法,但是Q学习处理大的动作空间比较复杂。而深度强化学习结合传统的强化学习和深度神经网络可以解决这个缺点。深度神经网络可以找到输入数据和输出数据之间的数学关系,因此我们使用一个主神经网络去近似权重为w的最优策略算法,即Q(s,a;w)≈Qπ(s,a),同时使用一个目标神经网络Q(s',a';w-)去产生主神经网络训练所需的目标值。两个神经网络框架相同,仅权重不同,通过这样设置来打乱相关性,主神经网络用于估计Q值,具有最新的参数,而目标神经网络用到很久以前的参数。另一个特点是经验回放,利用以前的经验进行学习。这两个特点使得深度强化学习方法优胜于传统的强化学习。参照图1、图3所示,深度强化学习方法包括以下步骤:
S10,所述信道分配***内配置有经验池、主神经网络Q(s,a;w)以及目标神经网络Q(s',a';w-),所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,所述主神经网络Q(s,a;w)和目标神经网络Q(s',a';w-)均由最优策略算法加权得到,s为信道状态,a为执行动作,所述执行动作a表征信道的分配方式,w为神经网络的权重,令w-=w。并且所述信道分配***接收操作人员指令对学习速率α、容量阀值D、折扣因子γ、分配概率值ε、信道数量N以及更新间隔步数C进行赋值,并进入S20。
S20,所述信道分配***根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a。所述分配算法配置为:
Figure GDA0003035860400000081
其中,
Figure GDA0003035860400000082
表示当前主神经网络估计Q值最大的接入动作,arandom表示在所有可能的接入方案中随机选择一种接入方案,ε为预设的分配概率值,并进入S30。
S30,所述信道分配***根据执行动作a分配信道至用户终端,所述通信分配***通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值rt+1并保存。奖励算法配置为:
Figure GDA0003035860400000083
即信道分配***将信道分配给用户终端,用户终端根据信道状态观测值ot在此信道上发送数据。当数据成功发送时,奖励rt+1=+1;当数据发送失败时,奖励rt+1=-1;当在此信道上不发送数据的时候,奖励rt+1=-0.1,并进入S40。
S40,所述信道分配***通过当前时隙的信道状态st、当前时隙的执行动作at获得下一时隙的信道状态st+1,并将(st,at,rt,st+1)作为一组数据集保存至所述经验池,rt为t-1时隙的信道状态st-1,执行动作at-1后在t时隙获得的奖励值,并进入S50。
S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令st=st+1并返回步骤S20;反之,则进入步骤S60。
S60,所述信道分配***以随机采样方式从所述经验池中获取若干组数据集(st,at,rt,st+1),所述主神经网络Q(s,a;w)对于每组数据集进行训练得到估计Q值,所述目标神经网络Q(s',a';w-)通过预设的实际Q值算法计算得到实际Q值;实际Q值算法配置为:
Figure GDA0003035860400000091
其中,yt为所述实际Q值,并进入S70。
S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,误差算法配置为:
L(w)=(yt-Q(st,at;w))2
并根据梯度下降法更新主神经网络Q(s,a;w)的权重w,具体方式如下:
Figure GDA0003035860400000092
其中,α为预设的学习速率,并进入S80。
S80,每隔预设的更新间隔步数C,令w-=w,所述更新间隔步数C表征将目标神经网络Q(s,a;w)的权重改为主神经网络Q(s',a';w-)的权重所经过的步数,并进入S90。
S90,将误差值与预设的收敛临界值比较,当误差值大于收敛临界值时,返回步骤S30,反之,则结束,所述收敛临界值表征主神经网络Q(s,a;w)收敛状态下的最大误差值。
主神经网络Q(s,a;w)和目标神经网络Q(s',a';w-)均采用三个隐层(50个神经元)的全连接神经网络,优化方法采用Adam优化器,网络主要参数的设置如表1所示。
表1主要参数设置
学习速率α 0.01
容量阀值D 10000
折扣因子γ 0.9
分配概率值ε 0.9
信道数量N 32
更新间隔步数C 300
参照图4、图5所示,学习速率的大小直接影响误差算法的收敛性能。若学习率太小,收敛速度会很慢;若学习速率太大,会跳过最优,甚至会产生震荡。因而学习速率的设定非常重要。参照图4所示,随着训练次数的增加,3条曲线的都趋向收敛,尤其是当学习速率为0.01的时候,只需要很少的训练次数就可收敛;参照图5所示,当学习速率设置为0.1的时候,误差值出现了突然的骤增,性能很差。
图6、图7为动态多信道模型采用深度强化学习方法后的性能与理想状态以及随机选择的情况的对比。理想状态时,信道分配***计算所有可能的选择,并选择在每个回合中最大化Q值的接入策略,这种情况可以认为是理想状态。随机选择时,信道分配***在每个回合中都随机的选择接入策略。参照图6、图7所示,采用深度强化学习方法后获得的归一化奖励要远远胜于随机选择的性能,尽管随机选择有最低的误差值。当ε设置为0.99的时候,采用深度强化学习方法后获得的归一化奖励比理想状态低12.45%,当ε设置为0.9的时候,采用深度强化学习方法后获得的归一化奖励近乎接近理想状态,这证明了本发明的动态多信道接入方法在动态多信道模型中通过深度强化学习方法可以得到一个接近最优的信道分配方式。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:提供信道分配***以及若干用户终端,所述信道分配***与所述用户终端通信连接;
所述信道分配***内配置有动态多信道模型,所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,所述信道状态表征在所述信道上是否成功发送数据,所述最优策略算法通过深度强化学习方法进行优化,所述深度强化学习方法包括以下步骤;
S10,所述信道分配***内配置有经验池、主神经网络以及目标神经网络,所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,通过所述最优策略算法构建所述主神经网络和目标神经网络,所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重,所述信道状态为s,所述执行动作为a,所述执行动作a表征信道的分配方式,所述主神经网络的权重为w,所述目标神经网络的权重为w-,另目标神经网络的权重等于主神经网络的权重,并进入S20;
S20,所述信道分配***根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a,并进入S30;
S30,所述信道分配***根据执行动作a分配信道至用户终端,所述通信分配***通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值rt+1并保存,并进入S40;
S40,所述信道分配***通过当前时隙的信道状态st、当前时隙的执行动作at获得下一时隙的信道状态st+1,并将(st,at,rt,st+1)作为一组数据集保存至所述经验池,rt为t-1时隙的信道状态st-1,执行动作at-1后在t时隙获得的奖励值,并进入S50;
S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令st=st+1并返回步骤S20;反之,则进入步骤S60;
S60,所述信道分配***以随机采样方式从所述经验池中获取若干组数据集(st,at,rt,st+1),所述主神经网络对每组数据集进行训练得到估计Q值,所述目标神经网络通过预设的实际Q值算法计算得到实际Q值,并进入S70;
S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,并根据梯度下降法更新主神经网络的权重w,并进入S80;
S80,每隔预设的更新间隔步数C,令w-=w,所述更新间隔步数C表征将目标神经网络的权重改为主神经网络的权重所经过的步数,并进入S90;
S90,将误差值与预设的收敛临界值比较,当误差值大于收敛临界值时,返回步骤S30,反之,则结束,所述收敛临界值表征主神经网络收敛状态下的最大误差值。
所述动态多信道模型为遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型遵循的约束条件为:
C1:S={s1,...,s3N}
C2:
Figure FDA0003035860390000021
C3:
Figure FDA0003035860390000022
C4:Ω(t+1)=Ω'(t)P
C5:
Figure FDA0003035860390000023
C6:
Figure FDA0003035860390000024
其中:C1为部分可观测马尔可夫链的状态空间,每个状态si(i∈{1,2,...,3N})都是一个长度为N的向量[si1,...,sij,...,siN],sij表示j信道的信道状态;
C2是置信向量,
Figure FDA0003035860390000025
为所述信道分配***处于si状态,并且知道过去时隙的执行动作以及下一时隙的各个信道的信道状态的条件概率;
C3是置信向量中每个可能的状态的更新方式,I(·)是一个指示函数,a(t)为t时隙用户终端接入的信道,o(t)为t时隙用户终端接入的信道的信道状态观测值,所述观测值为1表征信道状态好,所述观测值为0.5表征信道状态不确定,所述观测值为0表征信道状态差;
C4是置信向量的更新公式,P是部分可观测马尔可夫链的转移矩阵;
C5是最优策略算法,γ为预设的折扣因子,rt+1为t时隙的信道状态s执行动作a后在t+1时隙获得的奖励值;
C6是当累计的奖励值最大时得到的最优的信道分配策略。
2.根据权利要求1所述的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:所述分配算法配置为:
Figure FDA0003035860390000031
其中,
Figure FDA0003035860390000032
表示当前主神经网络估计Q值最大的接入动作,arandom表示在所有可能的接入方案中随机选择一种接入方案,ε为预设的分配概率值。
3.根据权利要求1所述的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:所述奖励算法配置为:
Figure FDA0003035860390000033
4.根据权利要求1所述的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:所述实际Q值算法配置为:
Figure FDA0003035860390000034
其中,yt为所述实际Q值。
5.根据权利要求4所述的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:所述误差算法配置为:
L(w)=(yt-Q(st,at;w))2
其中,L(w)为所述误差值。
CN202011055360.3A 2020-09-30 2020-09-30 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 Active CN112188503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011055360.3A CN112188503B (zh) 2020-09-30 2020-09-30 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011055360.3A CN112188503B (zh) 2020-09-30 2020-09-30 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

Publications (2)

Publication Number Publication Date
CN112188503A CN112188503A (zh) 2021-01-05
CN112188503B true CN112188503B (zh) 2021-06-22

Family

ID=73946065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011055360.3A Active CN112188503B (zh) 2020-09-30 2020-09-30 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

Country Status (1)

Country Link
CN (1) CN112188503B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925319B (zh) * 2021-01-25 2022-06-07 哈尔滨工程大学 一种基于深度强化学习的水下自主航行器动态避障方法
CN112954814B (zh) * 2021-01-27 2022-05-20 哈尔滨工程大学 一种认知无线电中信道质量性接入方法
CN113784359A (zh) * 2021-09-08 2021-12-10 昆明理工大学 一种基于改进bp神经网络算法的动态信道接入方法
CN115811801A (zh) * 2021-09-15 2023-03-17 华为技术有限公司 通信方法以及相关装置
CN115103372A (zh) * 2022-06-17 2022-09-23 东南大学 一种基于深度强化学习的多用户mimo***用户调度方法
CN115811788B (zh) * 2022-11-23 2023-07-18 齐齐哈尔大学 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111628855A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352B (zh) * 2018-07-06 2019-09-27 北京邮电大学 基于深度增强学习的动态波束调度方法
CN110856268B (zh) * 2019-10-30 2021-09-07 西安交通大学 一种无线网络动态多信道接入方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111628855A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning for Dynamic;shangxing wang等;《IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》;20180630;全文 *
Deep Reinforcement Learning for Dynamic;Y. Xu等;《Milcom 2018 Track 5 - Big Data and Machine Learning》;20200101;全文 *
Dynamic Multi-channel Access in Wireless System;李凡等;《12th International Conference on Advanced Computational Intelligence》;20200816;全文 *

Also Published As

Publication number Publication date
CN112188503A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111182637B (zh) 一种基于生成对抗强化学习的无线网络资源分配方法
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN113038616B (zh) 一种基于联邦学习的频谱资源管理分配方法
CN111556572A (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN109831808B (zh) 一种基于机器学习的混合供电c-ran的资源分配方法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN113596785B (zh) 基于深度q网络的d2d-noma通信***资源分配方法
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN112202847B (zh) 一种基于移动边缘计算的服务器资源配置方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
CN113810910B (zh) 基于深度强化学习的4g与5g网络间动态频谱共享方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN103618674A (zh) 基于自适应服务模型的联合分组调度和信道分配路由方法
CN110392377B (zh) 一种5g超密集组网资源分配方法及装置
CN111917529A (zh) 一种基于改进exp3算法的水声ofdm资源分配方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
Eskandari et al. Smart interference management xApp using deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant