CN109561504A

CN109561504A - 一种基于深度强化学习的URLLC和eMBB的资源复用方法

Info

Publication number: CN109561504A
Application number: CN201811383001.3A
Authority: CN
Inventors: 赵中原; 李阳; 王君; 高慧慧
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-04-02
Anticipated expiration: 2038-11-20
Also published as: CN109561504B

Abstract

本发明公开了一种基于深度强化学习的URLLC和eMBB的资源复用方法：采集M个mini‑slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据；建立基于深度强化学习的URLLC与eMBB资源复用模型，并利用训练数据对模型参数进行训练；对训练好的模型进行性能评估直至满足性能需求；收集当前mini‑slot的URLLC与eMBB数据包信息、信道信息以及队列信息，将所收集信息输入训练好的模型，获得资源复用决策结果；根据资源复用决策结果，对当前mini‑slot的eMBB和URLLC数据包进行资源分配。能够满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。

Description

一种基于深度强化学习的URLLC和eMBB的资源复用方法

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于深度强化学习的URLLC和eMBB的资源复用方法。

背景技术

为了满足未来不同场景业务对延时、可靠性、移动性等的要求，2015年ITU正式定义了未来5G网络的三大场景：增强移动宽带(eMBB)、海量机器类通信(mMTC)和超可靠低时延(uRLLC)。其中，eMBB场景是指在现有移动宽带业务场景的基础上，对于用户体验等性能的进一步提升，主要还是追求人与人之间极致的通信体验。mMTC和eMTC则是物联网的应用场景，但各自侧重点不同：mMTC主要是人与物之间的信息交互，eMTC主要体现物与物之间的通信需求。5G NR(New Radio，新空口)设计的其中一个重要目标就是使三大场景下的不同模型的业务能够有效地复用在同一频段上。

URLLC/eMBB场景为目前5G NR最为迫切需求的场景，其中又以eMBB业务为基本需求，URLLC业务能够尽量保证eMBB业务频谱效率的情况下与eMBB业务共存。为了能够满足URLLC低时延的要求，一种方式为采用60KHz的子载波间隔实现时隙(slot)长度为原来的1/4(较LTE)，为了进一步减小slot长度，ULRLLC采用了将4个符号作为一个微时隙(mini-slot)，减小为LTE一个slot长度的1/14。为了节约资源提高频谱效率，基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。这种动态资源复用的方法可以在资源复用时最大程度避免资源浪费，当然也会造成eMBB业务数据的解调失败，引发额外的HARQ反馈。因此如何能够在有限的资源中对eMBB和URLLC业务进行分配、实现资源的高效利用是一个亟待解决的问题。

发明内容

本发明的目的在于提供一种基于深度强化学习的URLLC和eMBB的资源复用方法，能够实现在满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。

为实现上述发明目的，本发明提供了一种基于深度强化学习的URLLC和eMBB的资源复用方法，该方法包括：

采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据；M为自然数；

建立基于深度强化学习的URLLC与eMBB资源复用模型，并利用所述训练数据对模型参数进行训练；

对训练好的模型进行性能评估直至满足性能需求；

收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息，将所收集信息输入所述训练好的模型，获得资源复用决策结果；

根据所述资源复用决策结果，对当前mini-slot的eMBB和URLLC数据包进行资源分配。

综上所述，本发明是一种基于深度强化学习的URLLC和eMBB的资源复用方法，它是通过深度强化学习的方法对eMBB和URLLC数据包信息、信道信息以及队列信息进行训练，得到eMBB和URLLC数据包复用资源决策结果，根据决策结果合理分配复用资源，有效地解决了功率和时频资源浪费问题。

附图说明

图1是本发明提出的eMBB与URLLC时频资源复用的帧结构与复用方式示意图。

图2是本发明基于深度强化学习的URLLC和eMBB的资源复用方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

本发明的核心思想在于，首先，采集URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据，接下来建立基于深度强化学习的URLLC与eMBB资源复用模型，并利用训练数据对模型参数进行训练更新模型参数θ。对所得深度强化学习的URLLC与eMBB资源复用模型进行性能评估，如果满足URLLC可靠性的要求，且使得eMBB数据包具有较低的重传率，则完成训练过程；如果不能满足上述性能要求，则继续对模型进行训练直至损失函数收敛。然后收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息，并将上述信息输入训练完成的深度强化学习模型，获得资源复用的决策结果。进而根据资源复用的决策结果对eMBB和URLLC数据包进行资源分配，实现有限复用资源的高效利用，有效地解决了功率和时频资源浪费问题。

参见图1，具体描述本发明提出的eMBB与URLLC复用的帧结构与复用方式。

具体地，为了能够满足URLLC低时延的要求采用60KHz的子载波间隔实现slot长度为原来的1/4(较LTE)，为了进一步减小slot长度，ULRLLC采用了将4个符号作为一个mini-slot，减小为LTE一个TTI长度的1/14，并以一个mini-slot作为一个TTI进行传输。为了节约资源提高频谱效率，基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。并采用动态调度的方法，配置下行DCI信令PI(Pre-emption Indication)即时告知用户eMBB业务数据被URLLC业务数据抢占的信息，***通过RRC子层信令通知eMBB用户周期性地检测PI完成对eMBB被抢占资源的正确解调。实现时频资源的充分利用。

图2为本发明基于深度强化学习的URLLC和eMBB资源复用方法的流程示意图。

步骤1、采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据；M为自然数；

步骤101、以M中的第k个mini-slot为例，通过UE周期上传的信道质量指示(CQI)信息，获取不同子载波的下行信道增益g^k＝[g₁,g₂,…,g_i]，其中i为mini-slot中子载波的数量；并获取eMBB数据包比特数URLLC数据包比特数R^k _UR，eMBB数据包队列长度URLLC数据包队列长度Q^k _UR，k∈M；

步骤102、将所获取的信息封装为状态向量作为训练数据。

步骤2、建立基于深度强化学习的URLLC与eMBB资源复用模型，并利用所述训练数据对模型参数进行训练；

步骤201、建立基于深度强化学习的URLLC与eMBB资源复用模型，所包含的具体步骤如下：

(1)设定动作向量a＝[P_eM,P_UR,n_eM,n_ur]，其中P_eM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率，P_UR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率，n_eM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数，n_ur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数，并初始化eMBB数据包的队列长度Q_eM，以及URLLC数据包的队列长度Q_UR均为零；

(2)构建eval和next两个相同的神经网络，其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a；next神经网络通过选择下一个状态最大的动作估值函数argmax_aQ’计算目标动作估值函数Q_target，用以完成对eval神经网络参数的更新；

(3)设定eval神经网络的参数C＝[n,n_h,n_in,n_out,θ,activate]；n表示神经网络的隐含层数的个数，n_h＝[n_h1,n_h2,...,n_hn]表示每个隐含层所包含的神经元的个数，n_in表示输入层神经元的个数且等于状态向量s的长度，n_out表示输出层神经元个数且等于动作向量a所有可能的取值，θ＝[weight,bias]，weight表示权重并随机初始化为0～w，bias表示偏置并初始化为b，activate表示激活函数并采用ReLU；

(4)初始化next神经网络参数C’＝C。

步骤202、利用所述训练数据对模型参数进行训练的方法包括：

A、(1)将第k个mini-slot的状态向量输入eval神经网络；

(2)选择动作向量a^k；

具体地，动作向量a^k有两种选择方式，一种方式是，设定概率ε_a，以概率ε_a从动作池中随机选择动作a^k。其中ε_a是一个很小的概率值。

或者，另一种方式是，以概率(1-ε_a)从eval神经网络中选择满足条件的动作a^k。其中，动作a^k有多个可能的取值，根据每个a^k的取值得到与之对应的Q(s^k,a^k,θ)值，然后选择最大的Q(s^k,a^k,θ)值对应的a^k。Q(s^k,a^k,θ)值的详细计算方法见下面的(3)。

(3)根据所述动作向量a^k计算所获得的奖励r^k以及动作估值函数Q；

(3.1)根据所述动作向量a^k计算所获得的奖励r^k具体步骤包括：

根据所选动作可计算对于第i个子载波只传输URLLC数据对应的信噪比：

对于第i个子载波如果只传输eMBB数据则对应的信噪比：

对于第i个子载波如果传输二者复用的数据则对应的信噪比：

因此，对于URLLC数据包在第i个子载波上传输的错误率：

其中Q_gauss表示高斯Q函数，V表示channel dispersion。这里可以根据第i个子载波是只传输URLLC数据包还是传输二者复用的数据而进行选择。

根据得到第k个mini-slot的URLLC数据包的传输错误率为：并得到第k个mini-slot的URLLC数据包在第i个子载波上的传输速率：

根据和得到当前mini-slot内URLLC数据包的吞吐量为：其中T表示一个mini-slot的时域长度；

根据以及s^k，得到第k个mini-slot的URLLC数据包舍弃的比特数其中设定URLLC数据包的最大队列长度为H_UR；

根据得到当前mini-slot内eMBB数据包的吞吐量为：其中n^k表示eMBB与URLLC复用所占的子载波数，为高斯噪声；

根据以及s^k，得到第k个mini-slot的eMBB数据包舍弃的比特数其中设定eMBB数据包的最大队列长度为H_eM；

根据a^k，和得到回报奖励r^k

ω₁至ω₅均为常数。

其中，表示URLLC数据包传输错误率，需要与ε_error进行比较后取值。当第k个mini-slot内URLLC数据包传输错误率大于ε_error时若URLLC数据包传输错误率小于ε_error时在本发明应用场景中ε_error为10^-5。

(3.2)根据Bellman方程，在状态s^k时采取动作a^k的条件下，对采取动作a^k所获得的奖励r^k加上到达的下一状态的Q值取期望值，计算出动作估值函数其中λ为损失因子。

由于当前状态的Q取决于下一个状态的Q，因此通过Bellman方程可以采取迭代的方法解决马尔科夫决策问题。

(4)获取到达的下一个状态向量s^k+1；

具体地，本步骤s^k+1的获取可以仿照步骤1中s^k的获取，在此不再赘述。

(5)存储(s^k,a^k,r^k,s^k+1)作为一个样本；

一般地，会将多个样本存储到记忆单元中，用于接下来对模型的训练。

(6)将s^k+1输入next神经网络获得最大的动作估值函数argmax_a ^k+1Q’；

(7)根据argmax_a ^k+1Q’以及r^k得到其中γ表示折扣因子，θ’为当前next神经网络的参数；

(8)从记忆单元中随机取出F个样本，得到每个样本的Q_target和动作估值函数Q，F为自然数；

(9)根据代入每个样本的Q_target和动作估值函数Q得到损失函数Loss(θ)，θ为当前eval神经网络的参数；

(10)采用梯度下降的方法计算出梯度，选择梯度下降最快的方向对eval神经网络的参数θ进行更新；

B、取不同的k值，重复步骤A，每进行I次eval神经网络的参数更新，进行一次next神经网络的参数更新，使θ’＝θ；I为大于1的自然数；

C、取不同的k值，重复A至B，不断对模型进行训练直至损失函数收敛。

步骤3、对训练好的模型进行性能评估直至满足性能需求；

(1)将所获取的训练数据输入训练好的模型得到k∈M；

(2)统计预定时间段内基站发送的eMBB和URLLC数据包的数量分别记为p_EM和p_UR，并通过UE上报给基站的信息获得该时间段内URLLC与eMBB数据包传输错误的个数分别为p_ur和p_em；根据p_UR和p_ur得到URLLC的传输错误率根据p_EM和p_em得到eMBB的重传率

(3)对p_e和p_re进行判断，如果满足p_e<k_e，k_e表示为具体场景下URLLC数据包传输错误率要求；且满足p_re<k_re，k_re表示为具体场景下eMBB数据包的重传率要求，则完成性能评估过程；否则，继续对模型进行训练直至满足性能需求。

步骤4、收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息，将所收集信息输入所述训练好的模型，获得资源复用决策结果；

具体就是，将所收集的当前mini-slot的数据s＝[R_eM,R_UR,g,Q_eM,Q_UR]输入训练好的模型得到a＝[P_eM,P_UR,n_eM,n_ur]。其中，s的获取仿照步骤1，在此不再赘述。

步骤5、根据所述资源复用决策结果，对当前mini-slot的eMBB和URLLC数据包进行资源分配。

具体地，根据得到的当前mini-slot的资源复用决策结果a＝[P_eM,P_UR,n_eM,n_UR]，无线网络控制器RNC通过无线资源控制RRC子层指示分配给URLLC和eMBB数据包的功率大小P_UR和P_eM，以及分配给URLLC和eMBB数据包的子载波数n_UR和n_eM，并指示所分配的子载波的位置信息。

进一步地，通过配置下行DCI信令PI(Pre-emption Indication)即时告知用户eMBB被URLLC抢占的信息(即eMBB与URLLC复用的子载波的位置信息)，***通过RRC子层信令通知eMBB用户周期性地检测PI完成对eMBB被抢占资源的正确解调。从图1的帧结构可以看出，每个mini-slot时域上包含4个符号长度。从图1的时频资源的复用方式可以看出，浅色图案为每个mini-slot上只传输eMBB数据的子载波位置，深色图案为每个mini-slot上eMBB与URLLC复用的子载波位置。从而实现URLLC与eMBB数据包业务在时频域资源以及功率的合理分配，实现有限复用资源的高效利用。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法，其特征在于，该方法包括：

对训练好的模型进行性能评估直至满足性能需求；

2.如权利要求1所述的方法，其特征在于，所述采集M个mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据的方法包括：

对于M中的第k个mini-slot，获取不同子载波的下行信道增益g^k＝[g₁,g₂,…,g_i]，其中i为mini-slot中子载波的数量；并获取eMBB数据包比特数R^k _eM，URLLC数据包比特数R^k _UR，eMBB数据包队列长度Q^k _eM，URLLC数据包队列长度Q^k _UR，k∈M；

将所获取的信息封装为状态向量s^k＝[R^k _eM,R^k _UR,g^k,Q^k _eM,Q^k _UR]作为训练数据。

3.如权利要求2所述的方法，其特征在于，所述建立基于深度强化学习的URLLC与eMBB资源复用模型包括：

设定动作向量a＝[P_eM,P_UR,n_eM,n_ur]，其中P_eM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率，P_UR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率，n_eM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数，n_ur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数，并初始化eMBB数据包的队列长度Q_eM，以及URLLC数据包的队列长度Q_UR均为零；

构建eval和next两个相同的神经网络，其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a；next神经网络通过选择下一个状态最大的动作估值函数argmax_aQ’计算目标动作估值函数Q_target，用以完成对eval神经网络参数的更新；

设定eval神经网络的参数C＝[n,n_h,n_in,n_out,θ,activate]；n表示神经网络的隐含层数的个数，n_h＝[n_h1,n_h2,...,n_hn]表示每个隐含层所包含的神经元的个数，n_in表示输入层神经元的个数且等于状态向量s的长度，n_out表示输出层神经元个数且等于动作向量a所有可能的取值，θ＝[weight,bias]，weight表示权重并随机初始化为0～w，bias表示偏置并初始化为b，activate表示激活函数并采用ReLU；

初始化next神经网络参数C’＝C。

4.如权利要求3所述的方法，其特征在于，所述利用所述训练数据对模型参数进行训练的方法包括：

A、将第k个mini-slot的状态向量s^k＝[R^k _eM,R^k _UR,g^k,Q^k _eM,Q^k _UR]输入eval神经网络；

选择动作向量a^k；

根据所述动作向量a^k计算所获得的奖励r^k以及动作估值函数Q；

获取到达的下一个状态向量s^k+1；

存储(s^k,a^k,r^k,s^k+1)作为一个样本；

将s^k+1输入next神经网络获得最大的动作估值函数argmax_a ^k+1Q’；

根据argmax_a ^k+1Q’以及r^k得到其中γ表示折扣因子，θ’为当前next神经网络的参数；

随机取出F个样本，得到每个样本的Q_target和动作估值函数Q，F为自然数；

根据代入每个样本的Q_target和动作估值函数Q得到损失函数Loss(θ)，θ为当前eval神经网络的参数；

采用梯度下降的方法计算出梯度，选择梯度下降最快的方向对eval神经网络的参数θ进行更新；

5.如权利要求4所述的方法，其特征在于，所述选择动作向量a^k包括：

设定概率ε_a，以概率ε_a从动作池中随机选择动作a^k，或者以概率(1-ε_a)从eval神经网络中选择满足条件的动作a^k。

6.如权利要求4所述的方法，其特征在于，根据所述动作向量a^k计算所获得的奖励r^k包括：

根据a^k＝[P^k _eM,P^k _UR,n^k _eM,n^k _ur]，得到第i个子载波传输URLLC数据包对应的信噪比

根据a^k＝[P^k _eM,P^k _UR,n^k _eM,n^k _ur]和得到第k个mini-slot的URLLC数据包在第i个子载波上传输的错误率：其中Q_gauss表示高斯Q函数，V表示channel dispersion；

根据ε^k _UR，a^k，和得到

ω₁至ω₅均为常数。

7.如权利要求6所述的方法，其特征在于，根据Bellman方程，在状态s^k时采取动作a^k的条件下，对采取动作a^k所获得的奖励r^k加上到达的下一状态的Q值取期望值，计算出动作估值函数其中λ为损失因子。

8.如权利要求7所述的方法，其特征在于，对训练好的模型进行性能评估直至满足性能需求包括：

将所获取的训练数据s^k＝[R^k _eM,R^k _UR,g^k,Q^k _eM,Q^k _UR]输入训练好的模型得到a^k＝[P^k _eM,P^k _UR,n^k _eM,n^k _ur]，k∈M；

统计预定时间段内基站发送的eMBB和URLLC数据包的数量分别记为p_EM和p_UR，并通过UE上报给基站的信息获得该时间段内URLLC与eMBB数据包传输错误的个数分别为p_ur和p_em；根据p_UR和p_ur得到URLLC的传输错误率根据p_EM和p_em得到eMBB的重传率

对p_e和p_re进行判断，如果满足p_e<k_e，k_e表示为具体场景下URLLC数据包传输错误率要求；且满足p_re<k_re，k_re表示为具体场景下eMBB数据包的重传率要求，则完成性能评估过程；否则，继续对模型进行训练直至满足性能需求。

9.如权利要求7所述的方法，其特征在于，所述收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息，将所收集信息输入所述训练好的模型，获得资源复用决策结果包括：

将所收集的当前mini-slot的数据s＝[R_eM,R_UR,g,Q_eM,Q_UR]输入训练好的模型得到a＝[P_eM,P_UR,n_eM,n_ur]。

10.如权利要求9所述的方法，其特征在于，所述根据所述资源复用决策结果，对当前mini-slot的eMBB和URLLC数据包进行资源分配包括：

根据得到的当前mini-slot的资源复用决策结果a＝[P_eM,P_UR,n_eM,n_UR]，无线网络控制器RNC通过无线资源控制RRC子层指示分配给URLLC和eMBB数据包的功率大小P_UR和P_eM，以及分配给URLLC和eMBB数据包的子载波数n_UR和n_eM，并指示所分配的子载波的位置信息。