CN109561504A - 一种基于深度强化学习的URLLC和eMBB的资源复用方法 - Google Patents

一种基于深度强化学习的URLLC和eMBB的资源复用方法 Download PDF

Info

Publication number
CN109561504A
CN109561504A CN201811383001.3A CN201811383001A CN109561504A CN 109561504 A CN109561504 A CN 109561504A CN 201811383001 A CN201811383001 A CN 201811383001A CN 109561504 A CN109561504 A CN 109561504A
Authority
CN
China
Prior art keywords
urllc
embb
slot
data packet
mini
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811383001.3A
Other languages
English (en)
Other versions
CN109561504B (zh
Inventor
赵中原
李阳
王君
高慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201811383001.3A priority Critical patent/CN109561504B/zh
Publication of CN109561504A publication Critical patent/CN109561504A/zh
Application granted granted Critical
Publication of CN109561504B publication Critical patent/CN109561504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的URLLC和eMBB的资源复用方法:采集M个mini‑slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini‑slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入训练好的模型,获得资源复用决策结果;根据资源复用决策结果,对当前mini‑slot的eMBB和URLLC数据包进行资源分配。能够满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。

Description

一种基于深度强化学习的URLLC和eMBB的资源复用方法
技术领域
本发明涉及无线通信技术领域,特别涉及一种基于深度强化学习的URLLC和eMBB的资源复用方法。
背景技术
为了满足未来不同场景业务对延时、可靠性、移动性等的要求,2015年ITU正式定义了未来5G网络的三大场景:增强移动宽带(eMBB)、海量机器类通信(mMTC)和超可靠低时延(uRLLC)。其中,eMBB场景是指在现有移动宽带业务场景的基础上,对于用户体验等性能的进一步提升,主要还是追求人与人之间极致的通信体验。mMTC和eMTC则是物联网的应用场景,但各自侧重点不同:mMTC主要是人与物之间的信息交互,eMTC主要体现物与物之间的通信需求。5G NR(New Radio,新空口)设计的其中一个重要目标就是使三大场景下的不同模型的业务能够有效地复用在同一频段上。
URLLC/eMBB场景为目前5G NR最为迫切需求的场景,其中又以eMBB业务为基本需求,URLLC业务能够尽量保证eMBB业务频谱效率的情况下与eMBB业务共存。为了能够满足URLLC低时延的要求,一种方式为采用60KHz的子载波间隔实现时隙(slot)长度为原来的1/4(较LTE),为了进一步减小slot长度,ULRLLC采用了将4个符号作为一个微时隙(mini-slot),减小为LTE一个slot长度的1/14。为了节约资源提高频谱效率,基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。这种动态资源复用的方法可以在资源复用时最大程度避免资源浪费,当然也会造成eMBB业务数据的解调失败,引发额外的HARQ反馈。因此如何能够在有限的资源中对eMBB和URLLC业务进行分配、实现资源的高效利用是一个亟待解决的问题。
发明内容
本发明的目的在于提供一种基于深度强化学习的URLLC和eMBB的资源复用方法,能够实现在满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。
为实现上述发明目的,本发明提供了一种基于深度强化学习的URLLC和eMBB的资源复用方法,该方法包括:
采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;
建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;
对训练好的模型进行性能评估直至满足性能需求;
收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;
根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。
综上所述,本发明是一种基于深度强化学习的URLLC和eMBB的资源复用方法,它是通过深度强化学习的方法对eMBB和URLLC数据包信息、信道信息以及队列信息进行训练,得到eMBB和URLLC数据包复用资源决策结果,根据决策结果合理分配复用资源,有效地解决了功率和时频资源浪费问题。
附图说明
图1是本发明提出的eMBB与URLLC时频资源复用的帧结构与复用方式示意图。
图2是本发明基于深度强化学习的URLLC和eMBB的资源复用方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
本发明的核心思想在于,首先,采集URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据,接下来建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用训练数据对模型参数进行训练更新模型参数θ。对所得深度强化学习的URLLC与eMBB资源复用模型进行性能评估,如果满足URLLC可靠性的要求,且使得eMBB数据包具有较低的重传率,则完成训练过程;如果不能满足上述性能要求,则继续对模型进行训练直至损失函数收敛。然后收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,并将上述信息输入训练完成的深度强化学习模型,获得资源复用的决策结果。进而根据资源复用的决策结果对eMBB和URLLC数据包进行资源分配,实现有限复用资源的高效利用,有效地解决了功率和时频资源浪费问题。
参见图1,具体描述本发明提出的eMBB与URLLC复用的帧结构与复用方式。
具体地,为了能够满足URLLC低时延的要求采用60KHz的子载波间隔实现slot长度为原来的1/4(较LTE),为了进一步减小slot长度,ULRLLC采用了将4个符号作为一个mini-slot,减小为LTE一个TTI长度的1/14,并以一个mini-slot作为一个TTI进行传输。为了节约资源提高频谱效率,基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。并采用动态调度的方法,配置下行DCI信令PI(Pre-emption Indication)即时告知用户eMBB业务数据被URLLC业务数据抢占的信息,***通过RRC子层信令通知eMBB用户周期性地检测PI完成对eMBB被抢占资源的正确解调。实现时频资源的充分利用。
图2为本发明基于深度强化学习的URLLC和eMBB资源复用方法的流程示意图。
步骤1、采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;
步骤101、以M中的第k个mini-slot为例,通过UE周期上传的信道质量指示(CQI)信息,获取不同子载波的下行信道增益gk=[g1,g2,…,gi],其中i为mini-slot中子载波的数量;并获取eMBB数据包比特数URLLC数据包比特数Rk UR,eMBB数据包队列长度URLLC数据包队列长度Qk UR,k∈M;
步骤102、将所获取的信息封装为状态向量作为训练数据。
步骤2、建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;
步骤201、建立基于深度强化学习的URLLC与eMBB资源复用模型,所包含的具体步骤如下:
(1)设定动作向量a=[PeM,PUR,neM,nur],其中PeM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率,PUR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率,neM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数,nur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数,并初始化eMBB数据包的队列长度QeM,以及URLLC数据包的队列长度QUR均为零;
(2)构建eval和next两个相同的神经网络,其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a;next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;
(3)设定eval神经网络的参数C=[n,nh,nin,nout,θ,activate];n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin表示输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ=[weight,bias],weight表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数并采用ReLU;
(4)初始化next神经网络参数C’=C。
步骤202、利用所述训练数据对模型参数进行训练的方法包括:
A、(1)将第k个mini-slot的状态向量输入eval神经网络;
(2)选择动作向量ak
具体地,动作向量ak有两种选择方式,一种方式是,设定概率εa,以概率εa从动作池中随机选择动作ak。其中εa是一个很小的概率值。
或者,另一种方式是,以概率(1-εa)从eval神经网络中选择满足条件的动作ak。其中,动作ak有多个可能的取值,根据每个ak的取值得到与之对应的Q(sk,ak,θ)值,然后选择最大的Q(sk,ak,θ)值对应的ak。Q(sk,ak,θ)值的详细计算方法见下面的(3)。
(3)根据所述动作向量ak计算所获得的奖励rk以及动作估值函数Q;
(3.1)根据所述动作向量ak计算所获得的奖励rk具体步骤包括:
根据所选动作可计算对于第i个子载波只传输URLLC数据对应的信噪比:
对于第i个子载波如果只传输eMBB数据则对应的信噪比:
对于第i个子载波如果传输二者复用的数据则对应的信噪比:
因此,对于URLLC数据包在第i个子载波上传输的错误率:
其中Qgauss表示高斯Q函数,V表示channel dispersion。这里可以根据第i个子载波是只传输URLLC数据包还是传输二者复用的数据而进行选择。
根据得到第k个mini-slot的URLLC数据包的传输错误率为:并得到第k个mini-slot的URLLC数据包在第i个子载波上的传输速率:
根据得到当前mini-slot内URLLC数据包的吞吐量为:其中T表示一个mini-slot的时域长度;
根据以及sk,得到第k个mini-slot的URLLC数据包舍弃的比特数其中设定URLLC数据包的最大队列长度为HUR
根据得到当前mini-slot内eMBB数据包的吞吐量为:其中nk表示eMBB与URLLC复用所占的子载波数,为高斯噪声;
根据以及sk,得到第k个mini-slot的eMBB数据包舍弃的比特数其中设定eMBB数据包的最大队列长度为HeM
根据ak得到回报奖励rk
ω1至ω5均为常数。
其中,表示URLLC数据包传输错误率,需要与εerror进行比较后取值。当第k个mini-slot内URLLC数据包传输错误率大于εerror若URLLC数据包传输错误率小于εerror在本发明应用场景中εerror为10-5
(3.2)根据Bellman方程,在状态sk时采取动作ak的条件下,对采取动作ak所获得的奖励rk加上到达的下一状态的Q值取期望值,计算出动作估值函数其中λ为损失因子。
由于当前状态的Q取决于下一个状态的Q,因此通过Bellman方程可以采取迭代的方法解决马尔科夫决策问题。
(4)获取到达的下一个状态向量sk+1
具体地,本步骤sk+1的获取可以仿照步骤1中sk的获取,在此不再赘述。
(5)存储(sk,ak,rk,sk+1)作为一个样本;
一般地,会将多个样本存储到记忆单元中,用于接下来对模型的训练。
(6)将sk+1输入next神经网络获得最大的动作估值函数argmaxa k+1Q’;
(7)根据argmaxa k+1Q’以及rk得到其中γ表示折扣因子,θ’为当前next神经网络的参数;
(8)从记忆单元中随机取出F个样本,得到每个样本的Qtarget和动作估值函数Q,F为自然数;
(9)根据代入每个样本的Qtarget和动作估值函数Q得到损失函数Loss(θ),θ为当前eval神经网络的参数;
(10)采用梯度下降的方法计算出梯度,选择梯度下降最快的方向对eval神经网络的参数θ进行更新;
B、取不同的k值,重复步骤A,每进行I次eval神经网络的参数更新,进行一次next神经网络的参数更新,使θ’=θ;I为大于1的自然数;
C、取不同的k值,重复A至B,不断对模型进行训练直至损失函数收敛。
步骤3、对训练好的模型进行性能评估直至满足性能需求;
(1)将所获取的训练数据输入训练好的模型得到k∈M;
(2)统计预定时间段内基站发送的eMBB和URLLC数据包的数量分别记为pEM和pUR,并通过UE上报给基站的信息获得该时间段内URLLC与eMBB数据包传输错误的个数分别为pur和pem;根据pUR和pur得到URLLC的传输错误率根据pEM和pem得到eMBB的重传率
(3)对pe和pre进行判断,如果满足pe<ke,ke表示为具体场景下URLLC数据包传输错误率要求;且满足pre<kre,kre表示为具体场景下eMBB数据包的重传率要求,则完成性能评估过程;否则,继续对模型进行训练直至满足性能需求。
步骤4、收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;
具体就是,将所收集的当前mini-slot的数据s=[ReM,RUR,g,QeM,QUR]输入训练好的模型得到a=[PeM,PUR,neM,nur]。其中,s的获取仿照步骤1,在此不再赘述。
步骤5、根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。
具体地,根据得到的当前mini-slot的资源复用决策结果a=[PeM,PUR,neM,nUR],无线网络控制器RNC通过无线资源控制RRC子层指示分配给URLLC和eMBB数据包的功率大小PUR和PeM,以及分配给URLLC和eMBB数据包的子载波数nUR和neM,并指示所分配的子载波的位置信息。
进一步地,通过配置下行DCI信令PI(Pre-emption Indication)即时告知用户eMBB被URLLC抢占的信息(即eMBB与URLLC复用的子载波的位置信息),***通过RRC子层信令通知eMBB用户周期性地检测PI完成对eMBB被抢占资源的正确解调。从图1的帧结构可以看出,每个mini-slot时域上包含4个符号长度。从图1的时频资源的复用方式可以看出,浅色图案为每个mini-slot上只传输eMBB数据的子载波位置,深色图案为每个mini-slot上eMBB与URLLC复用的子载波位置。从而实现URLLC与eMBB数据包业务在时频域资源以及功率的合理分配,实现有限复用资源的高效利用。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法,其特征在于,该方法包括:
采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;
建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;
对训练好的模型进行性能评估直至满足性能需求;
收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;
根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。
2.如权利要求1所述的方法,其特征在于,所述采集M个mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据的方法包括:
对于M中的第k个mini-slot,获取不同子载波的下行信道增益gk=[g1,g2,…,gi],其中i为mini-slot中子载波的数量;并获取eMBB数据包比特数Rk eM,URLLC数据包比特数Rk UR,eMBB数据包队列长度Qk eM,URLLC数据包队列长度Qk UR,k∈M;
将所获取的信息封装为状态向量sk=[Rk eM,Rk UR,gk,Qk eM,Qk UR]作为训练数据。
3.如权利要求2所述的方法,其特征在于,所述建立基于深度强化学习的URLLC与eMBB资源复用模型包括:
设定动作向量a=[PeM,PUR,neM,nur],其中PeM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率,PUR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率,neM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数,nur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数,并初始化eMBB数据包的队列长度QeM,以及URLLC数据包的队列长度QUR均为零;
构建eval和next两个相同的神经网络,其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a;next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;
设定eval神经网络的参数C=[n,nh,nin,nout,θ,activate];n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin表示输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ=[weight,bias],weight表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数并采用ReLU;
初始化next神经网络参数C’=C。
4.如权利要求3所述的方法,其特征在于,所述利用所述训练数据对模型参数进行训练的方法包括:
A、将第k个mini-slot的状态向量sk=[Rk eM,Rk UR,gk,Qk eM,Qk UR]输入eval神经网络;
选择动作向量ak
根据所述动作向量ak计算所获得的奖励rk以及动作估值函数Q;
获取到达的下一个状态向量sk+1
存储(sk,ak,rk,sk+1)作为一个样本;
将sk+1输入next神经网络获得最大的动作估值函数argmaxa k+1Q’;
根据argmaxa k+1Q’以及rk得到其中γ表示折扣因子,θ’为当前next神经网络的参数;
随机取出F个样本,得到每个样本的Qtarget和动作估值函数Q,F为自然数;
根据代入每个样本的Qtarget和动作估值函数Q得到损失函数Loss(θ),θ为当前eval神经网络的参数;
采用梯度下降的方法计算出梯度,选择梯度下降最快的方向对eval神经网络的参数θ进行更新;
B、取不同的k值,重复步骤A,每进行I次eval神经网络的参数更新,进行一次next神经网络的参数更新,使θ’=θ;I为大于1的自然数;
C、取不同的k值,重复A至B,不断对模型进行训练直至损失函数收敛。
5.如权利要求4所述的方法,其特征在于,所述选择动作向量ak包括:
设定概率εa,以概率εa从动作池中随机选择动作ak,或者以概率(1-εa)从eval神经网络中选择满足条件的动作ak
6.如权利要求4所述的方法,其特征在于,根据所述动作向量ak计算所获得的奖励rk包括:
根据ak=[Pk eM,Pk UR,nk eM,nk ur],得到第i个子载波传输URLLC数据包对应的信噪比
根据ak=[Pk eM,Pk UR,nk eM,nk ur]和得到第k个mini-slot的URLLC数据包在第i个子载波上传输的错误率:其中Qgauss表示高斯Q函数,V表示channel dispersion;
根据得到第k个mini-slot的URLLC数据包的传输错误率为:并得到第k个mini-slot的URLLC数据包在第i个子载波上的传输速率:
根据得到当前mini-slot内URLLC数据包的吞吐量为:其中T表示一个mini-slot的时域长度;
根据以及sk,得到第k个mini-slot的URLLC数据包舍弃的比特数其中设定URLLC数据包的最大队列长度为HUR
根据得到当前mini-slot内eMBB数据包的吞吐量为:其中nk表示eMBB与URLLC复用所占的子载波数,为高斯噪声;
根据以及sk,得到第k个mini-slot的eMBB数据包舍弃的比特数其中设定eMBB数据包的最大队列长度为HeM
根据εk UR,ak得到
ω1至ω5均为常数。
7.如权利要求6所述的方法,其特征在于,根据Bellman方程,在状态sk时采取动作ak的条件下,对采取动作ak所获得的奖励rk加上到达的下一状态的Q值取期望值,计算出动作估值函数其中λ为损失因子。
8.如权利要求7所述的方法,其特征在于,对训练好的模型进行性能评估直至满足性能需求包括:
将所获取的训练数据sk=[Rk eM,Rk UR,gk,Qk eM,Qk UR]输入训练好的模型得到ak=[Pk eM,Pk UR,nk eM,nk ur],k∈M;
统计预定时间段内基站发送的eMBB和URLLC数据包的数量分别记为pEM和pUR,并通过UE上报给基站的信息获得该时间段内URLLC与eMBB数据包传输错误的个数分别为pur和pem;根据pUR和pur得到URLLC的传输错误率根据pEM和pem得到eMBB的重传率
对pe和pre进行判断,如果满足pe<ke,ke表示为具体场景下URLLC数据包传输错误率要求;且满足pre<kre,kre表示为具体场景下eMBB数据包的重传率要求,则完成性能评估过程;否则,继续对模型进行训练直至满足性能需求。
9.如权利要求7所述的方法,其特征在于,所述收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果包括:
将所收集的当前mini-slot的数据s=[ReM,RUR,g,QeM,QUR]输入训练好的模型得到a=[PeM,PUR,neM,nur]。
10.如权利要求9所述的方法,其特征在于,所述根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配包括:
根据得到的当前mini-slot的资源复用决策结果a=[PeM,PUR,neM,nUR],无线网络控制器RNC通过无线资源控制RRC子层指示分配给URLLC和eMBB数据包的功率大小PUR和PeM,以及分配给URLLC和eMBB数据包的子载波数nUR和neM,并指示所分配的子载波的位置信息。
CN201811383001.3A 2018-11-20 2018-11-20 一种基于深度强化学习的URLLC和eMBB的资源复用方法 Active CN109561504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811383001.3A CN109561504B (zh) 2018-11-20 2018-11-20 一种基于深度强化学习的URLLC和eMBB的资源复用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811383001.3A CN109561504B (zh) 2018-11-20 2018-11-20 一种基于深度强化学习的URLLC和eMBB的资源复用方法

Publications (2)

Publication Number Publication Date
CN109561504A true CN109561504A (zh) 2019-04-02
CN109561504B CN109561504B (zh) 2020-09-01

Family

ID=65866817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811383001.3A Active CN109561504B (zh) 2018-11-20 2018-11-20 一种基于深度强化学习的URLLC和eMBB的资源复用方法

Country Status (1)

Country Link
CN (1) CN109561504B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111556572A (zh) * 2020-04-21 2020-08-18 北京邮电大学 一种基于强化学习的频谱资源和计算资源联合分配方法
CN113099460A (zh) * 2021-03-10 2021-07-09 西安交通大学 eMBB共存时基于预留的URLLC混合多址接入传输优化方法及***
CN113453236A (zh) * 2021-06-25 2021-09-28 西南科技大学 面向URLLC与eMBB混合业务的频率资源分配方法
CN113691350A (zh) * 2021-08-13 2021-11-23 北京遥感设备研究所 一种eMBB和URLLC的联合调度方法及***
CN113747450A (zh) * 2021-07-27 2021-12-03 清华大学 一种移动网络中业务部署方法、装置及电子设备
CN114143816A (zh) * 2021-12-20 2022-03-04 国网河南省电力公司信息通信公司 一种基于电力业务质量保障的5g网络资源动态调度方法
CN115439479A (zh) * 2022-11-09 2022-12-06 北京航空航天大学 一种基于强化学习的学术图像复用检测方法
CN116234047A (zh) * 2023-03-16 2023-06-06 华能伊敏煤电有限责任公司 一种基于强化学习算法的混合业务智能资源调度方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108633004A (zh) * 2017-03-17 2018-10-09 工业和信息化部电信研究院 URLLC业务占用eMBB业务资源指示信道指示方法
CN108632861A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算分流决策方法
CN108712755A (zh) * 2018-05-18 2018-10-26 浙江工业大学 一种基于深度强化学习的非正交接入上行传输时间优化方法
CN108811115A (zh) * 2017-05-05 2018-11-13 北京展讯高科通信技术有限公司 eMBB业务数据的抢占处理方法、装置、基站及用户设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108633004A (zh) * 2017-03-17 2018-10-09 工业和信息化部电信研究院 URLLC业务占用eMBB业务资源指示信道指示方法
CN108811115A (zh) * 2017-05-05 2018-11-13 北京展讯高科通信技术有限公司 eMBB业务数据的抢占处理方法、装置、基站及用户设备
CN108632861A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算分流决策方法
CN108712755A (zh) * 2018-05-18 2018-10-26 浙江工业大学 一种基于深度强化学习的非正交接入上行传输时间优化方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182644B (zh) * 2019-12-24 2022-02-08 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111556572A (zh) * 2020-04-21 2020-08-18 北京邮电大学 一种基于强化学习的频谱资源和计算资源联合分配方法
CN113099460A (zh) * 2021-03-10 2021-07-09 西安交通大学 eMBB共存时基于预留的URLLC混合多址接入传输优化方法及***
CN113453236A (zh) * 2021-06-25 2021-09-28 西南科技大学 面向URLLC与eMBB混合业务的频率资源分配方法
CN113453236B (zh) * 2021-06-25 2022-06-21 西南科技大学 面向URLLC与eMBB混合业务的频率资源分配方法
CN113747450A (zh) * 2021-07-27 2021-12-03 清华大学 一种移动网络中业务部署方法、装置及电子设备
CN113691350A (zh) * 2021-08-13 2021-11-23 北京遥感设备研究所 一种eMBB和URLLC的联合调度方法及***
CN113691350B (zh) * 2021-08-13 2023-06-20 北京遥感设备研究所 一种eMBB和URLLC的联合调度方法及***
CN114143816A (zh) * 2021-12-20 2022-03-04 国网河南省电力公司信息通信公司 一种基于电力业务质量保障的5g网络资源动态调度方法
CN115439479A (zh) * 2022-11-09 2022-12-06 北京航空航天大学 一种基于强化学习的学术图像复用检测方法
CN115439479B (zh) * 2022-11-09 2023-02-03 北京航空航天大学 一种基于强化学习的学术图像复用检测方法
CN116234047A (zh) * 2023-03-16 2023-06-06 华能伊敏煤电有限责任公司 一种基于强化学习算法的混合业务智能资源调度方法

Also Published As

Publication number Publication date
CN109561504B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN109561504A (zh) 一种基于深度强化学习的URLLC和eMBB的资源复用方法
US9113371B2 (en) Cross-layer optimization for next-generation WiFi systems
Yao et al. Machine learning aided load balance routing scheme considering queue utilization
CN111182644B (zh) 基于深度强化学习的联合重传urllc资源调度方法
CN101513093A (zh) 无线通信***中从资源失配进行的恢复
CN102035586A (zh) 一种无线协同中继网络中能量高效的分布式中继选择算法
Niyato et al. Adaptive fair subcarrier/rate allocation in multirate OFDMA networks: Radio link level queuing performance analysis
Zhang et al. Cross-layer modeling for QoS-driven multimedia multicast/broadcast over fading channels in [advances in mobile multimedia]
CN103826312A (zh) 一种基于指数准则改进的lte调度方法
Araniti et al. A low computational-cost subgrouping multicast scheme for emerging 5G-satellite networks
Sharma et al. Deep reinforcement learning for delay-sensitive LTE downlink scheduling
Chen et al. AMC with a BP-ANN scheme for 5G enhanced mobile broadband
CN107071919A (zh) 一种基于丢包率的lte下行实时业务调度改进方法
Ye et al. Joint MCS adaptation and RB allocation in cellular networks based on deep reinforcement learning with stable matching
Gamgam et al. On the queuing model of the energy-delay tradeoff in wireless links with power control and link adaptation
Wu et al. Exploiting social-interest interactions on user clustering and content dissemination in device-to-device communications
Tsai et al. QoE-aware Q-learning based approach to dynamic TDD uplink-downlink reconfiguration in indoor small cell networks
Yuan et al. AG-MS: A user grouping scheme for DASH multicast over wireless networks
Chen et al. Is partial model aggregation energy-efficient for federated learning enabled wireless networks?
Zhou et al. Real-Time RL-Based 5G Network Slicing Design and Traffic Model Distribution: Implementation for V2X and EMBB Services
Liu et al. Machine learning based adaptive modulation scheme for energy harvesting cooperative relay networks
Tang et al. Multiuser video streaming rate adaptation: A physical layer resource-aware deep reinforcement learning approach
Ding et al. On Monotonicity of the Optimal Transmission Policy in Cross-Layer Adaptive $ m $-QAM Modulation
TWI812371B (zh) 基於人工智慧算法之下行模式區分多址接入系統資源分配方法
CN103986745B (zh) 一种物联网的业务分类接入和物件标签位置预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant