CN112911613A

CN112911613A - 一种用于noma-mec网络的基于drl的流量卸载算法及实现装置

Info

Publication number: CN112911613A
Application number: CN202011349607.2A
Authority: CN
Inventors: 王亚峰; 王嘉胤
Original assignee: Beipost Perception Technology Research Institute Jiangsu Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Beipost Perception Technology Research Institute Jiangsu Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-06-04

Abstract

本发明公开了一种用于NOMA‑MEC网络的基于DRL的流量卸载算法及实现装置，用于自适应更新MEC中用户的数据缓存策略。该算法利用深度神经网络，基于用户不同时隙的信道特性，学习得到使网络总能耗最低的卸载策略。针对选择将数据卸载至MEC服务器的用户集合，本发明采用一种循环非正交多址方案将数据传输至服务器进一步降低传输时延。考虑到卸载策略的二值性，本发明将神经网络的实际输出基于不同的映射量化为多组实际可行策略，选择能效性能最好的解作为最优解，并通过训练使网络输出和最优解之间的交叉熵渐近收敛。

Description

一种用于NOMA-MEC网络的基于DRL的流量卸载算法及实现装置

技术领域

本发明涉及无线通信技术领域，将非正交多址(NOMA)技术应用于移动边缘计算(MEC)中，并进一步利用深度强化学习(DRL)高效自适应地得到用户的数据卸载策略以降低***时延和能量消耗。

背景技术

移动边缘计算(MEC)技术通过将IT服务环境和云计算技术在网络边缘相结合，有效提高边缘网络的计算和存储能力，进一步减少网络操作和服务交付时延，提升用户服务质量体验，在5G移动网络中得到了广泛的研究。通过将计算和存储能力“下沉”到网络边缘，用户请求不再需要经过漫长的传输网络到达遥远的核心网被处理，而是由部署在本地的MEC服务器将一部分流量进行卸载，直接处理并响应用户，进而大大降低通信时延。基于传统正交多址(OMA)方案(以TDMA为例)实现数据卸载时，单个时隙仅分配给唯一一个用户用于上行数据传输，大大限制了由MEC带来的时延性能的提升。

为解决OMA方案的不足，非正交多址(NOMA)技术通过非正交传输方式，在MEC服务器采用串行干扰消除(SIC,successive interference cancellation)技术实现解调，从而将同一信道分配给多个用户。利用NOMA部署缓存，可以有效提升网络的传输效率，并进一步降低网络能耗。然而NOMA以人工引入干扰为代价实现频谱效率的提升，其带来增益的大小和复用用户的信道条件息息相关。针对采用NOMA进行数据卸载的MEC网络，如何选择最优复用用户以提升网络缓存性能为本发明主要解决的问题。

发明内容

本发明针对NOMA-MEC网络提出了一种基于DRL的用户数据卸载算法。该算法基于深度强化学习，利用观测得到的用户信道状态，快速自适应地决定用户的数据卸载策略。基于该算法得到的策略，可有效降低***的能耗和时延，并对移动用户具有较好的鲁棒性。

本发明的具体实现过程如下：

步骤1：***模型

考虑上行多用户场景，假定每一用户有L bits数据等待处理，任一用户的数据可选择通过本地计算或基于NOMA缓存至MEC服务器处理。变量λ_i表示第i个用户处理方案，其中λ_i＝0对应本地计算，λ_i＝1表示缓存至MEC服务器。假定编号大的用户对应的信道增益更强，即|h_i|≤|h_j|,

其中K表示总用户数。U_N＝{i(1),i(2),...,i(N)}表示通过NOMA缓存数据的用户集合，i(k)表示第k个NOMA用户的编号，根据前文有λ_i(k)＝1,

考虑NOMA的实际实现，假定i(1)＜i(2)＜...＜i(N)。

本发明实现NOMA时，仅考虑簇容量为2的情况，即单个时隙仅复用两个用户。基于前文假设，U_N中的用户按信道增益升序排列。基于排好的序列，***依次调度两个用户利用NOMA实现数据缓存。首先将用户i(1)和用户i(2)的数据利用非正交方式传输给服务器。在服务器端，基于SIC技术准则，上行接收应先解码信道状况较好的用户的信号，即i(2)的信号。此时i(1)用户的速率等效于基于OMA传输时的速率，具体可表示为：

其中B表示传输带宽，p_i(1)、h_i(1)分别表示用户i(1)的传输功率和信道增益，σ²表示噪声功率。用户i(1)的传输时间T_i(1)可相应的表示为：

在此期间，由于服务器解码i(2)时将i(1)的信号视为噪声，i(2)的实际速率远小于其基于OMA传输时的速率。因此，在T_i(1)时间内，用户i(2)的实际传输比特可能远小于Lbits。因此在T_i(1)后，***引入用户i(3)并将i(2)和i(3)复用继续传输数据。用户i(2)的传输因此可分为两部分，分别与i(1)和i(3)复用。与i(1)复用时，传输速率可表示为：

其中p_i(2)、h_i(2)分别表示用户i(2)的传输功率和信道增益。与i(3)复用时，由于i(3)的信道增益更大，i(3)的数据先被解调，此时i(2)的速率等效于OMA场景，具体表示为：

基于上述方案，任一复用用户i(k),(1＜k＜N)的传输均可划分为两个阶段，分别与i(k-1)和i(k+1)复用，其传输时间T_i(k)可表示为：

T_i(k)＝T_i(k),1+T_i(k),2 (5)

l_i(k),1＝R_i(k),1T_i(k),1 (7)

其中T_i(k),j、l_i(k),j,(j＝1,2)分别表示用户i(k)在第j个阶段消耗的时间和实际传输的比特数，R_i(k),j,(j＝1,2)表示用户i(k)在第j个阶段的实际速率。基于上文，NOMA的总时延T_NOMA和总消耗能量E_NOMA可分别表示为：

考虑本地处理的用户i∈{1,2,...,K}\U_N(全部K个用户去除利用NOMA缓存数据的用户后的用户集合),其处理L bits数据消耗的时间可表示为：

其中φ表示处理1bit数据所需CPU周期，f_i表示用户i的CPU频率，其与用户功率的关系可表示为：

af_i ³≤p_i (12)

a表示能量系数。本地处理的总时延T_local及消耗的能量E_local可分别表示为：

考虑到MEC服务器的发射功率远高于功率受限的用户的发射功率，本发明中，MEC服务器数据处理及反馈回传的时间可忽略不计。针对能量受限的用户，本发明通过为其设计合理的数据处理方案，即λ_i,

进一步提升NOMA-MEC网络的能量效率并降低传输时延。

步骤2：基于DRL的数据卸载策略

针对多用户场景，可能的传输方案共有2^K种，遍历所有可行解的时间复杂度不可接受。本发明利用深度学习的思想，基于观测到的用户信道增益，利用DNN为λ_i输出一个近似解a_i,

其中a_i为[0,1]范围内的实数。利用近似解进一步量化得到M个实际可行解，并基于每一个可行解计算***实际消耗能量E_total＝E_local+E_NOMA。选择能量最小的解作为最终解，并将其与信道观测向量一同存入内存中用于后续训练。实际训练过程采用经验回放技术。通过从内存中抽取不同时隙下的信道观测向量及对应的最优量化解作为mini-batch，利用Adam优化器使网络输出的近似解和最优量化解之间的交叉熵最小。

网络输入为某一时隙各用户的信道增益

输出为对应的近似解

利用该近似解量化产生M个实际可行解的方法如下：

(1)第一个实际二进制可行解可表示为

(2)生成剩余M-1个可行解之前，首先将序列

按照每个元素距离0.5的距离升序排列得到新序列

其中

基于序列

生成第m(2≤m≤M)个二进制可行解，具体表示为：

随后针对任一可行解{λ_m,i}计算实际能耗，选择能耗最小的解

作为最终解，并将输入、标签对({h_i}、

)存入内存中。训练过程中，随机从内存中抽取mini-batch训练网络，从而最小化交叉熵损失函数。

具体实施例

下面是具体实施例的仿真参数：

仿真结果如图2，3，4所示。从图2可以看出，交叉熵损失函数随训练过程迅速收敛。当仿真时隙数超过3000时，损失值稳定在0.05左右，意味着此时输出近似解近似等于量化最优解。图3描述了基于不同策略，***的总消耗能量随训练过程的变化。Best Action描述量化得到的M个解中的最优解的性能，从图中可知，量化解中的最优解的能效性能较为稳定。Relaxed Action描述第一个量化解，即同DNN实际输出耦合最紧密的可行解的能效性能。由图3可知，随着训练过程的继续，第一个量化解的性能无限趋近于量化最优解，意味着网络渐渐具备利用用户的信道特征输出最优缓存策略的能力。图4描述不同策略下***的时延特性。由图可得，基于NOMA的策略相较于传统的TDMA方案，能够进一步降低***时延。当用户采用本地计算策略时，其消耗的时间仅受限于用户自身的功率，因此在多个训练时隙中，基于本地计算的***时延保持恒定。类似的，随着训练时隙的不断扩大，第一个量化解的性能无限趋近于量化最优解，意味着网络已具备自适应输出策略的能力。

总之，经上述仿真验证，本发明是成功的、可信的。

附图说明

图1是基于深度强化学习的数据卸载装置示意图；

图2是交叉熵损失函数随训练时隙的变化示意图；

图3是不同策略下***的总消耗功率随训练时隙的变化示意图；

图4是不同策略下***的总时延随训练时隙的变化示意图。

Claims

1.一种针对NOMA-MEC网络，基于深度强化学习的用户数据卸载算法及实现装置，其特征在于，首先根据用户信道特性，利用深度神经网络学习得到用户最优卸载策略；在此基础上，针对将数据卸载至MEC服务器上处理的用户，采用非正交多址方式实现信道复用以进一步降低***时延。

2.根据权利要求1所述的方法，其特征在于，基于深度神经网络，利用K个用户在时隙t下的信道状态信息

输出一个卸载策略的近似解

其中a_k(t)对应用户k在第t个时隙内的卸载策略λ_k(t)的近似解。λ_k(t)为二进制变量，λ_k(t)＝1表示用户k将数据卸载至MEC服务器处理，λ_k(t)＝0对应本地处理；为得到实际卸载策略，需要进一步将a(t)基于不同映射量化为多组二进制可行解，并根据不同可行解的能耗性能得到最优解；具体产生M组二进制可行解的方法可表示为：

(1)第一组实际二进制可行解可表示为

(2)生成剩余M-1组可行解之前，首先将序列a(t)按照序列内每个元素距离0.5的距离升序排列得到新序列

其中

基于序列

生成第m(2≤m≤M)个二进制可行解，具体表示为：

3.根据权利要求2所述的方法，其特征在于，求解任一可行策略{λ_m,i}下***的实际能耗时，首先根据策略得到将数据卸载至MEC服务器的用户集合

并将U_N中的用户按信道增益升序排列，然后依次以非正交多址方式调度用户进行数据传输；本发明仅考虑用户簇为2的情况，当其中一个用户完成数据传输时，***自动调度U_N中的下一个用户跟当前数据未传完用户复用，即U_N中的每个用户分别和前后两个用户复用；基于上述调度方式，U_N中第k个用户的传输时延可表示为：

l_k,1(t)＝R_k,1(t)T_k,1(t) (6)

其中L表示每个用户待传输数据的总比特数，R₁(t)表示U_N中第一个用户的传输速率，B表示***带宽，p₁(t)、h₁(t)分别表示第一个用户在时隙t内的传输功率和信道增益，σ²表示噪声功率。T_k,j(t)、l_k,j(t),(j＝1,2)分别表示第k个用户同其前后两个用户复用时的传输时延和传输比特数；R_k,j(t),(j＝1,2)表示第k个用户同其前后两个用户复用时的实际速率，具体可表示为：

其中p_k(t)、h_k(t)分别表示U_N中第k个用户在时隙t内的传输功率和信道增益；U_N中用户消耗的能量E_NOMA可表示为：

采用本地模式工作的用户的消耗时延T_local和能量E_local可分别表示为：

其中φ表示用户处理1bit数据所需CPU周期，a表示能量系数，p_i(t)表示在本地工作模式下的用户i在时隙t内的传输功率；此时***的总能耗可表示为：

E_total＝E_local+E_NOMA (12)

针对权利要求2中生成的M组实际可行解，采用上述方法分别计算每一组解对应的***总能耗，然后选择总能耗最小的解作为该时隙的数据卸载方案；将每个时隙的信道观测向量和对应的卸载方案存储到内存中供训练使用；实际训练过程中，通过从内存中抽取不同时隙下的信道观测向量及对应的最优量化解作为mini-batch，利用Adam优化器使网络输出的近似解和最优量化解之间的交叉熵最小。

4.一种基于深度强化学习的数据卸载策略算法实现装置，可灵活决定用户数据的处理方式，其特征在于包括：

学习模块：根据权利要求2所述的方法，利用多用户某一时隙的信道状态信息学习得到多用户数据卸载近似策略；

量化模块：基于学习得到的近似策略，根据权利要求2所述的方法，量化得到M个可行策略；

求解模块：根据权利要求3所述的方法，求解在M个可行策略下***的总能耗，然后选取总能耗最小的量化策略作为最优策略；

存储模块：根据权利要求3所述的方法，将用户的信道状态信息作为输入，基于求解模块得到的最优策略作为标签，把输入和标签整体存储在内存中，供后续训练使用；

训练模块：根据权利要求3所述的方法，利用Adam优化器，通过最小化网络输出和标签之间的交叉熵损失函数，提高网络的学习能力。