WO2023179010A1

WO2023179010A1 - 一种noma-mec***中的用户分组和资源分配方法及装置

Info

Publication number: WO2023179010A1
Application number: PCT/CN2022/127173
Authority: WO
Inventors: 赵莎莎; 秦立丹; 张登银; 孙晨辉; 文清; 陈瑞杰; 刘雨凡
Original assignee: 南京邮电大学
Priority date: 2022-03-22
Filing date: 2022-10-25
Publication date: 2023-09-28
Also published as: CN114885420A

Abstract

本发明公开了一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配方法及装置。本发明提出的混合深度强化学习算法利用DDPG优化连续动作和DQN优化离散动作解决了深度强化学习难以处理同时具有离散和连续动作空间的混合问题。具体地，算法根据用户的信道状态确定用户设备的带宽分配、卸载决策、子信道分配(用户分组情况),以使***的计算速率与所耗功率之比最大化。该算法可以良好地适应环境的动态特性，有效提升***的能量效率和频谱资源利用率。

Description

一种NOMA-MEC***中的用户分组和资源分配方法及装置

技术领域

本发明属于移动通信与深度强化学习领域，具体涉及一种基于混合深度强化学习的NOMA-MEC***中的计算卸载方法及装置。

背景技术

随着智能设备数量的显著增加，大量的用户设备产生大量需要处理的数据。然而由于智能设备的尺寸限制，它的计算资源和能量资源都很贫乏，这使它面临着服务需求的巨大挑战。因此为了提高任务处理效率满足服务需求，移动边缘计算(Mobile Edge Computing，MEC)技术应运而生。此外，数据流量的***性增长引起了海量接入的迫切需求和频谱资源急剧短缺问题，第五代(the fifth generation,5G)通信中的非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技术正是解决这些问题的有效方案。因此，NOMA-MEC的技术研究近年来引起了广泛关注。

目前针对NOMA-MEC***中用户分组和资源分配策略的研究大部分都使用传统的优化方法进行求解，例如通过迭代算法收敛得到最优解，或者通过启发式算法得到次优解。但这些方法要么计算复杂度太高，要么只能得到次优解，更重要的是缺乏对动态***的自适应能力。

发明内容

本发明目的在于提出了一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配方法，该方法能够在动态NOMA-MEC***中实时调度资源使***能效最大化。

为达到上述目的，本发明采用下述技术方案实现：

本发明提供了一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配方法，包括以下步骤：

步骤1、描述NOMA-MEC***，所述***以时隙方式运行，时隙集合记为Γ＝{1,2,...,T}；

步骤2、定义该***的能量效率；

步骤3、描述优化问题；

步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间；

步骤5、构建混合深度强化学习网络；所述网络的输入是状态，输出是动作；

步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作；

步骤7、训练混合深度强化学习网络；

步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后，输出此时生成的动作，即要优化的决策：用户分组、计算卸载、带宽分配比例。

进一步的，描述NOMA-MEC***的方法包括：

所述NOMA-MEC***由K个用户设备和一个与边缘服务器相连的单天线基站组成，并且所有用户都只有单个发射天线与基站建立通信链路，所述***以时隙方式运行，时隙集合记为Γ＝{1,2,...,T}；

将***总带宽B被分为N个正交的子信道，子信道n的带宽占总带宽的比例为τ _n，

定义

和

分别表示用户集合、正交子信道集合，K≤2N；

将整个过程划分为一个个时隙，Γ＝{1,2,...,T}；信道增益在一个时隙的时间段内保持不变，在不同时隙间变化，

表示信道n上用户k到基站的信道增益，并且设

限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号；m _nk＝1表示信道n分配给用户k发送信号,m _nk＝0表示信道n并不分配给用户k发送信号。

进一步的，步骤2定义该***的能量效率的方法包括：

步骤2.1)该***的能量效率Y定义为所有用户计算速率与计算功率比值的和，如以下公式：

其中，R _i,off表示用户i将计算任务卸载到边缘服务器执行的计算速率，p _i为用户i的发送功率,其不随时间变化，并且所有用户的发射功率相同；R _i,local表示用户i本地执行任务的计算速率，p _i,local表示用户i本地执行的功率，x _ni＝1代表用户i通过信道n卸载任务到边缘服务器执行，x _ni＝0代表用户i不通过信道卸载任务到边缘服务器执行；

步骤2.2)因为信道n上用户i的信道增益h _ni大于用户j的信道增益h _nj；根据串行干扰消除技术，基站按照用户的信道增益降序解码，则用户i的卸载速率

用户j的卸载速率

其中N ₀为噪声的功率谱密度，

步骤2.3)用户i和用户j的本地执行的计算速率分别为

其中f _i和f _j为用户的CPU处理能力，

为处理1bit任务所需的周期数；用户i和用户j本地执行的计算功率分别为p _i,local＝νf _i ³、p _j,local＝νf _j ³，其中ν为用户设备芯片架构的电容有效系数；。

进一步的，步骤3优化问题描述为：

进一步的，步骤4定义深度强化学习的状态空间、动作空间的方法包括:

步骤4.1)所述状态空间s,s＝{h ₁₁,h ₁₂,...h _1K,h ₂₁,h ₂₂,...,h _2K,h _N1...h _NK}；

步骤4.2)所述动作空间a由两阶段组成，a＝{a_c,a_d},其中a_c＝{τ ₁,τ ₂,...,τ _N}为连续动作表示***带宽分配比例，a_d＝{m ₁₁,m ₁₂,...,m _1K,...,m _N1,m _N2,...,m _NK,x ₁₁,x ₁₂,...,x _1K,...,x _N1,x _N2,...,x _NK}为离散动作表示子信道分配方案；

进一步的，步骤5构建混合深度强化学习网络的方法包括：

混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络；连续层深度强化学习网络为DDPG，离散层深度强化学习网络为DQN。

进一步的，步骤6将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括：

步骤6.1)将***状态输入到混合深度强化学习网络中，由DDPG的Actor网络生成a_c带宽分配比例，由DQN网络生成a_d用户分组情况；

步骤6.2)在户分组情况、带宽分配比例确定后，将最大化***能量效率分解为最大化每个信道的能量效率Y _n；

问题转化为

其中矩阵X在每个时间步初始化为零矩阵；(x _n,i,x _n,j)有4种取值可能，分别为(0，0)、(1，0)、(0，1)、(1，1)，其中，x的取值就是确定卸载决策，0表示不将用户设备的计算任务卸载到边缘服务器执行，1表示卸载到边缘服务器执行，将4种组合分别代入上式，选择使Y _n最大的组合，重置X对应位置的值。

进一步的，步骤7训练混合深度强化学习网络方法包括：

基站在状态s下，执行动作a＝(a_c,a_d)后得到环境反馈的即时奖励

并且获取下一时隙的状态s'；

将(s,a_c,r,s')存储到DDPG经验池，样本(s,a_d,r,s')存储到DQN经验池，DDPG网络和DQN网络共享状态和奖励值；

DDPG网络和DQN网络从经验池采样D个样本训练更新自身参数。

第二方面，本发明提供一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配装置，包括以下步骤：

***描述模块：用于描述NOMA-MEC***；

效率定义模块：用于定义该***的能量效率；

问题描述模块：用于描述优化问题；

空间定义模块：用于定义深度强化学习的状态空间、深度强化学习的动作空间；

网络构建模块：用于构建混合深度强化学习网络；所述网络的输入是状态，输出是动作；

动作生成模块：用于将每一个时隙状态输入混合深度强化学习网络生成动作；

网络训练模块：用于训练混合深度强化学习网络；

输出模块：重复训练次数达到规定的时隙次数T后，输出此时生成的动作，即要优化的决策：用户分组、计算卸载、带宽分配比例。

第三方面，本发明提供一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配装置，包括处理器及存储介质；所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

1.本发明基于NOMA-MEC***，提出了一种新颖的混合深度强化学习算法，该算法能够解决同时具有离散动作空间和连续动作空间的问题，并动态实时地根据***状态决定子信道分配、计算卸载决策、带宽分配方案，以最大限度地提高***长期能量效率。解决的主要问题是算法根据时变的信道条件决定带宽分配比例、用户分组情况、任务卸载决策；

2.本发明在NOMA-MEC场景中，使用提出的方法确定用户分组情况、计算卸载决策、带宽分配比例来最大化***的计算速率与所耗功率之比。

3.本发明的方法可动态环境下做出最优决策，并且提出的混合深度强化学习方法可克服单一深度强化学习方法不能处理同时具有连续动作空间和离散动作空间类任务缺点。

附图说明

图1为本发明的***网络示意图；

图2为混合深度强化学习算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

结合图1，本实施例基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配方法。该方法包括以下步骤：

步骤1、描述NOMA-MEC***，***以时隙方式运行，时隙集合记为Γ＝{1,2,...,T}；

步骤2、定义该***的能量效率。

步骤3、描述优化问题。

步骤4、定义深度强化学习的状态空间、定义深度强化学习的动作空间。

步骤5、构建混合深度强化学习网络。

步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作。

步骤7、训练混合深度强化学习网络；

步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T，算法终止运行，输出此时的动作，根据构建的算法模型输出动作，动作就是本发明要优化的决策——用户分组、计算卸载、带宽分配比例。

具体的，步骤1描述NOMA-MEC***的方法包括：

步骤1.1)所述NOMA-MEC***由K个用户设备和一个与边缘服务器相连的单天线基站组成，并且所有用户都只有单个发射天线与基站建立通信链路。***总带宽B被分为N个正交的子信道，子信道n的带宽占总带宽的比例为τ _n，

定义

和

分别表示用户集合、正交子信道集合，K≤2N。本发明将整个过程划分为一个个时隙，Γ＝{1,2,...,T}。信道增益在一个时隙的时间段内保持不变，在不同时隙间变化，

表示信道n上用户k到基站的信道增益，并且设

功率域NOMA场景下，多个用户可同时在同一个子信道中传输信号，为了避免子信道中的用户干扰过大，本发明限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号，m _nk＝1表示信道n分配给用户k发送信号,m _nk＝0表示信道n并不分配给用户k发送信号。。

具体的，步骤2定义该***的能量效率的方法包括：

其中为了便于公式表达本发明省略了时隙t的描述。R _i,off表示用户i将计算任务卸载到边缘服务器执行的计算速率，p _i为用户i的发送功率,其不随时间变化，并且所有用户的发射功率相同。R _i,local表示用户i本地执行任务的计算速率，p _i,local表示用户i本地执行的功率，x _ni＝1代表用户i通过信道n卸载任务到边缘服务器执行，x _ni＝0代表用户i不通过信道卸载任务到边缘服务器执行。

步骤2.2)因为信道n上用户i的信道增益h _ni大于用户j的信道增益h _nj。根据串行干扰消除技术，基站按照用户的信道增益降序解码，则用户i的卸载速率

用户j的卸载速率

其中N ₀为噪声的功率谱密度。

步骤2.3)用户i和用户j的本地执行的计算速率分别为

其中f _i和f _j为用户的CPU处理能力，

为处理1bit任务所需的周期数；用户i和用户j本地执行的计算功率分别为p _i,local＝νf _i ³、p _j,local＝νf _j ³，其中ν为用户设备芯片架构的电容有效系数；

具体的，步骤3优化问题描述为

具体的，步骤4定义深度强化学习的状态空间、动作空间的方法包括:

步骤4.1)所述状态空间s,s＝{h ₁₁,h ₁₂,...h _1K,h ₂₁,h ₂₂,...,h _2K,h _N1...h _NK}。

步骤4.2)所述动作空间a由两阶段组成，a＝{a_c,a_d},其中a_c＝{τ ₁,τ ₂,...,τ _N}为连续动作表示***带宽分配比例，a_d＝{m ₁₁,m ₁₂,...,m _1K,...,m _N1,m _N2,...,m _NK,x ₁₁,x ₁₂,...,x _1K,...,x _N1,x _N2,...,x _NK}为离散动作表示子信道分配方案。

具体的，步骤5构建混合深度强化学习网络的方法包括:

步骤5.1)构建混合深度强化学习网络，混合深度强化网络由两层组成。连续层深度强化学习网络为DDPG。离散层深度强化学习网络为DQN。

步骤5.2)DDPG网络由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络组成，四个网络参数依次为θ _DDPG、θ' _DDPG、ω _DDPG和ω' _DDPG。Actor网络的作用是依据输入的状态输出动作决策，Critic网络的作用是估计Actor网络在某一状态下采取某一动作的价值——Q值，并指导下一状态的动作选择。DQN网络由DQN当前网络和DQN目标网络组成，两个网络的参数分别为ω _DQN、ω' _DQN。构建神经网络，初始化DDPG网络参数，DQN网络参数，经验池容量E _DQN、E _TD3。

具体的，步骤6将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括：

将***状态输入到混合深度强化学习网络中，由DDPG的Actor网络生成a_c带宽分配比例，由DQN网络生成a_d用户分组情况。此时根据信道分配方案即用户分组情况m _nk、带宽分配比例τ _nk，将最大化***计算效率分解为最大化每个信道的计算效率Y _n：

问题转化为

矩阵X在每个时间步初始化为零矩阵。(x _n,i,x _n,j)有4种取值可能，分别为(0，0)、(1，0)、(0，1)、(1，1)。将4种组合分别代入上式，选择使Y _n最大的组合，重置X对应位置的值。

具体的，步骤7训练混合深度强化学习网络方法包括：

基站在状态s下，执行动作a＝{a_c,a_d}后得到环境反馈的即时奖励

并且获取下一时隙的状态s'。将(s,a_c,r,s')存储到DDPG经验池，样本(s,a_d,r,s')存储到DQN经验池，DDPG网络和DQN网络共享状态和奖励值。

在混合深度强化学习网络运行过程中，需要不断训练网络，调整网络参数提高函数拟合能力，以使算法在动态变化的状态环境下始终能够输出合理的动作决策。

通过最小化神经网络的代价函数调整DQN当前网络的参数，代价函数如下：

其中D为从经验池中采取的样本量大小。

在DQN当前网络更新一些次数后，将DQN当前网络的权重复制给DQN目标网络。

DDPG网络各个参数的更新方式如式(0.2)(0.3)(0.4)(0.5)所示。Critic当前网络参数更新公式如下：

Actor当前网络权重的更新依赖于Critic当前网络的Q值，Actor当前网络朝着可以获得更大累计奖励的方向更新其网络参数，Actor当前网络参数的更新公式如下：

与DQN算法直接将DQN当前网络参数复制给DQN目标网络参数不同，DDPG使用软更新方式更新目标网络参数，软更新公式如下：

其中τ一般取0.001。

步骤8、重复步骤6和步骤7直到重复次数为时隙总次数T，从而停止算法运行。

综上所述，本发明建立了NOMA-MEC***，基于混合深度强化学习提出了一种新的子信道分配、计算卸载决策、带宽分配方案，以最大限度地提高***长期能量效率。

需要说明的是，以上所述的实施例仅是本发明的具体实施方式，但本发明的保护范围并不仅限于此。凡是基于本发明的替换、改进等，均应包括在本发明的权利要求之内。

实施例二：

本实施例提供一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配装置，包括以下步骤：

***描述模块：用于描述NOMA-MEC***；

效率定义模块：用于定义该***的能量效率；

问题描述模块：用于描述优化问题；

网络训练模块：用于训练混合深度强化学习网络；

本实施例的装置可用于实现实施例一所述的方法。

实施例三：

本实施例提供一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配方法，其特征在于，包括以下步骤：

步骤1、描述NOMA-MEC***，所述***以时隙方式运行，时隙集合记为Γ＝{1,2,...,T}；

步骤2、定义该***的能量效率；

步骤3、描述优化问题；

步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间；

步骤5、构建混合深度强化学习网络；所述网络的输入是状态，输出是动作；

步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作；

步骤7、训练混合深度强化学习网络；

步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后，输出此时生成的动作，即要优化的决策：用户分组、计算卸载、带宽分配比例。
根据权利要求1所述的用户分组和资源分配方法，其特征在于，描述NOMA-MEC***的方法包括：

所述NOMA-MEC***由K个用户设备和一个与边缘服务器相连的单天线基站组成，并且所有用户都只有单个发射天线与基站建立通信链路；所述***以时隙方式运行，时隙集合记为Γ＝{1,2,...,T}；

将***总带宽B被分为N个正交的子信道，子信道n的带宽占总带宽的比例为τ _n，
定义K＝{1,2,...,K}和N＝{1,2,...,N}分别表示用户集合、正交子信道集合，K≤2N；

将整个过程划分为一个个时隙，Γ＝{1,2,...,T}；信道增益在一个时隙的时间段内保持不变，在不同时隙间变化，h _nk,n∈N,k∈K表示信道n上用户k到基站的信道增益，并且设h _n1＜h _n2＜....＜h _nK,n∈[1,N]；

限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号；m _nk＝1表示信道n分配给用户k发送信号,m _nk＝0表示信道n并不分配给用户k发送信号。
根据权利要求2所述的用户分组和资源分配方法，其特征在于，定义该***的能量效率的方法包括：

步骤2.1)该***的能量效率Y定义为所有用户计算速率与计算功率比值的和，如以下公式：

其中，R _i,off表示用户i将计算任务卸载到边缘服务器执行的计算速率，p _i为用户i的发送功率,其不随时间变化，并且所有用户的发射功率相同；R _i,local表示用户i本地执行任务的计算速率，p _i,local表示用户i本地执行的功率，x _ni＝1代表用户i通过信道n卸载任务到边缘服务器执行，x _ni＝0代表用户i不通过信道卸载任务到边缘服务器执行；

步骤2.2)因为信道n上用户i的信道增益h _ni大于用户j的信道增益h _nj；根据串行干扰消除技术，基站按照用户的信道增益降序解码，则用户i的卸载速率
用户j的卸载速率
其中N ₀为噪声的功率谱密度；

步骤2.3)用户i和用户j的本地执行的计算速率分别为
其中f _i和f _j为用户的CPU处理能力，
为处理1bit任务所需的周期数；用户i和用户j本地执行的计算功率分别为p _i,local＝νf _i ³、p _j,local＝νf _j ³，其中ν为用户设备芯片架构的电容有效系数；
根据权利要求1所述的用户分组和资源分配方法，其特征在于，优化问题描述为：(斌给把其中删了)
根据权利要求4所述的用户分组和资源分配方法，其特征在于，定义深度强化学习的状态空间、动作空间的方法包括:

步骤4.1)所述状态空间s,s＝{h ₁₁,h ₁₂,...h _1K,h ₂₁,h ₂₂,...,h _2K,h _N1...h _NK}；

步骤4.2)所述动作空间a由两阶段组成，a＝{a_c,a_d},其中a_c＝{τ ₁,τ ₂,...,τ _N}为连续动作表示***带宽分配比例，a_d＝{m ₁₁,m ₁₂,...,m _1K,...,m _N1,m _N2,...,m _NK,x ₁₁,x ₁₂,...,x _1K,...,x _N1,x _N2,...,x _NK}为离散动作表示子信道分配方案；
根据权利要求1所述的用户分组和资源分配方法，其特征在于，构建混合深度强化学习网络的方法包括：

混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络；连续层深度强化学习网络为DDPG，离散层深度强化学习网络为DQN。
根据权利要求6所述的用户分组和资源分配方法，其特征在于，将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括：

步骤6.1)将***状态输入到混合深度强化学习网络中，由DDPG的Actor网络生成a_c带宽分配比例，由DQN网络生成a_d用户分组情况；

步骤6.2)在户分组情况m _nk、带宽分配比例τ _n确定后，将最大化***能量效率分解为最大化每个信道的能量效率Y _n；

问题转化为

其中矩阵X在每个时间步初始化为零矩阵；(x _n,i,x _n,j)有4种取值可能，分别为(0，0)、(1，0)、(0，1)、(1，1)，其中，x的取值就是确定卸载决策，0表示不将用户设备的计算任务卸载到边缘服务器执行，1表示卸载到边缘服务器执行，将4种组合分别代入上式，选择使Y _n最大的组合，重置X对应位置的值。
根据权利要求7所述的用户分组和资源分配方法，其特征在于，训练混合深度强化学习网络方法包括：

基站在状态s下，执行动作a＝{a_c,a_d}后得到环境反馈的即时奖励
并且获取下一时隙的状态s'；

将(s,a_c,r,s')存储到DDPG经验池，样本(s,a_d,r,s')存储到DQN经验池，DDPG网络和DQN网络共享状态和奖励值；

DDPG网络和DQN网络从经验池采样D个样本训练更新自身参数。
一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配装置，其特征在于，包括以下步骤：

***描述模块：用于描述NOMA-MEC***；

效率定义模块：用于定义该***的能量效率；

问题描述模块：用于描述优化问题；

空间定义模块：用于定义深度强化学习的状态空间、深度强化学习的动作空间；

网络构建模块：用于构建混合深度强化学习网络；所述网络的输入是状态，输出是动作；

动作生成模块：用于将每一个时隙状态输入混合深度强化学习网络生成动作；

网络训练模块：用于训练混合深度强化学习网络；

输出模块：重复训练次数达到规定的时隙次数T后，输出此时生成的动作，即要优化的决策：用户分组、计算卸载、带宽分配比例。
一种基于混合深度强化学习的NOMA-MEC***中的用户分组和资源分配装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行权利要求1-8任一项所述方法的步骤。