CN114339891A

CN114339891A - 一种基于q学习的边缘卸载资源分配方法及***

Info

Publication number: CN114339891A
Application number: CN202111422264.2A
Authority: CN
Inventors: 朱琦; 栗志; 王致远
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-04-12

Abstract

本发明公开了一种基于Q学习的边缘卸载资源分配方法，所述方法包括：获取MEC***当前环境的参数以及***中的用户参数；采用预设的分配方法计算得到使得用户移动设备整体能耗最小时的最优资源分配策略，作为最优的资源分配方案；预设的分配方法包括：初始化卸载策略集合Π、状态空间S和动作空间A；以保证用户计算任务完成时间为条件，以用户移动设备整体能耗最小为目标，对预先构建的Q函数进行迭代优化，得到与用户完成计算任务时间同步的状态空间及其对应的最优动作；根据状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略。本发明能够在保证用户计算任务完成时间的基础上，最小化用户移动设备整体能耗。

Description

一种基于Q学习的边缘卸载资源分配方法及***

技术领域

本发明涉及一种基于Q学习的边缘卸载资源分配方法及***，属于通信技术领域。

背景技术

近些年来，随着智能设备(SMD，Smart Mobile Device)的迅猛发展，无数新的应用程序如人脸识别、增强现实和视频流等也不断涌现，尤其伴随着5G的出现和智能设备的扩散将会导致流量需求***式的增长。事实上，思科预计2021年，全球移动设备数量将回到到115亿部，然而，由于现有的基站和移动设备的处理能力有限，会对移动流量的增长产生瓶颈，除此之外，移动设备的能耗问题也是限制数据传输和处理速度的原因之一，研究表明，近些年来的智能设备，电池容量仅仅提升了29％，这种缓慢的增长速度远远跟不上日常增长的计算任务对能耗的需求。

为了解决这种问题，边缘计算技术受到广泛关注，其和远程云(MCC，Mobile CloudComputing)最大的区别是，边缘云更靠近用户，因此用户不会消耗较多的能量在传输计算任务上，这一举动使得用户可以用更少的能耗将大量的计算任务卸载到边缘云服务器上处理，从而减少本地能耗。近年来，学术界和工业界已经开展了关于MEC卸载问题的研究。然而如何对边缘卸载资源进行分配，目前尚未有一个统一的方法可以实现，是边缘云面临的难题。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于Q学习的边缘卸载资源分配方法及***，能够在保证用户计算任务完成时间的基础上，最小化用户移动设备整体能耗。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于Q学习的边缘卸载资源分配方法，所述方法包括如下步骤：

获取MEC***当前环境的参数以及***中的用户参数；

基于获取到的参数，采用预设的分配方法计算得到使得用户移动设备整体能耗最小时的最优资源分配策略，将其作为最优的资源分配方案；

其中，采用预设的分配方法计算得到使得用户移动设备整体能耗最小的资源分配策略包括：

根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的卸载策略集合Π、状态空间S和动作空间A；

以保证用户计算任务完成时间为条件，以用户移动设备整体能耗最小为目标，对预先构建的Q函数进行迭代优化，得到与用户完成计算任务时间同步的状态空间及其对应的最优动作；

根据得到的状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略。

结合第一方面，进一步地，所述根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的状态空间S，包括：

每个CPU的状态为s＝(i,e,ch,m)，其中，i表示当前待卸载的子任务，满足i∈V，V表示当前卸载子任务的集合；e表示待卸载子任务计算量大小，满足e∈ε，ε表示卸载子任务的计算量大小的集合；ch表示用户移动设备选择所处信道，满足ch∈Ch，Ch表示移动设备所处信道的集合；m表示当前任务由本地处理-CPU₀，当前任务由MEC***处理-CPU_m，满足m∈{0,...M}，M表示总的任务个数；状态空间S为全部CPU的状态的集合，表示为S＝{s＝(i,e,ch,m)}。

结合第一方面，进一步地，所述根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的动作空间A，包括：

每个当前待卸载的子任务i∈V在状态s∈S下采取的动作为a_i,s∈{0,...,M}，选择当前任务由本地处理-CPU₀或由MEC***处理-CPU_m，则动作空间A为全部动作的集合，表示为A＝{a_i,s∈{0,...,M}}。

结合第一方面，进一步地，所述预先构建的Q函数，通过下式表示：

式(1)中，Rw(s,a)表示每一状态动作下的奖励函数，δ表示每一轮迭代的衰减因子。

结合第一方面，进一步地，所述对预先构建的Q函数进行迭代优化，通过下式表示：

Q(i,a)＝(1-p^k)Q(i,a)+p^k[C(i,a,j)-C^kt(i,a,j)+ηmin_b∈A(j)Q(j,b)] (2)

式(2)中，i表示当前待卸载的子任务；j表示完成子任务i后下一个待卸载的子任务；t表示从当前待卸载的子任务i到下一个待卸载的子任务j的传输时间；a和b表示子任务不同状态下采取的动作；p^k为Q学习的学习速率，若p^k的值等于0，则Q学习算法退化为贪心策略；

式(2)中，C^k表示平均开销，通过下式表示：

式(3)中，r^k表示加权因子，total_cost表示全部任务所需要的总能耗，total_time表示整体任务完成时间，通过下式表示：

total_cost＝total_cost+C(i,a,j) (4)

total_time＝total_time+t(i,a,j) (5)

用户移动设备整体能耗包括卸载开销、本地开销通过下式表示：

式(2)中，C₀(S,a_i,s)表示卸载开销，C_l(S,a_i,s)表示本地执行开销，其中S表示***状态，a_i,s表示当前状态下采取的动作。

结合第一方面，优选地，所述以用户移动设备整体能耗最小为目标，是在保证用户计算任务完成时间的基础上最小化用户计算设备能耗，能够得到预先构建的Q函数，包括：

初始化Q学***均开销为C^k，初始值C¹设置为0，初始状态为i，在状态i时的一系列可选动作为A(i)，学习速率p^k和τ^k通过下式表示：

规定Q学习中的学习速率p^k和τ^k是关于迭代次数k的函数，且小于1；

在第k次迭代时，选择最优的动作使用户移动设备整体能耗最小，使每个状态能够选择在当前状态能耗最小的状态，该选择为贪婪选择，设定每次进行贪婪选择的功率为1-p(k)，p(k)通过下式表示：

式(9)中，G₁、G₂表示为经验选择概率的可变参数，且G₂≥表示G₁；

非贪婪选择的动作为经验选择，经验选择的概率会随着迭代次数k的增长而衰减，令a为每一次的动作选择，如果选择的是贪心策略，则令

否则

令j表示状态i做出动作选择后的后续状态，C(i,a,j)表示从状态i到状态j数据传输开销，t(i,a,j)表示从状态i到状态j数据传输时间，得到预先构建的Q函数。

结合第一方面，进一步地，根据得到的状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略，通过下式计算：

式(7)中，Rw(s,a)表示每一状态动作下的奖励函数，δ表示每一轮迭代的衰减因子。

第二方面，本发明提供了一种基于Q学习的边缘卸载资源分配***，包括：

获取模块：用于获取MEC***当前环境的参数以及***中的用户参数；

优化计算模块：用于基于获取到的参数，采用预设的分配方法计算得到使得用户移动设备整体能耗最小时的最优资源分配策略，将其作为最优的资源分配方案；

其中，优化计算模块包括：

初始化模块：用于根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的卸载策略集合Π、状态空间S和动作空间A；

第一计算模块：用于以保证用户计算任务完成时间为条件，以用户移动设备整体能耗最小为目标，对预先构建的Q函数进行迭代优化得到与用户完成计算任务时间同步的状态空间及其对应的最优动作；

第二计算模块：用于根据得到的状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略。

第三方面，本发明提供了一种基于Q学习的边缘卸载资源分配装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比，本发明实施例所提供的一种基于Q学习的边缘卸载资源分配方法及***所达到的有益效果包括：

本发明采用预设的分配方法计算得到使得用户移动设备整体能耗最小的资源分配策略包括：根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的卸载策略集合Π、状态空间S和动作空间A；以保证用户计算任务完成时间为条件，以用户移动设备整体能耗最小为目标，对预先构建的Q函数进行迭代优化，得到与用户完成计算任务时间同步的状态空间及其对应的最优动作；根据得到的状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略；本发明提供的分配方法有更小的复杂度和更快的收敛速度；

本发明获取MEC***当前环境的参数以及***中的用户参数；基于获取到的参数，采用预设的分配方法计算得到使得用户移动设备整体能耗最小时的最优资源分配策略，将其作为最优的资源分配方案；本发明能够降低时延，提升用户体验；本发明能够降低能耗能耗，提升了资源利用效率；本发明能够在保证用户计算任务完成时间的基础上，最小化用户移动设备整体能耗。

附图说明

图1是本发明实施例一提供的一种基于Q学习的边缘卸载资源分配方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明实施例提供了一种基于Q学习的边缘卸载资源分配方法，包括：

获取MEC***当前环境的参数以及***中的用户参数；

采用预设的分配方法计算得到使得用户移动设备整体能耗最小的资源分配策略，具体步骤如下：

步骤1：根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的卸载策略集合Π、状态空间S和动作空间A。

步骤1.1：初始化状态空间S。

步骤1.2：初始化动作空间A。

步骤2：以保证用户计算任务完成时间为条件，以用户移动设备整体能耗最小为目标，对预先构建的Q函数进行迭代优化，得到与用户完成计算任务时间同步的状态空间及其对应的最优动作。

步骤2.1：初始化Q学***均开销为C^k，初始值C¹设置为0，初始状态为i，在状态i时的一系列可选动作为A(i)，学习速率p^k和τ^k通过下式表示：

规定Q学习中的学习速率p^k和τ^k是关于迭代次数k的函数，且小于1。

步骤2.2：在第k次迭代时，选择最优的动作使用户移动设备整体能耗最小，使每个状态能够选择在当前状态能耗最小的状态，该选择为贪婪选择，设定每次进行贪婪选择的功率为1-p(k)，p(k)通过下式表示：

式(3)中，G₁、G₂表示为经验选择概率的可变参数，且G₂≥表示G₁。

步骤2.3：非贪婪选择的动作为经验选择，经验选择的概率会随着迭代次数k的增长而衰减，令a为每一次的动作选择，如果选择的是贪心策略，则令

否则

令j表示状态i做出动作选择后的后续状态，C(i,a,j)表示从状态i到状态j数据传输开销，t(i,a,j)表示从状态i到状态j数据传输时间，得到预先构建的Q函数，通过下式表示：

式(4)中，Rw(s,a)表示每一状态动作下的奖励函数，δ表示每一轮迭代的衰减因子。

步骤2.4：对预先构建的Q函数进行迭代优化，通过下式表示：

Q(i,a)＝(1-p^k)Q(i,a)+p^k[C(i,a,j)-C^kt(i,a,j)+ηmin_b∈A(j)Q(j,b)] (5)

式(5)中，i表示当前待卸载的子任务；j表示完成子任务i后下一个待卸载的子任务；t表示从当前待卸载的子任务i到下一个待卸载的子任务j的传输时间；a和b表示子任务不同状态下采取的动作；p^k为Q学习的学习速率，若p^k的值等于0，则Q学习算法退化为贪心策略。

式(5)中，C^k表示平均开销，通过下式表示：

式(6)中，r^k表示加权因子，total_cost表示全部任务所需要的总能耗，total_time表示整体任务完成时间，通过下式表示：

total_cost＝total_cost+C(i,a,j) (7)

total_time＝total_time+t(i,a,j) (8)

式(5)中，C₀(S,a_i,s)表示卸载开销，C_l(S,a_i,s)表示本地执行开销，其中S表示***状态，a_i,s表示当前状态下采取的动作。

步骤3：根据得到的状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略，通过下式计算：

式(10)中，Rw(s,a)表示每一状态动作下的奖励函数，δ表示每一轮迭代的衰减因子。

为了求解式(10)，本方法首先初始化用户卸载策略集合和动作空间，由于强化学习算法对初始值要求不高，因此策略集合可先全设为0的集合，之后获取所有任务的子任务节点、当前动作以及信道状态和子任务数据量大小并获取每个子任务在当前所处的MEC的CPU剩余计算能力大小，然后在每个动作可选状态集合中选一个状态算出计算任务的完成时间和所需能耗并根据式(10)计算Q值，直到学习至收敛。

本发明能够在保证用户计算任务完成时间的基础上，最小化用户移动设备整体能耗。

实施例二：

本发明实施例提供本发明提供了一种基于Q学习的边缘卸载资源分配***，包括：

其中，优化计算模块包括：

实施例三：

本发明实施例提供本发明提供了一种基于Q学习的边缘卸载资源分配装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例四：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Q学习的边缘卸载资源分配方法，其特征在于，包括：

获取MEC***当前环境的参数以及***中的用户参数；

2.根据权利要求1所述的基于Q学习的边缘卸载资源分配方法，其特征在于，所述根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的状态空间S，包括：

3.根据权利要求2所述的基于Q学习的边缘卸载资源分配方法，其特征在于，所述根据获取到的参数初始化Q学习算法的任务卸载和资源分配联合优化任务的动作空间A，包括：

4.根据权利要求3所述的基于Q学习的边缘卸载资源分配方法，其特征在于，所述预先构建的Q函数，通过下式表示：

5.根据权利要求4所述的基于Q学习的边缘卸载资源分配方法，其特征在于，所述对预先构建的Q函数进行迭代优化，通过下式表示：

Q(i,a)＝(1-p^k)Q(i,a)+p^k[C(i,a,j)-C^kt(i,a,j)+ηmin_b∈A(j)Q(j,b)] (2)

式(2)中，C^k表示平均开销，通过下式表示：

total_cost＝total_cost+C(i,a,j) (4)

total_time＝total_time+t(i,a,j) (5)

6.根据权利要求5所述的基于Q学习的边缘卸载资源分配方法，其特征在于，根据得到的状态空间及其对应的最优动作计算得到用户移动设备整体能耗最小时的最优资源分配策略，通过下式计算：

7.一种基于Q学习的边缘卸载资源分配***，其特征在于，包括：

其中，优化计算模块包括：

8.一种基于Q学习的边缘卸载资源分配装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行权利要求1～6任一项所述方法的步骤。

9.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～6任一项所述方法的步骤。