CN111405569A

CN111405569A - 基于深度强化学习的计算卸载和资源分配方法及装置

Info

Publication number: CN111405569A
Application number: CN202010197729.8A
Authority: CN
Inventors: 周欢; 江恺; 冯阳
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-10

Abstract

本发明提供一种基于深度强化学习的计算卸载和资源分配方法及装置，所述方法包括：基于UE的计算任务参数、UE的性能参数、UE与AP之间的信道参数和移动边缘计算MEC服务器的总计算资源，构建优化问题模型；基于深度强化学习确定优化问题模型的最优解，确定UE的卸载决策，分别给UE所分配的计算资源的百分比数和频谱资源的百分比数。本发明提供的基于深度强化学习的计算卸载和资源分配方法及装置，同时考虑到时变的MEC***中实际的计算卸载和资源分配特性，任务的时延阈值与***有限的资源容量约束，基于深度强化学习，利用DNN来有效地逼近强化学习中的值函数，以确定计算卸载和资源分配的联合最优方案，进一步降低了UE的能耗。

Description

基于深度强化学习的计算卸载和资源分配方法及装置

技术领域

本发明涉及移动通信技术领域，尤其涉及一种基于深度强化学习的计算卸载和资源分配方法及装置。

背景技术

为了缓解应用需求与资源受限的用户设备(User Equipment,UE)之间日益严重的冲突，考虑到移动云计算(Mobile Cloud Computing,MCC)中所部署的云服务器的计算能力和存储能力都明显高于UE，这促使MCC作为一种有效的解决方案应运而生。但是，MCC技术不可避免地面临着部署的云服务器距离用户设备距离较远的问题，这可能导致用户设备向云服务器传输数据时产生额外的传输能量开销。此外，远距离传输也无法保证时延敏感型应用的服务质量(Quality of Service,QoS)。

现有技术中，提出了移动边缘计算(Mobile Edge Computing,MEC)技术，将部分网络功能引入到网络边缘来执行。MEC是新兴的5G架构中处理计算密集型任务的重要组成部分，与MCC相比，它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。MEC支持用户设备通过利用基站(BS)或接入点(AP)将工作负载卸载到临近的MEC服务器，此举可提高移动应用程序的QoS，并显著降低任务的执行延迟和功耗。

现有方案只关注准静态***的性能，并且，忽略了不同的资源需求和有限的资源容量对MEC***性能的影响，实际的网络应用中，依然存在UE能耗过大的技术问题。

发明内容

本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法及装置，用于解决现有技术中的上述技术问题。

为了解决上述技术问题，一方面，本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法，包括：

基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源，构建优化问题模型；

基于深度强化学习确定所述优化问题模型的最优解，所述最优解包括UE的卸载决策，MEC服务器给UE所分配的计算资源占其总计算资源的百分比数，AP给UE所分配的频谱资源占其总频谱资源的百分比数。

进一步地，所述计算任务参数包括完成计算任务所需的计算资源量、计算任务的数据大小和执行计算任务的最大可容忍时延。

进一步地，所述性能参数包括本地执行计算任务时CPU每一轮数所消耗的能量、上传数据时的传输功率和待机状态下的功耗。

进一步地，所述信道参数包括可利用的频谱的信道带宽、无线传输信道的信道增益和信道内部的高斯白噪声的功率。

进一步地，所述优化问题模型的目标为：最小化***中所有UE的长期能耗。

6、根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述优化问题模型的约束条件为：

a、UE的卸载决策仅能选择本地执行或边缘执行来处理其计算任务；

b、本地或卸载计算的执行时间均不能超过某一计算任务的最大可容忍时延；

c、分配给所有UE的计算资源的总和不能超过MEC服务器所能提供的总计算资源；

d、分配给任一UE的计算资源不能超过MEC服务器所能提供的总计算资源；

e、分配给所有UE的频谱资源的总和不能超过AP所能提供的总频谱资源；

f、分配给任一UE的频谱资源不能超过AP所能提供的总频谱资源。

进一步地，所述基于深度强化学习确定所述优化问题模型的最优解，具体包括：

根据所述优化问题模型，确定状态空间、动作空间和回报函数；

构建马尔科夫决策问题；

基于深度强化学习计算所述马尔科夫决策问题，利用深度神经网络DNN来估计出动作价值函数值，确定所述优化问题模型的最优解。

另一方面，本发明实施例提供一种基于深度强化学习的计算卸载和资源分配装置，包括：

构建模块，用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源，构建优化问题模型；

确定模块，用于基于深度强化学习确定所述优化问题模型的最优解，所述最优解包括UE的卸载决策，MEC服务器给UE所分配的计算资源占其总计算资源的百分比数，AP给UE所分配的频谱资源占其总频谱资源的百分比数。

再一方面，本发明实施例提供一种电子设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述第一方面提供的方法的步骤。

又一方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述第一方面提供的方法的步骤。

本发明实施例提供的基于深度强化学习的计算卸载和资源分配方法及装置，同时考虑到时变的MEC***中实际的计算卸载和资源分配特性，任务的时延阈值与***有限的资源容量约束，基于深度强化学习，利用DNN来有效地逼近强化学习中的值函数，确定计算卸载和资源分配的联合最优方案，进一步降低了UE的能耗。

附图说明

图1为本发明实施例提供的基于深度强化学习的计算卸载和资源分配方法示意图；

图2为本发明实施例提供的多用户移动边缘网络模型的场景示意图；

图3为本发明实施例提供的基于深度强化学习的收敛性分析图；

图4为本发明实施例提供的不同的UE数量下所有用户的能量消耗示意图；

图5为本发明实施例提供的在不同的MEC服务器计算资源总量下所有用户的能量消耗示意图；

图6为本发明实施例提供的基于深度强化学习的计算卸载和资源分配装置示意图；

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着5G网络中许多新兴的无线服务的出现，移动应用，尤其是越来越多的计算密集型任务，如在线互动游戏、人脸识别和增强/虚拟现实(AR/VR)等，导致了数据流量前所未有的***性增长。一般来说，这些新兴的应用程序对服务质量(QoS)和延迟敏感性都有很高的要求，这导致了这类应用比传统应用程序消耗更多的能耗。然而，考虑到用户设备(UserEquipments,UE)的物理尺寸大小和生产成本约束，目前的UE在计算、资源、能源等方面都存在着一定的局限性，这可能会成为处理大规模的应用或提供持久的能源供应等挑战时所面临的新瓶颈。

为了缓解应用需求与资源受限的UE之间日益严重的冲突，考虑到移动云计算(Mobile Cloud Computing,MCC)中所部署的云服务器的计算能力和存储能力都明显高于UE，这促使MCC作为一种有效的解决方案应运而生。MCC技术可以方便地访问集中式“云”中的共享资源池，通过将工作负载从UE卸载到云服务器，从而为UE提供存储、计算和能源资源。然而，MCC技术不可避免地面临着部署的云服务器距离用户设备距离较远的问题，这可能导致用户设备向云服务器传输数据时产生额外的传输能量开销。此外，远距离传输也无法保证时延敏感型应用的QoS。

因此，一些学者提出了移动边缘计算(Mobile Edge Computing,MEC)技术，将部分网络功能引入到网络边缘来执行。MEC是新兴的5G架构中处理计算密集型任务的重要组成部分，与MCC相比，它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。具体来说，MEC支持用户设备通过利用基站(BS)或接入点(AP)将工作负载卸载到临近的MEC服务器，此举可提高移动应用程序的QoS，并显著降低任务的执行延迟和功耗。

考虑到时变的MEC***中实际的计算卸载和资源分配特性，强化学习一直被认为是获得最优计算策略的适合方法。具体来说，在没有任何关于***环境的先验信息的情况下，智能体可以通过观测环境来学习其未来回报的反馈值，从而实现最佳长期目标的策略。这一特点使强化学习用于设计动态***中卸载决策和资源分配方案时具有极佳的潜力。但是实际的网络应用中，以往的研究大多只关注准静态***的性能，很少考虑到***在时域中的时延敏感特性和时变条件，也常常忽略了不同的资源需求和有限的资源容量对MEC***性能的影响。另外，在此类复杂的动态的计算卸载场景中，强化学习中的状态空间和动作空间可能会随着UEs数量的增加呈指数级增长，从而导致传统的强化学习方法由于维数灾难或内存限制而无法维持Q表，并且在如此巨大的表格中搜索对应的值也会花费大量的时延。

为了解决这些问题，需要考虑和解决异构的计算任务的延迟阈值以及不同任务中不确定的动态的资源需求，同时需要考虑利用深度神经网络(DNN)来替代Q表。因此，本专利致力于研究MEC中任务执行的卸载决策和资源分配的联合优化问题，从能耗的角度将相应问题建模为非线性整数问题，旨在最小化所有UEs的总能量消耗，并同时考虑了优化问题中不同计算任务的时延约束与资源需求。具体地，为解决所规划的能耗最小化问题，首先定义了状态空间、动作空间和奖励函数，并引入了马尔可夫决策过程。在此基础上，提出了一种基于深度强化学习(DRL)的方法，利用DNN来有效地逼近强化学习中的值函数，以确定计算卸载和资源分配的联合最优方案。

图1为本发明实施例提供的基于深度强化学习的计算卸载和资源分配方法示意图，如图1所示，本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法，其执行主体为基于深度强化学习的计算卸载和资源分配装置。该方法包括：

步骤S101、基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源，构建优化问题模型。

具体来说，图2为本发明实施例提供的多用户移动边缘网络模型的场景示意图，如图2所示，在移动边缘计算网络中，考虑一个单小区场景，该场景中包含了一个接入点(AP)和n个用户，其中，用户数可用集合I＝{1,2,…,n}来表示。为了给UE提供MEC服务，在AP上部署了一组MEC服务器以进行计算卸载，小区内的多个UE可以通过无线链路将自己的工作负载卸载到MEC服务器以协助计算。假设***在固定长度的时间片t＝{0，1,2,…,T}内运行，且在任意时间片t内每个UE都有一个计算密集型任务需要进行处理。与此同时，所有到达的计算任务都被认为是原子性的，即不能分割成多个部分以进行处理，这意味着UE的计算任务无法在不同的设备上执行，它们只能依靠UE自身的计算资源在本地设备上执行，或者通过无线链路卸载到AP上的MEC服务器中执行计算。当不同设备上的多个任务同时需要进行卸载时，MEC服务器运营商需根据时变的***条件、任务的异构性以及不同情况下所有UE的能量开销情况来决定如何将频谱资源和计算资源最优地分配给每个UE。

在不失一般性的前提下，本发明实施例采用一种广泛使用的任务模型来描述UE上所到达的任务。对于每一时间片内UE_i上对应的任意计算任务，它可以由三个参数来进行定义：

其中，s_i表示计算任务H_i的数据大小，c_i表示完成计算任务H_i时所需的计算资源量。变量c_i和s_i在每一时间片内都是独立且同分布的，它们之间可能存在一个无需了解的任意概率分布。

表示执行任务H_i的最大可容忍时延，这意味着无论任务是选择在本地设备上执行还是通过计算卸载，任意UE上任务的执行时间都不应超过时延阈值

此外，假设在计算卸载期间，UE始终处于AP的通信覆盖范围内。本发明实施例专注于在本地设备上执行任务或将任务卸载到部署于AP上的MEC服务以协助执行的情况，没有进一步地考虑将任务卸载到远程云端或其他宏基站。用整型变量

来表示某一时间片t内UE_i的卸载决策，其中，x_i＝0表示任务H_i直接在本地设备UE_i的CPU上执行计算，x_i＝1表示UE_i决定将其计算任务卸载到MEC服务器以执行计算。因此，可以将整个MEC***中所有用户的卸载决策向量定义为η，η＝{x₁,x₂,x₃,...,x_n}。

1)通信模型：当计算任务在有限的约束条件下难以在本地设备上执行时，UE可以通过无线链路将计算任务卸载给部署于AP上的MEC服务器。假设UE在与AP间进行通信时采用正交频分技术，并且忽略了MEC服务器和AP间的通信开销。同时，由于此时蜂窝小区内只有一个AP，且不考虑相邻小区间的重叠覆盖问题，因此用户间的通信干扰也可以被忽略掉。现在假设有多个UE同时上传其计算任务给AP时，MEC***可以通过使用动态频谱接入来根据UE的实时需求分配带宽。将θ_i∈[0，1]定义为AP给单个用户UE_i所分配的频谱资源占总资源的百分比数，因此，当用户UE_i卸载计算任务给AP时，UE_i与AP之间的信道上传速率R_i可表示如下：

其中，W表示UE_i与AP间可利用的频谱的信道带宽，p_i为上传数据时UE_i的传输功率，g_i是UE_i与AP之间无线传输信道的信道增益，σ是信道内部复杂的高斯白噪声的功率。

2)计算模型：计算任务H_i既可以依靠UE_i自身的计算资源选择在本地执行，也可以通过计算卸载在MEC服务器上执行。下面介绍这两种计算模型：

本地执行模型：对于x_i＝0时，任务H_i将由UE_i进行本地计算处理。分别用

和

来表示用户UE_i的本地计算能力(CPU轮数/秒)和本地执行计算任务时CPU每一轮数所消耗的能量。因此，在这种情况下，计算任务H_i的所需的计算处理时间为：

并且，此时UE_i相应的能量消耗可由下式计算得出：

其中，

这一取值取决于实际的CPU芯片架构。

移动边缘执行模型：对于x_i＝1时，UE_i选择将计算任务H_i卸载到与AP相连的MEC服务器上执行，MEC服务器处理完计算任务后会将其计算结果返回给UE。此处需要注意的是，由于返回结果的数据量很小，且大多数情况下从AP到UE的下行传输速率较高，因此可以忽略返回结果时花费的传输时间和能量消耗。综上，任务H_i的总处理时间主要包含两个部分，第一部分是通过无线链路将任务H_i从UE传输到MEC服务器消耗的时间，第二部分则是任务H_i在MEC服务器上的执行计算所消耗的时间。

其中，将任务H_i从UE_i传输到MEC服务器所花费的时间与计算输入的数据大小s_i以及UE_i的上行传输速率直接相关，因此有：

相应地，将任务H_i从UE_i传输到MEC服务器所花费的传输能耗可以计算为：

其中，p_i为UE_i与AP之间的传输功率。

将β_i∈[0，1]定义为MEC服务器给单个UE_i所分配的计算资源占MEC服务器总资源的百分比数，同时定义f_mec为MEC服务器所拥有的计算资源总数，因此，β_if_mec则代表任意时间片内MEC服务器分配给UE_i的计算资源数。当较高比例的计算资源量分配给某一UE时，其上任务的执行时间会变短，但这一过程所消耗的能量也可能会相应增加。与此同时，变量β_i必须满足总资源分配的约束

因此，MEC服务器来处理任务H_i所花费的时间可以由下式得出：

当MEC服务器为UE_i执行计算任务时，UE_i此时应等待任务执行完成后的返回结果。在此期间，假设UE_i处于待机模式，并定义该待机状态下UE_i的功耗为

因此，可以得出UE_i处于此状态下相应的能量消耗为：

因此，结合上述计算过程，计算卸载过程中，UE_i上任务的总执行时间和相应能量消耗都由通信过程和计算过程两部分组成，其分别表示如下：

3)能量消耗模型：在MEC***中，UE_i必须要选择一种计算模式以执行计算任务H_i，因此对于某一时间片中任意UE_i来说，其执行时延可表示为：

同样地，在某一时间片内，单个UE_i为了完成所到达的计算任务H_i消耗的能量可表示为：

最终，可以得出此MEC***中所有UE的总能量消耗，其表达式为：

本发明实施例所提出的MEC***中有关计算卸载和资源分配的联合优化问题，其目标是最小化所有UE的长期能量消耗。考虑到任务的最大可容忍时延约束，则相应的约束性优化问题可规划如下：

上述公式中约束条件的含义如下：

约束(14)表示任意UE仅能选择本地执行模型或边缘执行模型来处理其计算任务。

约束(15)保证本地或卸载计算模型的执行时间均不能超过任务的最大可容忍时延。

约束(16)表示分配给所有UE的计算资源不能超过MEC服务器所能提供的计算资源总量。

约束(17)保证分配给单个UE_i的计算资源须小于MEC服务器所能提供的计算资源总量。

约束(18)保证所有UE使用的频谱资源应小于AP的总可用频谱资源。

约束(19)保证单个用户UE_i所使用的频谱资源不能超过AP的总可用频谱资源。

步骤S102、基于深度强化学习确定所述优化问题模型的最优解，所述最优解包括UE的卸载决策，MEC服务器给UE所分配的计算资源占其总计算资源的百分比数，AP给UE所分配的频谱资源占其总频谱资源的百分比数。

具体来说，要解决上述的优化问题，就必须得到卸载决策变量{x_i|i∈I}，计算资源分配变量{β_i|i∈I}和通信资源分配变量{θ_i|i∈I}的最优取值，这些变量的取值可以用于在给定的延迟约束下最小化总的计算能量消耗。然而，卸载决策变量x_i是二进制变量，与此同时通信资源分配变量β_i以及计算资源分配变量θ_i都是动态变化的，所以***需要收集大量的网络状态信息，并根据网络的当前状态对每个UE执行全局性的卸载选择和资源分配决策。此时目标函数是一个混合整数非线性规划问题(MINLP)，该问题的可行解集是非凸的，并且该方法的复杂度总是随UE数目的增加而呈现指数级增长。为了解决这一NP-hard问题，本发明实施例提出了一种基于强化学习的方法以此来代替传统的优化方法。

首先定义了强化学习中的状态空间、动作空间和回报函数，并为所要提出的解决方案建立了一个马尔科夫决策过程。然后，提出了一种基于深度强化学习的方法来解决上述优化问题，并降低计算复杂度。

1)状态空间，动作空间和回报函数的定义：

在基于强化学习的方法中需要去确定了三个关键要素：状态、动作和回报，在本问题背景下它们可定义为：

状态空间：在某一时间片t内，可利用的计算资源以及可利用的频谱资源都是由***状态

和

的实现所确定的，其中前者为当前MEC服务器中空闲的计算资源的百分比，后者为当前无线信道中可用的频谱资源的百分比，观察它们的作用是为了保持计算资源容量和通信信道资源容量的约束。此外，还需要观察每个时间片内所有用户的能量消耗情况E(t)，以比较是否达到了最优状态。因此，在某一时间片t内的状态向量可表示为：

动作空间：在本发明实施例提出的MEC***中，MEC服务器需要去确定计算任务的卸载策略，以选择局部执行或边缘执行模式。此外，还需确定在某一时间片t内分配给UE_i的通信和计算资源的所占的相应的百分比。因此，在某一时间片t内，动作向量应包含三部分：分别为UE的卸载决策向量η＝{x₁，x₂,...，x_n}，计算资源分配向量{β₁，β₂，...，β_i}和通信资源分配向量{θ₁，θ₂，...,θ_i}，因此，当前的动作向量可由这三部分中一些可能的取值结合而成，具体可表示为：d_i(t)＝{x₁,x₂，...,x_n,θ₁,θ₂,...，θ_i，β₁，β₂，...,β_i}。

回报函数：一般来说，即时的网络回报函数都应与目标函数有关。本发明实施例的优化目标是获得所有用户最小的总能量消耗，而强化学习的目标是去达到最大的回报。因此，回报值需要与总能量消耗值转化为负相关。现在某一时间片t内，当状态

下执行某一动作d_i(t)后，智能体获得的即时回报可表示为

为了使所有用户的能量消耗最小化，统一将即时回报定义为

其中

给出了当前状态下实际的总能量消耗。

2)马尔科夫决策过程：

马尔科夫决策过程是强化学习的基础。一般来说，在强化学习中几乎所有的规划问题都可以用MDP来描述。本发明实施例将计算卸载优化问题近似为一个MDP，其中智能体通过离散时间步长内与未知环境的反复迭代交互来不断学习和作出决策。具体来说，在每一时间步长内智能体观察到环境的当前状态为

然后根据策略π选择并执行一个可容许的动作

策略π被认为是从当前状态到相应动作的一个映射，某一特定的策略π可以在不同的当前状态

下引导出决策动作

在此之后，智能体将获得一个即时回报

同时***将转移到下一新状态。

出于长期考虑，智能体处于状态

下执行策略π时的状态价值函数

由期望的长期折扣回报值和某一折扣因子所决定，这一状态价值函数可以用来评估在当前状态下执行策略π时所产生的长期影响(度量某一状态或某一可用的状态-动作对的价值)。因此，在任何初始状态

下的状态价值函数都可以被定义为如下形式：

其中

表示其期望，

是折扣因子，用来表明未来回报相对于当前回报的重要性。

现在用

来表示在任意当前状态

下执行某一动作d_t后的下一新状态，并且从状态

到状态

的转移概率为

当将***环境规划为一个MDP时，状态价值函数

可以由贝尔曼方程(Bellman Equation)转化为时间差分形式。具体如下：

通过以上过程可知，强化学习智能体的目的是在当前状态

下，作出能使期望的长期折扣回报最大化的最优控制策略

因此，在最优策略π^*下本发明实施例中的优化问题可以转化为递归的最优状态价值函数

具体如下：

s.t.constraints in(C1)-(C6)

则在策略

下，对于状态

的最优动作决策

可表示为：

3)基于深度强化学习的解决方法：

传统强化学习方法可以估计出每个时间步长内状态-所允许的动作对的最优动作值

并将其存储或更新在Q表中。针对网络模型的动态环境，传统的强化学习会算法试图使智能体在每个时间步长内特定的上下环境中分别自动学习最优行为决策。其算法可以直接逼近任意状态-动作对的最优Q值，而不是对MDP中的动态信息进行建模，然后在每次迭代后都会在维护好的二维Q表中更新Q值。最后，可以通过选择每个状态下使Q值最大的动作来得出相应的策略。此处将状态

下某一可采取的动作d_t的Q值定义为状态-动作Q函数，则在执行某一动作d_t后期望的累积回报为：

此时很容易可得出最优状态价值函数

与状态-动作Q函数之间的关系为：

结合公式(24)和公式(25)，可以把公式(24)重新写作如下形式：

在传统的强化学习方法中，虽然智能体可以通过在一张Q表中连续不断地记录和更新Q值来获得最优策略，但是由于在实际的动态计算卸载场景中可能的动作-状态空间会非常大，因此传统强化学习方法很容易被困入维度灾难的麻烦中。另一方面，如果用某一表格来记录每一状态-动作对所对应的Q值，那么在这么大的表格中搜索某对应的值也会花费大量的时间，并且内存可能并不足以维护这个表格。为了进一步地避免传统强化学习方法上的瓶颈，本发明采用基于深度强化学习的方法来解决所提出的马尔科夫决策问题，利用深度神经网络(DNN)来估计出动作价值函数值。基于DRL的方法可以成功地利用更新后的深度神经网参数θ来近似的得出最优Q值。

在DRL中Q值可表示如下：

其中θ是主神经网络的权重。此时还存在着另一个目标神经网络，将在下文介绍。

与传统的强化学习方法不同的是，基于DRL的方法中利用了一个经验回放池的机制。在任意时间片t内，DRL智能体将每一时间步长内的经验转移元组(z_t,d_t,r_t,z_t+1)存储至经验池，同时这些到达的样本在后续可以用来去训练神经网络的参数，智能体会从经验回放池中随机选择一小批量的样本来训练深度神经网络的参数。这也就是说，可以在每次的更新中会随机选择一些先前的经验来进行学习。一些研究表明经验回放能够有效提高样本效率并加快DRL算法的收敛速度。另一方面，DRL中存在着一个固定的Q-目标机制，使用Q-目标机制会使DRL中维持了两个结构相同但参数不同的神经网络以打乱相关性。目标神经网络的目的是去获取目标Q值，而主神经网络则可以估计其Q函数。需要注意的是，目标神经网络的权重系数

由主神经网络的权重系数θ_j依照

ζ＜＜1来定期更新。然后，固定的Q-目标机制则是用来生成目标Q值

表示如下：

此外，目标Q-网络在经过一些训练步长之后更新其权值，而不是在每个训练步长里都更新权值。通过这样做，智能体的学习过程可以变得更加稳定。

贯穿整个训练过程，DRL智能体每次都会从经验回放池中随机选择一小批R个样本(z_j,d_j,r_j,z_j+1)用来训练学习。在每次迭代中，通过最小化损失函数Loss(θ)来训练深度Q函数，使其逐渐逼近目标值。损失函数Loss(θ)可表示如下：

以上为基于DRL方法的基本思想：首先建立深度神经网络，从而获得每个状态-动作对

与其值函数

之间的相关性。具体来说，需要利用随机选取的策略对MEC***的卸载决策和资源分配进行足够长时间的预处理。然后，执行动作并存储相应估计的Q值

和一些状态转移信息文件到经验回放池。最后，利用输入的状态-动作对

和输出的值函数

对深度神经网络执行预训练。在此之后，通过深度强化学习的方法来获得动作策略的选择和Q值的更新。特别地，在每一个episode里，DRL智能体首先获取MEC***的初始观测状态，并将其观测状态作为初始状态

进行预训练。然后利用∈-greedy策略再次来选择要执行的动作d_t，即在每次动作选择时都存在一极小的概率值∈去随机选择动作集

中的任意动作，否则将根据能使主神经网络得到的估计Q值最大的动作-状态对

来选择动作。然后智能体执行动作d_t并从MEC***中得到这一动作相应的回报值r_t和下一观测状态

同时每一时间步长内的转移经验元组

都将被存储至经验回放池中，这些到达的样本可以用来去训练神经网络的参数，同时智能体也会在后续训练中从经验回放池中再随机选择一小批量之前的样本来训练深度神经网络的参数。在计算完目标Q值

后，DRL智能体通过最小化损失函数Loss(θ)去更新主神经网络的参数θ，参数θ的梯度策略更新公式可通过

计算。因此，在状态-动作Q函数收敛到最优值之前进行随机梯度下降。

本发明实施例考虑到了时变的MEC***中实际的计算卸载和资源分配特性，同时也考虑了任务的时延阈值与***有限的资源容量约束。联合优化了任务执行中的卸载决策和通信及计算资源的分配，并从能耗的角度将相应问题建模为一个混合整数非线性规划问题，旨在最小化所有UEs的总能量消耗。为了解决这一约束性优化问题，本发明引入了深度强化学习的概念。定义了状态空间、动作空间和奖励函数，并引入了马尔可夫决策过程。在此基础上，提出了一种基于值迭代的强化学习方法DRL，以确定计算卸载和资源分配的联合最优方案。通过仿真实验表明，在不同场景下本发明提出的基于DRL的方法都能比其他基准方法更加显著地降低用户的能量消耗。

下面结合具体的实验数据对上述技术方案的技术效果进行验证：

在实验中，本发明考虑了一个具有内接圆半径的小蜂窝单元，其中部署有MEC服务器的一个AP坐落于小蜂窝单元中心。在每一个时间片内，多个协带有计算任务的UE随机分布于AP的覆盖范围里。

本发明实施例将所提出的基于DRL的方法与其他一些基准方法在多用户的情景下进行了性能比较。其中UE自身的计算能力为0.8GHz，AP上MEC服务器的计算能力为6GHz。现假设MEC***可通过DSA技术来根据用户的需求合理地分配信道资源。在每一时间片内，任意计算任务的数据大小在区间(12，16)Mbit里服从均匀分布，其完成相应计算任务所需的CPU轮数在区间(2000，2500)Megacycles里服从均匀分布。此时计算任务的最大可容忍时延为3s，参数学习率ε＝0.1，回报衰减

为0.9。

在参与对比的基准方法中，用“Local First”表示UEs试图在最大时延阈值

约束下尽可能地在本地执行其任务的方法。与之相对，使用“Offloading First”表示UEs将优先选择将任务卸载到MEC服务器执行的方法。在Offloading First方法中，MEC服务器的全部通信资源和计算资源将平均分配给每个UE。需要注意的是，由于不同计算任务的资源需求在每个时间片t上都是动态的，因此在最大可容忍时延

的限制下，某些UE可能由于所需的计算资源过多而无法在本地设备上执行到达的任务。本发明所提出的方法与基准方法的关键区别在于，所提出的方法可以在MEC***中动态地作出卸载决策和为所执行的任务分配计算资源。

图3为本发明实施例提供的所提出的基于DRL方法的收敛性分析图，如图3所示，对于所提出的基于DRL的方法，每一时间片episode下的回报值随着用户智能体和MEC***环境的不断迭代而逐渐增加，此时智能体在无需任何先验信息的情况下可以逐渐学习到高效的计算卸载策略。

图4为本发明实施例提供的不同的UE数量下所有用户的能量消耗示意图，如图4所示，当UE和MEC服务器的计算能力分别为0.8GHz和6GHz时，所提出的基于DRL的方法与其他两种基准方法随着UE数量增加时总能量消耗的变化情况。可以看出，三种方法的总能量消耗均随着UE数目的增加而增加。通过对比这三种方法，可以发现所提出的基于DRL的方法的性能最好，其消耗的总能量最小，这说明本发明所提出的方法是有效的。在UE数目相对较少的情况下，Offloading First方法所消耗的能量要小于Local First方法消耗的能量。此外，Offloading First方法所消耗的能量在UE数目为4时超过了Local First方法消耗的能量，并且随UE数目的增加持续大幅增长。这是因为在某个时间片内当有更多的任务需要被执行时，计算和通信资源预算就会变得相对紧张。一旦分配给单个UE的可用资源减少，UE的传输和计算的试验就会显著增加，此时其能耗也会随之增加。本发明基于DRL的方法可以有效地解决这个问题，因为所提出的方法可以在每个时间片内动态地将通信和计算资源分配给每个UE。

图5为本发明实施例提供的在不同的MEC服务器计算资源总量下所有用户的能量消耗示意图，如图5所示，当UE的数量为5时，所提出的基于DRL的方法与其他两种基准方法在不同的MEC服务器计算能力f_mec下总能量消耗的变化情况。可以看出，随着MEC服务器计算能力的增大，三种方法的总能量消耗均有所降低。所提出的基于DRL的方法的性能仍然最好，这意味着所提出的方法要优于Offloading First方法和Local First方法。当MEC服务器的计算能力较小时，Offloading First方法比其他两种方法所消耗的能量要高得多，但随着MEC服务器计算能力的增加，Offloading First方法与其他方法之间的差异也变得越来越小，其根本原因是在于随着MEC服务器计算能力的增加，任一UE都可以分配到更多的计算资源，从而大大降低了计算时延和与之对应的能量消耗。

基于上述任一实施例，图6为本发明实施例提供的基于深度强化学习的计算卸载和资源分配装置示意图，如图6所示，本发明实施例提供一种基于深度强化学习的计算卸载和资源分配装置，包括构建模块601和确定模块602，其中：

构建模块601用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源，构建优化问题模型；确定模块602用于基于深度强化学习确定所述优化问题模型的最优解，所述最优解包括UE的卸载决策，MEC服务器给UE所分配的计算资源占其总计算资源的百分比数，AP给UE所分配的频谱资源占其总频谱资源的百分比数。

本发明实施例提供一种基于深度强化学习的计算卸载和资源分配装置，用于执行上述任一实施例中所述的方法，通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同，此处不再赘述。

本发明实施例提供的基于深度强化学习的计算卸载和资源分配装置，同时考虑到时变的MEC***中实际的计算卸载和资源分配特性，任务的时延阈值与***有限的资源容量约束，基于深度强化学习确定计算卸载和资源分配的联合最优方案，进一步降低了UE的能耗。

图7为本发明实施例提供的电子设备的结构示意图，如图7所示，该电子设备包括：处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。处理器701和存储器702通过总线703完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行如下方法：

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例中的步骤，例如包括：

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述各方法实施例中的步骤，例如包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的计算卸载和资源分配方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述计算任务参数包括完成计算任务所需的计算资源量、计算任务的数据大小和执行计算任务的最大可容忍时延。

3.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述性能参数包括本地执行计算任务时CPU每一轮数所消耗的能量、上传数据时的传输功率和待机状态下的功耗。

4.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述信道参数包括可利用的频谱的信道带宽、无线传输信道的信道增益和信道内部的高斯白噪声的功率。

5.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述优化问题模型的目标为：最小化***中所有UE的长期能耗。

6.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述优化问题模型的约束条件为：

7.根据权利要求1-6任一项所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，所述基于深度强化学习确定所述优化问题模型的最优解，具体包括：

构建马尔科夫决策问题；

8.一种基于深度强化学习的计算卸载和资源分配装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述基于深度强化学习的计算卸载和资源分配方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至7任一所述基于深度强化学习的计算卸载和资源分配方法的步骤。