WO2024065903A1

WO2024065903A1 - 多约束边环境下计算卸载与资源分配联合优化***及方法

Info

Publication number: WO2024065903A1
Application number: PCT/CN2022/126471
Authority: WO
Inventors: 陈哲毅; 黄思进; 张俊杰; 熊兵
Original assignee: 福州大学
Priority date: 2022-09-29
Filing date: 2022-10-20
Publication date: 2024-04-04
Also published as: NL2033996A; CN115567978A

Abstract

本发明涉及一种多约束边环境下计算卸载与资源分配联合优化***及方法，针对多约束条件下动态的MEC***设计了一种统一的计算卸载与资源分配模型，并将执行任务的时延与能耗作为优化目标。设计了一种任务优先级预处理机制，能够根据任务的数据量与移动设备的性能为任务分配优先级，并提供一种基于深度强化学习的计算卸载与资源分配联合优化方法JOR-RL，在JOA-RL方法中，critic网络采用基于值函数的单步更新方式，用于评价当前卸载方案与资源调度策略；而actor网络采用基于策略梯度的更新方式，用于输出卸载方案与资源调度策略。本发明在提升任务执行成功率以及降低任务执行时延与能耗方面效果显著。

Description

多约束边环境下计算卸载与资源分配联合优化***及方法

技术领域

本发明涉及一种多约束边环境下计算卸载与资源分配联合优化***及方法。

背景技术

随着通信技术与移动设备的快速发展与普及，各类新兴的应用不断涌现，这些应用通常会收集大量传感数据并伴随着计算密集型的任务以支持其高质量的智能服务，这对移动设备的硬件性能提出了巨大的挑战。但是，受限于设备尺寸与制造成本，移动设备通常只会配备一定容量的蓄电池与计算能力有限的处理器，这已无法支持新兴应用对高性能可持续处理的需求。云计算提供了充足的计算与存储资源，移动设备可以借助云服务来弥补其在硬件性能上不足。因此，一种可行的解决方案是将移动设备上计算密集型的任务卸载到资源充足的远程云上执行，完成任务后将结果反馈给移动设备。然而，移动设备与远程云之间的长距离会导致严重的数据传输延迟，不能很好地满足延迟敏感型应用的需求，也会显著影响用户的服务体验。

技术问题

相比云计算，移动边缘计算(MEC)将计算与存储资源部署到更加接近移动设备的网络边缘。因此，利用MEC进行计算卸载可以有效避免云计算中出现的网络拥塞的情况，降低网络服务响应时间，同时也能更好地满足用户对隐私保护的基本需求。相对于云服务器，MEC服务器配备的资源更少，但灵活性更强。因此，如何在资源受限的MEC***中实现合理的资源分配是一个难点。此外，移动设备往往需要持续运行以支持各类智能应用，但受限于电池容量，任务的计算卸载过程在一定程度上也会受到影响。MEC与基于射频的无线电力传输(WPT)的集成最近已成为一种可行且有前途的解决方案，可为无线移动设备的无线电收发器提供按需能量。但是，能量与延迟的多约束给边缘环境下的计算卸载与资源分配又带来了新的挑战，因此，需要设计一种有效的计算卸载与资源分配方法。

技术解决方案

有鉴于此，本发明的目的在于提供一种多约束边环境下计算卸载与资源分配联合优化***及方法，可以获得动态MEC环境下计算卸载与资源分配的最优策略。

为实现上述目的，本发明采用如下技术方案：

一种多约束边环境下计算卸载与资源分配联合优化***，包括基站BS、MEC服务器和N个可充电移动设备MDs，其中，N个可充电移动设备MDs记为集合MD＝{MD ₁,MD ₂,...MD _i...,MD _N}；所述可充电移动设备MDs通过5G或LTE方式接入基站BS，在基站BS上配备了MEC服务器。

进一步的，所述MDs配备了能量收集(EH)组件并由无线电频率(RF)信号收集的能量为其提供电力。

进一步的，当可充电移动设备MDs产生任务时，将计算任务卸载到MEC服务器上执行或在本地执行任务，优先级越高的任务将倾向于卸载至MEC服务器上执行，具体地，上述优先级

被定义为

其中，

表示子时隙t内传输信道增益，

为Task _i的数据量，f _i为MD _i的计算能力，P _i表示MD _i传输功率。

一种多约束边环境下计算卸载与资源分配联合优化***的优化方法，包括以下步骤：

步骤S1:根据不同MDs上所产生的任务、任务的卸载优先级、MDs的电池电量以及当前时刻MEC服务器可用的计算资源，基于计算卸载与资源分配联合优化模型生成卸载决策以及资源分配决策；

步骤S2:根据资源分配决策将通信资源下发，MDs根据卸载决策将任务卸载至本地或MEC服务器进行执行；

步骤S3:作业调度器根据资源分配决策，从作业序列中将作业分配给服务器。

进一步的，所述计算卸载和资源分配联合优化模型，基于Python3.6和开源框架Pytorch构建和训练，具体如下：

(1)获取MD _i计算能力f _i，MEC服务器计算能力

网络带宽

并初始化***；

(2)进行训练,并将每次训练获取的***环境状态s _t输入actor网络，在环境中执行actor网络输出动作a _t，执行相应的卸载计算与资源分配操作；

(3)根据公式计算相应的奖励，环境反馈该步任务累积执行奖励r _t与下一个状态s _t+1,并将训练样本存入经验回放池M.push(s _t,a _t,r _t,s _t+1)；

(4)当存入M中的训练样本数达到N条时，随机选出N条记录用于训练网络参数，得到最终的计算卸载和资源分配联合优化模型。

进一步的，所述初始化***，具体为：基于状态空间、动作空间和奖励函数，首先初始化actor网络的参数θ ^μ和critic网络的参数θ ^Q；然后，将actor网络参数θ ^μ赋值给目标actor网络参数θ ^μ′并将critic网络参数θ ^Q赋值给目标critic网络参数θ ^Q′，同时初始化经验回放池M、训练回合P以及时间序列长度T _max。

进一步的，所述状态空间、动作空间和奖励函数如下：

状态空间：状态空间包含子时隙t所有MDs上所产生的任务Task ^t、任务的卸载优先级pr ^t、MDs电池电量b ^t以及当前时刻MEC服务器可用的计算资源

因此，在子时隙t时刻的***状态表示为：

其中

动作空间：DRL代理根据当前***状态做出计算卸载与资源分配的动作；动作空间包含卸载决策α ^t、任务的上传带宽分配w ^t以及为任务所分配的MEC服务器计算资源p ^t。因此，在子时隙t时刻的动作表示为：

a _t＝{α ^t,w ^t,p ^t}公式(15)

其中，

奖励函数：***的目标是在满足优化问题P1的约束条件下最小化***时延与能耗的加权开销之和，因此，在子时隙t时刻，***的即时奖励表示为：

其中，w ₁和w ₂分别表示执行任务所产生的时延与能耗的权重，F表示归一化函数，Pu表示任务失败的惩罚系数。

进一步的，所述训练，具体为：训练critic网络θ ^Q去拟合Q(s _t,a _t)，当Q(s _t,a _t)确定时，对于固定的s _t一定存在一个a _t使得Q(s _t,a _t)最大，Q(s _t,a _t)表示为:

Q(s _t,a _t)＝E _environment[r(s _t,a _t)+γQ(s _t+1,μ(s _t+1))] 公式(17)

其中，actor网络θ ^μ根据当前状态s _t输出Q值的最大动作a _t，该过程表示为:

a _t＝μ(s _t|θ ^μ) 公式(18)

actor网络的性能目标定义为：

进一步的，定义目标actor网络θ ^μ′和目标critic网络θ ^Q′；

critic网络负责计算当前Q值Q(s _t,a _t)，并定义了目标Q值y _t：

y _t＝r _t+γQ′(s _t+1,μ′(s _t+1|θ ^μ′)|θ ^Q′) 公式(20)

采用梯度上升法逼近actor网络的策略最优解，critic网络的损失函数定义为：

在每个训练步，目标actor网络与目标critic网络按照更新步伐τ向actor网络与critic网络靠近。

有益效果

本发明与现有技术相比具有以下有益效果：

1、本发明能够根据计算资源与网络状况，生成合适的计算卸载与资源分配方案，提高执行任务成功率并降低执行任务的时延与能耗

2、本发明能够根据任务数据量与移动设备性能为任务分配优先级。

附图说明

图1是本发明一实施例中单边缘多移动设备MEC***；

图2是本发明一实施例中时序任务工作流程；

图3是本发明一实施例中JOA_RL方法流程图；

图4是本发明一实施例中不同方法的收敛性对比

图5是本发明一实施例中网络带宽对不同方法的影响；

图6是本发明一实施例MEC服务器的计算能力对不同方法的影响；

图7是本发明一实施例中MD蓄电池最大容量对不同方法的影响。

本发明的实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明针对多约束条件下动态的MEC***设计了一种统一的计算卸载与资源分配模型，并将执行任务的时延与能耗作为优化目标。设计了一种任务优先级预处理机制，能够根据任务的数据量与移动设备的性能为任务分配优先级。相应地，针对DRL框架，定义了MEC环境下计算卸载与资源分配问题的状态空间、动作空间和与奖励函数，并将上述优化问题形式化表示为马尔可夫决策过程(MDP)。继而提出了基于深度强化学习的计算卸载与资源分配联合优化方法JOR-RL，在JOA-RL方法中，critic网络采用基于值函数的单步更新方式，用于评价当前卸载方案与资源调度策略；而actor网络采用基于策略梯度的更新方式，用于输出卸载方案与资源调度策略。

请参照图1，本发明提供一种MEC***，由一个基站(BS)、一个MEC服务器和N个可充电移动设备(MDs)构成，其中，N个记为集合MD＝{MD ₁,MD ₂,...,MD _N}。MDs通过5G或LTE方式接入BS，在BS上配备了MEC服务器。此外，所有MDs配备了能量收集(EH)组件并由无线电频率(RF)信号收集的能量为其提供电力。

如图2所示，在每个时隙T的开始时刻，每个MD产生一个计算任务

其中

为任务的数据量、

为任务所需的计算资源、T _d为任务允许的最大完成延迟。MDs从BS的射频信号中获取电力。任务须在其相应的最大容忍时延和现存的电池电量内完成，否则任务将被判定为失败。在所提出的MEC***中，来自MDs的任务可以在MEC服务器的协助下执行完成，具体的通信模型、计算模型以及能量收集模型定义如下。

1通信模型

如图2所示，

被定义为时隙T开始时刻MD _i上产生任务的卸载决策。当

时，MD _i将任务卸载到MEC服务器上执行；当

MD _i在本地执行任务。当MD _i选择将任务卸载到MEC服务器上执行时，其任务计算所依赖的数据也将相应地上传，并由BS分配其上传任务的带宽。因此，MD _i在子时隙t的信噪比为

其中，δ表示高斯白噪声的平均功率，

和P _i分别表示MD _i在子时隙t的信道增益和传输功率。因此，MD _i传输计算任务的功率为

其中，B ^t表示当前子时隙t所有MDs共享的上传带宽，

表示子时隙t时刻BS分配给MD _i传输上传任务的带宽比例。

2计算模型

在所提出的MEC***中，当MDs产生任务时，任务会先被添加到相应MD的任务缓冲队列上，先添加进队列的任务完成之后才能执行后续的任务。由于MDs和MEC服务器都可以提供计算服务，两种计算模式定义如下：

(1)本地计算模式

假设不同MDs的计算能力(即CPU频率)可能是不同的，但在任务执行过程中是不会改变的。因此，本地计算模式的延迟和能耗分别定义为

其中，f _i表示MD _i的CPU频率，

表示

所需的计算资源，k表示有效电容系数。

(2)边缘计算模式

当MDs将任务卸载到MEC服务器上执行时，MEC服务器会选择分配部分当前可用的计算资源给MDs，任务执行完成后MEC服务器会将结果返回给MDs。通常，计算结果的数据量非常小，下载任务计算结果的延迟与能耗可忽略不计。因此，边缘计算模式的延迟和能耗分别定义为

其中，

表示子时隙t开始时刻MEC服务器可用的计算资源，

表示t子时隙分配给MD _i计算资源的比例，P _e表示MEC服务器分配给任务的计算功率。

因此，执行

的延迟可表示为

执行

的能耗可表示为

其中，

表示

的卸载决策。

为了能够针对不同任务做出快速的决策找到合适的计算模式，本发明提供一种任务优先级预处理机制，能够根据任务的数据量与移动设备的性能为任务分配优先级。该机制衡量了不同任务上传至MEC服务器执行的合适程度，优先级越高的任务将倾向于卸载至MEC服务器上执行。具体地，上述优先级被定义为

其中，

表示子时隙t内传输信道增益、f _i为MD _i的计算能力以及P _i表示MD _i传输功率。根据任务的计算环境赋予其相应的优先级，在保证高优先级任务成功完成的同时，减少任务计算总时间和能耗，从而提高服务质量。

3能量收集模型

在所提出的MEC***中，所有MDs都配备了可充电电池，其最大容量为B _max，记MD _i在子时隙t开始时刻的电量为

具体而言，ET和MEC服务器部署在网络边缘，允许ET以完全可控的方式通过WPT为无线设备的中央处理单元(Center Processing Unit，CPU)和无线电收发器提供按需能量，收集的能量将输入MDs的电池。利用收集到的能量，MDs可以将计算任务卸载到MEC服务器上执行或在本地执行任务。为简化模型，假设在收集能量的过程中能量是以能量包的形式到达MDs，即在每个子时隙t开始时刻MDs通过EH组件获取能量包并输入电池，能量包大小记为e _t。对于任务不同执行状态下MDs电量变化的考虑如下：

(1)当子时隙t内的任务因决策失败无法在MD _i电量可支持范围内顺利完成或当前无任务执行，则在子时隙t内只有无线组件的充电电量变化。因此，在子时隙t+1开始时刻，MD _i的电量为

(2)当子时隙t内MD _i上的任务在本地执行，其能耗为

则在子时隙t+1开始时刻MD _i的电量为

(3)当子时隙t内MD _i上的任务卸载到MEC服务器上执行，其能耗为

则在子时隙t+1开始时刻MD _i的电量为

基于上述***模型定义，所提出MEC***的目标是最小化执行MDs上时序任务所产生的时延与能耗的加权开销之和，可形式化为优化问题P1如

其中，w ₁和w ₂分别表示执行任务所产生的时延与能耗的权重。C1表示一个任务只能本地或者卸载到MEC服务器上执行。C2表示执行任务产生的能耗不能超过当前设备的可用电量。C3表示任务的执行时间不能超过任务最大容忍时延T _d。C4表示为卸载任务所分配上传带宽比例的约束。C5表示为卸载任务所分配MEC服务器计算资源比例的约束。

在本实施例中，参考图3，本发明提出了一种基于深度强化学习的计算卸载和资源分配联合优化方法JOA_RL；MEC***中的计算卸载与资源分配被视为环境，DRL代理通过与环境交互来选择相应的动作

其中在JOA_RL方法中定义的状态空间、动作空间和奖励函数如下：

因此，在子时隙t时刻的***状态可表示为：

其中

动作空间：DRL代理根据当前***状态做出计算卸载与资源分配的动作。动作空间包含卸载决策α ^t、任务的上传带宽分配w ^t以及为任务所分配的MEC服务器计算资源p ^t。因此，在子时隙t时刻的动作可表示为：

a _t＝{α ^t,w ^t,p ^t} 公式(15)其中，

奖励函数：所提出MEC***的目标是在满足优化问题P1的约束条件下最小化***时延与能耗的加权开销之和。因此，在子时隙t时刻，***的即时奖励可表示为：

其中，w ₁和w ₂分别表示执行任务所产生的时延与能耗的权重。F表示归一化函数，用于将时延与能耗的数值归一化到相同数值区间。Pu表示任务失败的惩罚系数。

在多约束MEC环境下的计算卸载与资源分配优化过程中，DRL代理根据策略μ在当前***状态(包含任务状态和资源使用)s _t下选择一个动作a _t(计算卸载与资源分配)。环境根据动作a _t反馈奖励r _t并转换到新的***状态s _t+1，该过程可表述为MDP过程。

在本实施例中，JOA-RL能够有效地逼近动态MEC环境下计算卸载和资源分配的最优策略，在任务最大时延与设备电量约束下能够在时延与能耗之间取得更好的平衡，且展现出了更高的任务执行成功率。

JOA-RL方法中利用了深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)用于训练DNN以获取最优的计算卸载和资源分配策略。

在JOA-RL方法中，critic网络采用基于值函数的单步更新方式，负责评估每个动作相对应的Q值，actor网络采用基于策略梯度的更新方式，负责在当前***状态下生成相应的计算卸载与资源分配动作。

通过使用critic网络可以有效降低策略梯度的误差，因为critic网络可以引导actor网络学习最优的策略。此外，通过集成DNN，JOR-RL方法可以很好处理高维度状态空间的问题。

本发明提出的JOA_RL方法的关键步骤如算法1所示：

基于式(14)中状态空间、式(15)中动作空间和式(16)中奖励函数的定义，首先初始化actor网络的参数θ ^μ和critic网络的参数θ ^Q。然后，将actor网络参数θ ^μ赋值给目标actor网络参数θ ^μ′并将critic网络参数θ ^Q赋值给目标critic网络参数θ ^Q′，同时初始化经验回放池M、训练回合P以及时间序列长度T _max。特别地，该方法中采用了独立目标网络。减少了数据之间的相关性，并增强了方法的稳定性和鲁棒性，同时通过引入经验回放机制，降低数据的相关性。

初始化完成后，开始进行训练。在每个训练回合中，该方法将每一步获取的***环境状态s _t输入actor网络，在环境中执行actor网络输出动作a _t，执行相应的卸载计算与资源分配操作(第5-11行)。根据公式计算相应的奖励，环境反馈该步任务累积执行奖励r _t与下一个状态s _t+1(第12行)。

由于MEC环境中的***状态与资源分配动作是一个连续值，JOA-RL方法考虑状态与动作均为连续值的MDP。JOA-RL方法训练critic网络θ ^Q去拟合Q(s _t,a _t)，当Q(s _t,a _t)确定时，对于固定的s _t一定存在一个a _t使得Q(s _t,a _t)最大。但是，s _t到a _t之间的映射关系十分复杂，给定s _t后的Q值是一个关于a _t的高维多层嵌套非线性函数。为解决这个问题，本文利用actor网络θ ^μ去拟合该复杂映射。具体而言，Q(s _t,a _t)表示为:

Q(s _t,a _t)＝E _environment[r(s _t,a _t)+γQ(s _t+1,μ(s _t+1))] 公式(17)其中，actor网络θ ^μ根据当前状态s _t输出Q值的最大动作a _t，该过程可以表示为:

a _t＝μ(s _t|θ ^μ) 公式(18)

在该方法中，actor网络的性能目标定义为：

当存入M中的训练样本数达到N条时，随机选出N条记录用于训练网络参数(第14行)。该方法在优化损失函数时面临的一个重要的问题是对含有max表达式进行求导优化时性能很不稳定，更新参数不一定能使得max(s _t+1,a _t+1)向理想的方向变化。尤其当动作空间是连续时该情况更为明显，导致了训练Q(s _t,a _t)向目标网络移动过程时目标网络本身也在移动。

为了解决这个问题，在该方法中，分别定义了目标actor网络θ ^μ和目标critic网络θ ^Q。

critic网络负责计算当前Q值Q(s _t,a _t)，并定义了目标Q值y _t：

y _t＝r _t+γQ′(s _t+1,μ′(s _t+1|θ ^μ′)|θ ^Q′) 公式(20)

在每个训练步，目标actor网络与目标critic网络按照更新步伐τ向actor网络与critic网络靠近。相比于单纯地复制网络参数，这种更新方式可以让方法更加稳定。

实施例1：

本实施例提出的计算卸载和资源分配联合优化模型是基于Python3.6和开源框架Pytorch构建和训练的。所有仿真实验在配备Intel i5-7300HQ的笔记本电脑上开展，其CPU时钟频率为2.5GHz、内存为8GB。在实验中，所有MDs在AP的覆盖范围内随机分布并共享带宽，且该AP配备了一台MEC服务器。其中，每台MD的计算能力的分布为[1,1.2]GHz/s，MEC服务器的计算能力为20GHz/s。在默认实验设置下，10台MDs共享带宽10MHz，每个时隙T的持续时间为1s，子时隙t的持续时间为0.25s，一个训练回合合计48个时隙T。

在训练过程中，actor网络的学习率为0.0006，critic网络的学习率为0.006，奖励折扣因子gamma设置为0.95。当JOA-RL方法完成训练后，可适用于多变MEC环境下计算卸载与资源分配的联合优化。

基于以上设置，我们进行了大量的仿真实验来评估所提出的基于深度强化学习的计算卸载和资源分配联合优化方法的性能。为了分析所提出的JOA_RL方法的有效性和优势，将所提出的JOA-RL方法与以下5种基准方法进行了对比。

Local：所有任务皆在MDs上执行；

MEC：所有任务皆卸载到MEC服务器上执行；

Random：任务通过随机的方式在MDs或MEC服务器上执行；

Greedy：在满足任务最大容忍时延的前提下，任务优先选择在MDs上执行；

DQN：基于值的DRL方法，通过计算每个计算卸载与资源分配动作的概率来学习确定性策略。

如图4中(a)所示，对比了不同方法的收敛性，Local、MEC、Random和Greedy等方法为单步决策，不存在学***均消耗能量，MEC方法和Local方法分别展现出了最高和最低的平均任务消耗能量。Greedy方法在满足任务最大容忍时延的前提下优先在本地执行任务，因此其平均任务消耗能量仅高于Local方法。相比于DQN方法，JOA-RL方法收敛之后效果也优于DQN方法。如图4中(c)所示，对比了不同方法的平均任务等待时间。JOA-RL方法在收敛后的平均任务等待时间上优于其他5种方法，Local方法由于本地计算能力受限，完成任务所需的时间较长，所以平均任务等待时间远高于其他5种方法。如图4中(d)所示，对比了不同方法的任务成功率。

如图5所示，Local方法由于不存在计算卸载的过程，所以网络带宽的变化对其没有影响。对MEC方法而言，当网络带宽很低时，每个上传的任务所分配到的带宽就会很低，这导致了大量的任务上传时间，也使得很多任务由于无法满足最大时延迟约束而失败，所以MEC方法反映出来的性能表现较差。随着网络带宽的提升，除Local方法以外的5种方法的性能表现上也呈上升趋势。其中，MEC方法的性能提升最为明显，因为该方法的性能表现非常依赖于网络带宽。本文所提出的JOA-RL方法相比DQN方法能更好地处理连续的资源分配问题，实现更低的时延与能耗。这表明JOA-RL方法在计算卸载与资源分配联合优化问题上更具优势。当网络带宽提升到一定程度时，除Local方法以外的5种方法的性能都基本趋于稳定。这是因为随着网络带宽的提升，在计算卸载过程中因超出时延约束而失败的任务减少了，但由于依然存在MDs电池电量的约束，使得这些方法的性能无法得到进一步的提升。

如图6所示，Local方法由于不存在计算卸载的过程，所以MEC服务器计算能力的变化对其没有影响。随着MEC服务器计算能力的增加，除Local方法以外的5种方法的性能表现上也呈上升趋势。本发明所提出的JOA-RL方法相比于DQN方法能实现更低的时延与能耗，这是因JOA-RL方法能更好地处理连续的资源分配问题，表明JOA-RL方法在计算卸载与资源分配联合优化问题上更具优势。当MEC服务器的计算能力增加到一定程度时，除Local方法以外的5种方法的性能也都基本趋于稳定。这是因为随着MEC服务器计算能力的增加，在计算卸载过程中因超出时延约束而失败的任务减少了，但存在MDs电池电量的约束，使得这些方法的性能无法得到进一步的提升。

如图7所示，对Local方法而言，任务本地计算所消耗的电量低于蓄电池的最大容量，因此MD蓄电池最大容量的增加对Local方法没有影响。对于其他五种方法而言，其任务上传消耗的电量较大，因此当MD蓄电池最大容量较小时，任务往往会因为蓄电池电量不足以支持计算卸载而失败。随着MD蓄电池最大容量的增加，存储的电量能够支持更多的计算卸载，因此这五种方法的性能表现呈上升趋势。当MD蓄电池最大容量增加到一定程度时，因MD蓄电池最大容量不足而导致的计算卸载失败的情况基本消失，这些方法的性能也趋于稳定。本文所提出的JOA-RL方法相比DQN方法能更好地处理连续的资源分配问题，实现更低的时延与能耗。这表明JOA-RL方法在计算卸载与资源分配联合优化问题上更具优势。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

一种多约束边环境下计算卸载与资源分配联合优化***，其特征在于，包括基站BS、MEC服务器和N个可充电移动设备MDs，其中，N个可充电移动设备MDs记为集合MD＝{MD ₁,MD ₂,...MD _i...,MD _N}；所述可充电移动设备MDs通过5G或LTE方式接入基站BS，在基站BS上配备了MEC服务器。
根据权利要求1所述的多约束边环境下计算卸载与资源分配联合优化***，其特征在于，所述MDs配备了能量收集组件并由无线电频率信号收集的能量为其提供电力。
根据权利要求1所述的多约束边环境下计算卸载与资源分配联合优化***，其特征在于，当可充电移动设备MDs产生任务时，将计算任务卸载到MEC服务器上执行或在本地执行任务，优先级越高的任务将倾向于卸载至MEC服务器上执行，具体地，上述优先级pr _i ^T被定义为

其中，
表示子时隙t内传输信道增益，
为Task _i的数据量，f _i为MD _i的计算能力，P _i表示MD _i传输功率。
根据权利要求1所述的多约束边环境下计算卸载与资源分配联合优化***的优化方法，其特征在于，包括以下步骤：

步骤S1:根据不同MDs上所产生的任务、任务的卸载优先级、MDs的电池电量以及当前时刻MEC服务器可用的计算资源，基于计算卸载与资源分配联合优化模型生成卸载决策以及资源分配决策；

步骤S2:根据资源分配决策将通信资源下发，MDs根据卸载决策将任务卸载至本地或MEC服务器进行执行；

步骤S3:作业调度器根据资源分配决策，从作业序列中将作业分配给服务器。
根据权利要求4所述的优化方法，其特征在于，所述计算卸载和资源分配联合优化模型，基于Python3.6和开源框架Pytorch构建和训练，具体如下：

(1)获取MD _i计算能力f _i，MEC服务器计算能力
网络带宽
并初始化***；

(2)进行训练,并将每次训练获取的***环境状态s _t输入actor网络，在环境中执行actor网络输出动作a _t，执行相应的卸载计算与资源分配操作；

(3)根据公式计算相应的奖励，环境反馈该步任务累积执行奖励r _t与下一个状态s _t+1,并将训练样本存入经验回放池M.push(s _t,a _t,r _t,s _t+1)；

(4)当存入M中的训练样本数达到N条时，随机选出N条记录用于训练网络参数，得到最终的计算卸载和资源分配联合优化模型。
根据权利要求4所述的优化方法，其特征在于，所述初始化***，具体为：基于状态空间、动作空间和奖励函数，首先初始化actor网络的参数θ ^μ和critic网络的参数θ ^Q；然后，将actor网络参数θ ^μ赋值给目标actor网络参数θ ^μ′并将critic网络参数θ ^Q赋值给目标critic网络参数θ ^Q′，同时初始化经验回放池M、训练回合P以及时间序列长度T _max。
根据权利要求6所述的优化方法，其特征在于，所述状态空间、动作空间和奖励函数如下：

状态空间：状态空间包含子时隙t所有MDs上所产生的任务Task ^t、任务的卸载优先级pr ^t、MDs电池电量b ^t以及当前时刻MEC服务器可用的计算资源
因此，在子时隙t时刻的***状态表示为：

其中

动作空间：DRL代理根据当前***状态做出计算卸载与资源分配的动作；动作空间包含卸载决策α ^t、任务的上传带宽分配w ^t以及为任务所分配的MEC服务器计算资源p ^t；因此，在子时隙t时刻的动作表示为：

a _t＝{α ^t,w ^t,p ^t} 公式(15)

其中，

奖励函数：***的目标是在满足优化问题P1的约束条件下最小化***时延与能耗的加权开销之和，因此，在子时隙t时刻，***的即时奖励表示为：

其中，w ₁和w ₂分别表示执行任务所产生的时延与能耗的权重，F表示归一化函数，Pu表示任务失败的惩罚系数。
根据权利要求4所述的优化方法，其特征在于，所述训练，具体为：训练critic网络θ ^Q去拟合Q(s _t,a _t)，当Q(s _t,a _t)确定时，对于固定的s _t一定存在一个a _t使得Q(s _t,a _t)最大，Q(s _t,a _t)表示为:

Q(s _t,a _t)＝E _environment[r(s _t,a _t)+γQ(s _t+1,μ(s _t+1))] 公式(17)

其中，actor网络θ ^μ根据当前状态s _t输出Q值的最大动作a _t，该过程表示为:

a _t＝μ(s _t|θ ^μ) 公式(18)

actor网络的性能目标定义为：
根据权利要求4所述的优化方法，其特征在于，定义目标actor网络θ ^μ′和目标 critic网络θ ^Q′；

critic网络负责计算当前Q值Q(s _t,a _t)，并定义了目标Q值y _t：

y _t＝r _t+γQ′(s _t+1,μ′(s _t+1|θ ^μ′)|θ ^Q′) 公式(20)

采用梯度上升法逼近actor网络的策略最优解，critic网络的损失函数定义为：

在每个训练步，目标actor网络与目标critic网络按照更新步伐τ向actor网络与critic网络靠近。