CN114281527A

CN114281527A - 一种低复杂度的移动边缘计算资源分配方法

Info

Publication number: CN114281527A
Application number: CN202111476111.6A
Authority: CN
Inventors: 马牧雷; 杨旸
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-05

Abstract

本发明提供了一种用于在线移动边缘计算和资源分配策略的强化学习方法，其特征在于，包括以下步骤：建立网络模型，将优化联合策略的求解表示为非凸非线性优化问题的求解；对非凸非线性优化问题进行联合策略解耦；建立用于求解解耦后问题的深度强化学习框架。本发明提供的一种集成奖励和减少动作空间的快速深度强化学习算法可以减少网络结构中的参数数量，提高决策效率。快速深度学习框架降低了动作空间维数并设计了新的奖励值。此外，低复杂度的凸优化方法被用于补充和微调卸载决策，可以极大降低计算复杂度。实验表明本发明提出的快速深度学习框架的性能优于贪婪和其他深度强化学习方法，并且在执行时间方面极大降低。

Description

一种低复杂度的移动边缘计算资源分配方法

技术领域

本发明针对移动边缘计算网络中的任务卸载(TO)和资源分配(RA)联合问题，提出了一种基于集成奖励和减少动作空间的快速深度学习框架(FLIRRAS)。

背景技术

随着移动边缘计算和物联网(IoT)的发展，各种设备相互连接，网络边缘正在快速发展[1]。传统方法将任务移至云端进行计算[2]。对于计算密集型任务，云计算采用强大的中央服务器来快速响应。但它无法避免数据传输带来的高延迟。移动边缘计算(MEC)[3]被认为是解决上述问题的有效方法。在MEC场景中，可以将任务卸载到网络边缘的服务器上，这就需要MEC***来管理通信资源和计算资源。MEC***任务卸载和资源分配策略已被广泛研究[4-5]。比如，一些相关工作提出了基于搜索的启发式算法[6]和合作博弈论算法[7]。虽然这些算法可以达到接近最优的性能，但它们需要大量的数值迭代才能实现。对于资源环境快速变化的大型网络，固定策略无法适应动态特性，无法获得最大化回报。

深度强化学习(DRL)的最新发展为在线计算卸载[8]提供了新的方向。许多研究工作都集中在DRL算法在在线卸载场景中的应用[9-12]。然而，对于TO和RA联合问题，现有的DRL框架由于高层结构数据特征太多，无法保证效率。通常，优化联合策略(TO和RA)的典型方法是在DRL框架中，将联合策略放入动作空间来解决[11-12]。这种方法会导致高维动作空间导致收敛缓慢，从而影响决策效率[13]。

[1]Anu Raj and Shiva Prakash.Internet of everything:A survey based onarchitecture,issues and challenges.In 2018 5th IEEE Uttar Pradesh SectionInternational Conference on Electrical,Electronics and Computer Engineering(UPCON),pages 1–6.IEEE,2018.

[2]Mehdi Bahrami.Cloud computing for emerging mobile cloud apps.In2015 3rd IEEE International Conference on Mobile Cloud Computing,Services,andEngineering,pages 4–5.IEEE,2015.

[3]Hongxing Li,Guochu Shou,Yihong Hu,and Zhigang Guo.Mobile edgecomputing:Progress and challenges.In 2016 4th IEEE international conferenceon mobile cloud computing,services,and engineering(MobileCloud),pages 83–84.IEEE,2016.

[4]Bo Wang,Changhai Wang,Wanwei Huang,Ying Song,and Xiaoyun Qin.Asurvey and taxonomy on task offloading for edge-cloud computing.IEEE Access,8:186080–186101,2020.

[5]Marwa Zamzam,Tallal El-Shabrawy,and Mohamed Ashour.Game theory forcomputation offloading and resource allocation in edge computing:A survey.In2020 2nd Novel Intelligent and Leading Emerging Sciences Conference(NILES),pages 47–53.IEEE,2020.

[6]Suzhi Bi and Ying Jun Zhang.Computation rate maximization forwireless powered mobile-edge computing with binary computationoffloading.IEEE Transactions on Wireless Communications,17(6):4177-4190,2018.

[7]Shanni Liang,Haibin Wan,Tuanfa Qin,Jun Li,and Wen Chen.Multi-usercomputation offloading for mobile edge computing:A deep reinforcementlearning and game theory approach.In 2020 IEEE 20th International Conferenceon Communication Technology(ICCT),pages 1534-1539.IEEE,2020.

[8]Xiaoyue Wan,Geyi Sheng,Yanda Li,Liang Xiao,and XiaojiangDu.Reinforcement learning based mobile offloading for cloud-based malwaredetection.In GLOBECOM 2017-2017 IEEE Global Communications Conference,pages1–6.IEEE,2017.

[9]S.Yu,X.Chen,Z.Zhou,X.Gong and D.Wu.2021.When Deep ReinforcementLearning Meets Federated Learning:Intelligent Multitimescale ResourceManagement for Multiaccess Edge Computing in 5G Ultradense Network.IEEEInternet of Things Journal,IoT-J 2021.vol.8,no.4,pp.2238-2251.

[10]W.Hou,H.Wen,H.Song,W.Lei and W.Zhang.2021.Multi-Agent DeepReinforcement Learning for Task Offloading and Resource Allocation inCybertwin based Networks.IEEE Internet of Things Journal,IoT-J 2021.

[11]X.Qiu,L.Liu,W.Chen,Z.Hong and Z.Zheng.2019.Online DeepReinforcement Learning for Computation Offloading in Blockchain-EmpoweredMobile Edge Computing.IEEE Transactions on Vehicular Technology(2019),vol.68,no.8,pp.8050-8062.

[12]G.M.S.Rahman,T.Dang and M.Ahmed.2020.Deep reinforcement learningbased computation offloading and resource allocation for low-latency fogradio access networks.Intelligent and Converged Networks(2020),vol.1,no.3,pp.243-257.

[13]K.Kumaran and E.Sasikala,"Learning based Latency MinimizationTechniques in Mobile Edge Computing(MEC)systems:A Comprehensive Survey,"2021International Conference on System,Computation,Automation and Networking(ICSCAN),2021,pp.1-6,doi:10.1109/ICSCAN53069.2021.9526410.

发明内容

本发明的目的是：解决DRL框架内低复杂度的联合问题。

为了达到上述目的，本发明的技术方案是提供了一种低复杂度的移动边缘计算资源分配方法，其特征在于，包括以下步骤：

步骤1、建立网络模型，将优化联合策略的求解表示为对下式(1)所示的非凸非线性优化问题P0的求解：

建立网络模型时考虑一个多任务多帮助节点的MEC场景，在该MEC场景下，存U个移动设备和S个边缘服务器，一个移动设备对应一个用户任务，一个边缘服务器对应一个计算节点，则用户任务u用二元组[d_u,c_u]，其中，d_u是数据大小，c_u是用户任务u计算所需的CPU转数；

式(1)中：A∈R^u*(S+1)表示卸载决策，R表示实数集合；卸载决策A中，a_us表示用户任务u到计算节点s的卸载决策，a_us为一个二进制数，a_us＝1表示用户任务u被卸载到计算节点s，a_us＝0表示用户任务u未被卸载到计算节点s

P＝[p_u|0≤p_u≤P_u]代表用户上行功率分配策略，p_u表示用户任务u的通信功率、P_u表示用户任务u的最大通信功率；

F＝{f_us|u∈U,s∈S}表示服务器计算资源分配策略，f_us表示计算节点s分配给用户任务u的计算资源；

J为***成本函数，表示为延迟和能耗的加权和，定义如下：

式(2)中，

为权重参数；

为任务卸载延迟，由传输部分和计算部分组成，具体如下：

式(3)中，R_u表示用户任务u上行传输速率；

式(2)中，

分别表示计算节点的计算延迟以及能耗，表示为：

式(4)、(5)中，z表示和移动设备相关的能耗常数，f_u表示计算节点的计算容量；

式(2)中，

表示用户任务u的卸载能耗，T_u ^Trans表示用户任务u的传输时延，p_u表示用户任务u的通信功率；

步骤2、对非凸非线性优化问题P0进行联合策略解耦，将非凸非线性优化问题P0转化为问题P1和问题P2，其中：

问题P1关注最小化卸载决策的成本，表示为：

问题P2关注通信能力和计算资源分配，表示为：

步骤3、建立用于求解问题P1和问题P2的深度强化学习框架，其中：

深度强化学习框架由Actor-Critic模型和高效RA方法模块组成，Actor-Critic模型通过对问题P1进行求解得到卸载策略A，高效RA方法模块通过对问题P2进行求解得到用户上行功率分配策略P以及服务器计算资源分配策略F；

Actor-Critic模型中，Actor网络以及Critic网络均为DNN网络，通过Actor网络在离散的动作空间中选择合适的动作，Critic网络用于评价Actor网络的动作并指导Actor网络的训练过程；

高效RA方法模块通过奖励的方式集成到DRL框架中，采用低复杂度优化方法确定资源分配策略，即用户上行功率分配策略P以及服务器计算资源分配策略F；

最后，将卸载策略A以及资源分配策略整合到奖励值中进行训练迭代；

对深度强化学习框架的训练具体包括以下步骤：

步骤301、定义状态：在时隙t，状态为s_t＝[d_u,c_u,h_us,f]，其中，d∈R^U和c∈R^U分别表示任务数据量和计算量，h_us∈R^U×S，f∈R^S表示边缘服务器上可用的计算资源；

动作：动作包括是否值得卸载或要卸载哪个计算节点，将动作表示为a_t；

奖励：奖励函数定义为r_t＝U-J(A,P,F)；

将状态s_t作为Actor网络的输入，Actor-Critic模型的参数分别用θ和ω表示。

步骤302、Actor网络：

卸载决策由Actor网络生成，表示为π_θ，动作样本来自π_θ:a_t～π_theta(·|s)，a_t表示动作，π_theta(·|s)表示策略；

Actor网络的输出是时隙t下的卸载策略A，看作是高效RA方法模块的先验知识，高效RA方法模块通过优化方法解决资源分配策略F和P，最终形成奖励r_t和新状态s′_t，获得的状态项[s_t,r_t,s′_t]存储在重放缓冲区中；Actor的参数θ通过应用Adam算法更新为：

式(8)中，η表示步长；δ(t)表示时间差，δ(t)＝r_t+gammaV(s′_t)-V(s_t)，gamma表示折扣率，V(s_t)表示价值函数，用于指导策略的梯度；

Critic网络：

Critic网络通过Actor网络与环境交互的结果学习价值函数V(s_t)，使用V(s′_t)和V(s_t)引导Actor网络更新策略，从重放缓冲区均匀抽样状态项[s_t,r_t,s′_t]，并反馈给Critic网络；计算完时间差误差后，用均方误差损失函数作为参数的梯度更新ω：

式(9)中，T表示状态步数。

Actor网络和Critic网络的训练频率由更新间隔决定Γ，每一次更新，Critic网络输出状态估计并计算时间差误差。

相应的，步骤1中，用户任务u上行传输速率R_u表示为：

R_u＝B_ulog₂(1+SINR_u)

式中，B_u表示用户任务u被分配的带宽，SINR_u表示用户任务u的信号干扰加噪声比。

相应的，所述用户任务u的信号干扰加噪声比SINR_u表示为：

式中：σ_u表示用户任务u通信噪声功率，

σ表示背景噪声功率，S/{s}表示和用户任务u不属于同一小区的其他边缘服务器，v表示卸载到计算节点q的用户任务集合中的任意一个元素，U_q表示卸载到计算节点q的用户集合，a_vq为卸载决策A中的元素，p_v表示用户任务v的通信功率；h_vq表示用户任务v和计算节点q间的路径增益；h_us表示用户任务u和计算节点s间路径增益。

相应的，在高效RA方法模块中，采用凸优化方法用来变换问题P2，针对问题P2进行求解，包括以下步骤：

将问题P0重写为：

式中，

服务器计算资源的分配与式(10)第一项有关，用户上行功率的分配与式(10)第二项有关；

服务器计算资源分配策略F：

式(10)第一项旨在求解计算资源分配策略F，表示为：

式(11)为凸函数，利用拉格朗日乘子和KKT条件得到最优策略

式中，

表示计算节点给用户任务的最优计算资源分配策略；

用户上行功率分配策略P：

对于式(10)第二项有：

目标函数Λ(p_u)对于p_u是非凸函数，使用变量替换法，由用户设备传输功率最大值P_u来近似原

中的p_u变量；替换后，Λ(p_u)用

表示，每个用户的传输功率实现了解耦，则目标函数是一个拟凸函数，该拟凸问题用次梯度算法迭代求解，具体包括以下步骤：

将约束集表示为C，C是Rⁿ的闭凸集，则有：

引入具有可行的不精确投影的次梯度法；

设定：

定义相对容错函数

如下：

点z被称为相对于x的y到C的可行不精确投影，并具有相对容错函数。

对式(13)所示的目标函数使用非精确投影次梯度法算法：

检查当前的p_k是否为式(10)所示的非凸非线性优化问题P0的解，p_k表示第k次迭代时在可行域投影得到的解，如果p_k不是非凸非线性优化问题P0的一个解，则选择一个非空元

表示偏导数，∈_k表示第k次迭代时使用的常数。计算步长t_k>0，将C中的下一个迭代p_k+1∈C更新为p_k-t_k*s_k；相对于p_k到C上的任意可行的不精确投影，每次迭代投影在P_c可行域内进行；p_k+1的其容错性由

给出，τ_k、∈_k、λ_k为三个常数；

最后，经过K次迭代得到

是p_K-t_K*s_K在C上的投影，即获得式(12)所示拟凸问题的解。

本发明提供的一种集成奖励和减少动作空间的快速深度强化学习(FLIRRAS)算法可以减少网络结构中的参数数量，提高决策效率。快速深度学习框架(FLIRRAS)降低了动作空间维数并设计了新的奖励值。此外，低复杂度的凸优化方法(如次梯度投影和KKT条件)被用于补充和微调卸载决策，可以极大降低计算复杂度。实验表明本发明提出的快速深度学习框架(FLIRRAS)的性能优于贪婪和其他深度强化学习(DRL)方法，并且在执行时间方面极大降低。

附图说明

图1示意了MEC环境多任务多帮助节点场景；

图2示意了策略解耦；

图3示意了深度强化学习框架FLIRRAS；

图4示意了次梯度投影法；

图5示意了FLIRRAS框架决策生成更新；

图6示意了不同算法的***成本；

图7比较了延迟和能源消耗之间的权衡；

图8示意了***成本和CPU执行延迟之间的权衡；

图9示意了不同在线算法在动态场景中的表现；

图10显示了DROO和FLIRRAS的平均执行时间与任务数量的对比

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种用于在线移动边缘计算和资源分配策略的强化学习方法，包括以下步骤：

步骤1、建立网络模型，得到非凸非线性优化问题P0的表示，具体包括以下内容：

如图1所示，本发明考虑一个多任务多帮助节点的MEC场景，在该MEC场景下，存在U个移动设备(MD)和S个边缘服务器(ES)，本发明中，一个移动设备对应一个用户任务，一个边缘服务器对应一个计算节点。这里使用二元组[d_u,c_u]表示用户任务u，其中，d_u是数据大小(位)，c_u是用户任务u计算所需的CPU转数。在这项工作中，上行链路多址方案基于OFDMA。在单小区数据传输过程中，MD通过正交子带与ES通信。因此，干扰主要来自小区间干扰。本发明使用h_{us}表示ME和ES之间的通道增益，使用P＝[p_u|0≤p_u≤P_u]代表用户上行功率分配策略，其中，p_u表示用户任务u的通信功率、P_u表示用户任务u的最大通信功率，用二进制卸载策略A∈R^U*(S+1)来表示卸载决策，其中，R表示实数集合。

用户任务u的信号干扰加噪声比SINR_u表示为下式(1)

式中：式中：σ_u表示用户任务u通信噪声功率，

σ表示背景噪声功率，S/{s}表示和用户任务u不属于同一小区的其他边缘服务器，v表示卸载到计算节点q的用户任务集合中的任意一个元素，U_q表示卸载到计算节点q的用户集合，a_vq为卸载决策A中的元素，a_vq为一个二进制数，a_vq＝1表示用户任务v被卸载到计算节点q，a_vq＝0表示用户任务v未被卸载到计算节点q，p_v表示用户任务v的通信功率；h_vq表示用户任务v和计算节点q间的路径增益；h_us表示用户任务u和计算节点s间路径增益。

用户任务u上行传输速率R_u为：

R_u＝B_ulog₂(1+SINR_u) (2)

式中，B_u表示用户任务u被分配的带宽。

假设MD的计算容量为f_u，则计算的延迟

和能耗

可表示为：

式中，z表示和移动设备相关的能耗常数。

任务卸载延迟

由传输部分和计算部分组成，具体如下：

式中，a_us表示用户任务u到计算节点s的卸载决策，f_us表示计算节点s分配给用户任务u的计算资源。

本发明将服务器计算资源分配策略定义为F＝{f_us|u∈U,s∈S}，用户任务u的卸载能耗为

式中，T_u ^Trans表示用户任务u的传输时延，d_u表示用户任务u的任务大小。

***成本函数J可以表示为延迟和能耗的加权和，定义如下：

式中，

为权重参数，可以根据任务属性进行调整。最后，定义TO和RA联合问题，表示为一个非凸非线性优化问题P0，如下式定义：

步骤2、对非凸非线性优化问题P0进行联合策略解耦，包括以下内容：

由于步骤1提出的非凸非线性优化问题P0的混合连续非凸性质，可以证明它是一个NP-hard问题，因此找到一种低复杂性的方法已经成为确定策略的关键。通过临时固定变量，非凸非线性优化问题P0可以分解为一个有约束的多目标问题，如图2所示，本发明首先关注最小化卸载决策的成本，即对式(8)所示的问题P1进行求解：

接下来，本发明求解通信能力和计算资源分配变量，即对式(9)所示的问题P2进行求解：

需要注意的是，在将P0转化为P1和P2的过程中，对原多元问题进行了分解，并没有改变问题的最优解。

步骤3、构建深度强化学习框架FLIRRAS

3.1 FLIRRAS整体架构

如图3所示，FLIRRAS的框架由Actor-Critic模型和高效RA方法模块组成，Actor-Critic模型通过对问题P1进行求解得到卸载策略A，高效RA方法模块通过对问题P2进行求解得到用户上行功率分配策略P以及服务器计算资源分配策略F。

Actor-Critic模型中，Actor网络以及Critic网络均为DNN网络，Actor网络可以方便地在离散的动作空间中选择合适的动作。Actor-Critic模型中的Critic网络负责评价Actor网络的动作并指导Actor网络的训练过程。本发明引入体验重放机制，方便在线场景采样，实现动态策略更新。

高效RA方法模块通过奖励的方式集成到DRL框架中，采用低复杂度优化方法确定资源分配策略，即用户上行功率分配策略P以及服务器计算资源分配策略F。

最后，将卸载策略A以及资源分配策略整合到奖励值中进行训练迭代。

3.2低复杂度RA模块

在非凸非线性优化问题P0中，由于多变量和非凸性，整体问题难以解决。但是通过FLIRRAS框架的Actor-Critic模型可以获得卸载的先验知识。FLIRRAS框架将连续的资源分配和环境交互问题嵌入其框架中。在高效RA方法模块中，采用凸优化方法用来变换问题P2，针对问题P2进行求解。

参考Tran,T.X.,\&Pompili,D.2018.Joint Task Offloading and ResourceAllocation for Multi-Server Mobile-Edge Computing Networks.IEEE Transactionson Vehicular Technology(2018),1–1.中的解耦方法，问题P0可以重写为：

式中，

服务器计算资源的分配与式(10)第一项有关，用户上行功率的分配与式(10)第二项有关，可以看出计算资源的分配和通信能力的分配是解耦的。

3.2.1服务器计算资源分配策略F

式(10)第一项旨在求解计算资源分配策略F，可表示为：

通过证明目标函数的Hessian矩阵是正定的，所以可知式(11)为凸函数。这里，利用拉格朗日乘子和KKT条件可以得到最优策略

式中，

表示计算节点给用户任务的最优计算资源分配策略。

3.2.2用户上行功率分配策略P

接下来，本发明关注通信功率分配问题，则对于式(10)第二项有：

目标函数对于p_u是非凸函数。通过分析，信号干扰加噪声比SINR包含了小区间干扰，这使得问题很难解决。这里本发明使用变量替换法(参考Tran,T.X.,\&Pompili,D.2018.Joint Task Offloading and Resource Allocation for Multi-Server Mobile-Edge Computing Networks.IEEE Transactions on Vehicular Technology(2018),1–1.，由用户设备传输功率最大值P_u来近似原

中的p_u变量。替换后，Λ(p_u)用

表示，每个用户的传输功率实现了解耦。接下来，发现目标函数是一个拟凸函数，该拟凸问题可以用次梯度算法迭代求解。

本发明将约束集表示为C。很明显，C是Rⁿ的闭凸集，那么接下来解决以下问题：

引入具有可行的不精确投影的次梯度法(参考A.A.Aguiar,O.P.Ferreira\&L.F.2021.Prudente:Subgradient method with feasible inexact projections forconstrained convex optimization problems,Optimization(2021).。设定：

定义相对容错函数

如下：

对式(13)所示的目标函数使用非精确投影次梯度法算法如图4所示，主要包括以下步骤：

表示偏导数，∈_k表示第k次迭代时使用的常数。计算步长(步数)t_k>0，将C中的下一个迭代p_k+1∈C更新为p_k-t_k*s_k。相对于p_k到C上的任意可行的不精确投影，每次迭代投影在P_c可行域内进行。p_k+1的其容错性由

给出，τ_k、∈_k、λ_k为三个常数。最后，经过K次迭代得到

是p_K-t_K*s_K在C上的投影，即获得式(12)所示拟凸问题的解。

3.3FLIRRAS框架训练

本发明所描述的任务卸载过程、无线信道衰落和节点资源占用都具有马尔可夫性，因此，本发明使用下面的马尔科夫决策过程(MDP)来描述这个动态***的演化。

状态：在时隙t，状态为s_t＝[d_u,c_u,h_us,f]，其中，d∈R^U和c∈R^U分别表示任务数据量和计算量，h_us∈R^U×S，f∈R^S表示边缘服务器上可用的计算资源。

动作：动作包括是否值得卸载(本地计算)，或要卸载哪个ES。这里表示a_t＝，其中，A表示卸载策略。FLIRRAS框架减少了网络的动作空间，极大地降低了网络的决策复杂度。

奖励：奖励函数定义为r_t＝U-J(A,P,F)，即报酬最大化意味着***成本最小化，这种设计的奖励可以有效地指导策略。

本发明将状态s_t作为Actor网络的输入，Actor-Critic模型的参数分别用θ和ω表示。

3.3.1Actor网络

作为基于策略的网络，Actor网络不仅可以优雅地处理离散动作问题，而且可以提高带约束问题处理能力。卸载决策由DNN生成，表示为π_θ，动作样本来自π_θ:a_t～π_theta(·|s)，a_t表示动作，π_theta(·|s)表示策略。

Actor网络的输出是时隙t下的卸载策略A，可以看作是RA模块的先验知识。RA模块通过优化方法解决资源分配策略F和P，最终形成奖励r_t和新状态s′_t。状态项[s_t,r_t,s′_t]存储在重放缓冲区中。Actor的参数θ通过应用Adam算法(参考D.P.Kingma andJ.Ba.2015.Adam:A method for stochastic optimization.ICLR 2015.)更新为：

式中，η表示步长，δ(t)表示时间差(TD)，δ(t)＝r_t+gammaV(s′_t)-V(s_t)，gamma表示折扣率，V(s_t)表示价值函数，用于指导策略的梯度。

3.3.2 Critic网络

Critic网络通过Actor网络与环境交互的结果学习价值函数V(s_t)，使用V(s′_t)和V(s_t)引导Actor网络更新策略。从重放缓冲区均匀抽样状态项[s_t,r_t,s′_t]，并反馈给Critic网络。计算完TD误差后，用均方误差损失函数作为参数的梯度更新ω：

式中，T表示状态步数。

Actor网络和Critic网络的训练频率由更新间隔决定Γ。每一次更新，Critic网络输出状态估计并计算TD误差。

3.3.3经验回放机制

FLIRRAS框架采用经验重放机制。***将每次探索环境后获得的数据以元组的形式保存在重放缓冲区中，即奖励和状态。Actor网络和Critic网络在每次迭代时都从重放缓冲区中提取一致样本来更新参数。

使用经验重放的动机为:(1)DNN作为一种有监督的学***稳分布的问题。(2)单个样本被多次使用，数据利用率高。(3)不同场景下的网络波动不同。回放缓冲区的大小可以调整，以适应不同的环境特性。

最终，FLIRRAS策略更新算法如图5，从而更新参数θ以及参数ω。

以一具体实例来说明本发明的效果：

考虑每个六角形小区中心有一个ES的多小区***。假设网络中有8个ES，计算能力为10GHz，背景噪声功率为-100dBm，带宽为B＝5MHz。本实施例利用信道增益构造随机网络。对于一个好的信道，信道增益h遵循对数正态分布，均值为250、方差为2.7。对于坏信道，h的均值为50、方差为5.4。接下来，建立两个具有不同状态转移概率的动态网络场景。动态网络场景1从一个好通道到一个好通道的转移概率为P_good＝0.98，从坏通道到坏通道的转移概率P_bad＝0.90。动态网络场景2从一个好渠道到一个好渠道的转移概率为P_good＝0.70，从坏通道到坏通道的转移概率P_bad＝0.90。显然，动态网络场景2比动态网络场景1变化更频繁。

移动设备计算能力从[0.6,0.8,1.0,1.2]GHz中随机选取，最大传输功率从[80,100,120]mW中随机选取。计算任务大小和计算量从[100,500]KB和[500,3000]*10⁶cycle中随机选取。除非另有说明，默认情况下能耗和延迟参数为

以时间延迟和能耗的综合成本作为***的评价指标。在动态在线环境下，进行了1000个时隙的实验。将FLIRRAS框架的性能与以下四个具有代表性的基准进行比较：

(1)结合奖励和缩减动作空间的快速学习DRL算法(FLIRRAS)：本发明的方法，它使用DRL框架作为一个整体来解决问题。针对在线场景优化网络训练。

(2)深度强化学习在线卸载算法(DROO)：应用神经网络作为卸载决策，通过启发式算法自动调整参数。

(3)贪婪卸载与联合资源分配(GOJR)：将待卸载的任务通过贪婪算法分配到延迟最低的ES中。

(4)独立卸载联合资源分配(IOJR)：将每个任务随机分配给ES，采用联合资源分配。

如图6所示，比较了四种不同算法的性能。对于FLIRRAS和DROO，将前8000个时间段设置为训练时段，直到算法性能稳定为止。从图中可以看出，FLIRRAS框架的性能接近最佳，***成本明显优于GOJR和IOJR算法。随着任务数量的增加，FLIRRAS框架的优势变得更加突出。此外，FLIRRAS框架具有接近最佳的性能和显著降低的复杂性。

是权重参数，在

范围内，实验结果清楚地表明，随着

的增加，时间延迟减小，能量消耗增加。此外，在权重参数的影响下，能量和时间的波动不是线性的。这表明，通过适当调整权重，可以更好地适应有特殊要求的任务。为了保证通用性，在实验中设置

网络中有8个ES，它们的计算能力随着任务的处理而不断变化。在本实施例中，假设每个MD每个时隙产生的卸载任务数量服从泊松分布，即P(λ＝2)(参考S.Chen,Q.Wang,J.Chen and T.Wu.2019.An Intelligent Task Offloading Algorithm(iTOA)for UAVNetwork.IEEE Globecom Workshops,GC Wkshps 2019.pp.1-6.)。更新间隔决定了策略更新的频率。为了正确地选择Γ，绘制图8执行延迟和***成本J之间的权衡。每次政策更新都要经过1000次抽样训练。发现随着Γ的减小，CPU执行延迟单调增加。此外，当Γ较大时，J迅速减小。当Γ≤32时，改进开始变得微不足道。因此，为了平衡性能和复杂性，可以设置Γ小于或接近32。

如图9所示，对于FLIRRAS框架，当Γ＝20时，网络可以及时获取计算资源的变化。如果选择更大的Γ，则不能及时感知服务器的变化。由图9可知，当Γ＝60时，FLIRRAS框架的性能接近DROO。但当涉及大规模任务时，FLIRRAS框架具有优势。在Γ等于20的情况下，在任务数量或多或少的情况下，FLIRRAS框架具有明显的性能优势。

所有的模拟都是在Intel(R)Xeon(R)E3-1275 3.80GHz CPU和64gb内存的台式机上进行的。在实验中，所有算法都有8000个时隙训练周期和1000个时隙测试周期(预测策略)。的确，在用户数量[15-80]范围内，FLIRRAS的执行时间明显较低，效率较基线算法提高18.0％-43.7％，更适合在线场景。