CN115756873A

CN115756873A - 一种基于联邦强化学***台

Info

Publication number: CN115756873A
Application number: CN202211619600.7A
Authority: CN
Inventors: 张鑫云; 任爽
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-07
Anticipated expiration: 2042-12-15
Also published as: CN115756873B

Abstract

本发明提供一种基于联邦强化学***台，在MEC***目前的分布式DRL架构上引入联邦学***台考虑了在现有的分布式DRL架构下引入联邦学习策略，在指导MEC***进行智能化的计算卸载的同时，提升模型的鲁棒性并保护数据隐私，在提升QoE的同时获得最大的***收益。

Description

一种基于联邦强化学***台

技术领域

本发明涉及移动边缘计算技术领域，尤其涉及一种基于联邦强化学***台。

背景技术

移动边缘计算(Mobile Edge Computing,MEC)的计算卸载通过将移动设备的计算任务卸载到距离移动设备更近的边缘服务器上运行，既可以有效减轻移动设备的计算压力，降低与云计算的集中式数据中心交互的频率，还可以规避从移动设备到远程云计算基础设施传输数据引起的长传播延迟，早已成为了MEC的重要研究问题。

在基于凸优化、博弈论等的假设环境下，一些研究工作取得了相当好的结果。但是这些MEC***资源配置优化存在的最大问题是智能程度低。近些年，使用深度学习智能算法来进行移动边缘计算的研究已大量涌现，例如Alam等《Autonomic computationoffloading in mobile edge for IoT applications》，Qiu X等《Online deepreinforcement learning for computation offloading in blockchain-empoweredmobile edge computing》，Zhang C等《Task migration for mobile edge computingusing deep reinforcement learning》，Wang T等《An intelligent dynamic offloadingfrom cloud to edge for smart iot systems with big data》，其中有大量地研究使用了(深度)强化学习算法(Deep Reinforcement Learning,DRL)。

发明内容

本发明的实施例提供了一种基于联邦强化学***台，用于解决现有技术中存在的技术问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于联邦强化学习的移动边缘计算卸载方法，包括：

获取用于认知计算所需的观测数据；

基于观测数据，利用基于联邦学习的分布式DDQN算法进行认知计算，训练DRL智能体，获得移动边缘计算卸载模型，并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略；

通过移动边缘计算卸载策略，处理移动设备的边缘计算卸载请求，进行通信资源和计算资源的调度。

优选地，观测数据包括：网络状态S，迭代轮数T，状态特征维度n，动作集合A，步长α，衰减因子γ，探索概率ε，当前的Q网络Q，目标Q网络Q′，批量梯度下降的样本数m，Q′网络参数的更新频率C，学习率η；

基于观测数据，利用基于联邦学习的分布式DDQN算法进行认知计算，训练DRL智能体，获得移动边缘计算卸载模型包括：

初始化模型参数θ₀；

通过如下过程对t从1到T进行迭代；

初始化网络状态S为当前状态序列的第一个状态，获得与网络状态S对应的特征向量φ(S)；

在网络Q中使用φ(S)作为输入，得到网络Q的所有动作对应的Q值输出，利用ε-greedy策略在当前Q值输出中选择对应的动作集合A；

在网络状态S执行当前动作集合A，获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)以及奖励R；奖励R通过计算即时效用函数式

获得，式中，t_e表示计算任务的执行延迟，t_p表示计算任务的排队延迟，R_Ni表示移动设备N_i的资源消耗量，C表示计算任务丢弃或失败的次数；

基于当前动作集合A，获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)、奖励R，加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end}，并存入经验回放集合D中；

令S＝S′；

从经验回放集合D中采样获得{φ(S_j),A_j,R_j,φ(S_j′),is_end_j},j＝1,...,m，从{φ(S_j),A_j,R_j,φ(S_j′),is_end_j},j＝1,...,m中得到m个样本，通过式

计算当前目标Q值y_j；

使用均方差损失函数

并通过神经网络的梯度反向传播来更新Q网络的所有参数θ；

如果i％C＝1，则更新Q′网络参数θ′＝θ；

如果S′是终止状态，则当前轮迭代终止，进行联邦参数更新，输出移动边缘计算卸载策略

否则，返回执行上述第二个子步骤；式中，π_c(S)用于决定移动设备的选择

其中，c＝0表示移动设备选择在本地执行计算卸载任务，c∈M表示移动设备选择通过某个无线信道M_i来将计算卸载任务分配到边缘节点，π_e(S)表示通过π_c(S)选择分配的计算卸载任务c∈M或选择本地计算卸载任务c＝0所需的资源量。

优选地，最后一个子步骤中进行联邦参数更新的过程包括：

在每一轮的迭代的步骤t中，边缘节点发送当前全局模型参数θ_t给移动设备

对移动设备

进行随机抽样，获得抽样子集

对于不属于

中的移动设备，根据θ_t，通过随机梯度下降式

更新模型参数；式中，η为学习率，l为优化目标；

对于属于

中的移动设备，根据θ_t，通过随机梯度下降式

更新模型参数，然后通过式

将

上传至边缘节点进行平均形成新的全局模型参数θ_t+1；式中，t表示迭代次数。

第二方面，本发明提供一种基于联邦强化学***台，包括DDQN智能体、MEC***，MEC***包括多个边缘设备和边缘节点；

DDQN智能体用于从MEC***中获取用于认知计算所需的观测数据；

MEC***基于观测数据，利用基于联邦学习的分布式DDQN算法进行认知计算，训练DRL智能体，获得移动边缘计算卸载模型，并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略；

MEC***基于还基于移动边缘计算卸载策略，执行边缘计算卸载任务，进行通信资源和计算资源的调度。

优选地，MEC***包括一组边缘设备

和一组边缘节点

边缘节点之间的无线信道为

优选地，DDQN智能体从MEC***中获取用于认知计算所需的观测数据包括：网络状态

迭代轮数T，状态特征维度n，动作集合A，步长α，衰减因子γ，探索概率ε，当前的Q网络Q，目标Q网络Q′，批量梯度下降的样本数m，Q′网络参数的更新频率C，学习率η；

MEC***基于观测数据，利用基于联邦学习的分布式DDQN算法进行认知计算，训练DRL智能体，获得移动边缘计算卸载模型的过程包括：

初始化模型参数θ₀；

通过如下过程对t从1到T进行迭代；

在网络状态S执行当前动作集合A，获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)、以及奖励；奖励R通过计算即时效用函数式

令S＝S′；

从经验回放集合D中采样获得{φ(S_j),A_j,R_j,φ(S_j′),is_end_j},j＝1,...,m，从

{φ(S_j),A_j,R_j,φ(S_j′),is_end_j},j＝1,...,m中得到m个样本，通过式

计算当前目标Q值y_j；

使用均方差损失函数

并通过神经网络的梯度反向传播来更新Q网络的所有参数θ；

如果i％C＝1，则更新Q′网络参数θ′＝θ；

由上述本发明的实施例提供的技术方案可以看出，本发明提供一种基于联邦强化学***台，在MEC***目前的分布式DRL架构上引入联邦学***台具有如下有益效果：

考虑了在现有的分布式DRL架构下引入联邦学习策略，在指导MEC***进行智能化的计算卸载的同时，提升模型的鲁棒性并保护数据隐私，在提升QoE的同时获得最大的***收益；

本发明采用了FedAvg算法，是一种横向联邦学***衡和非独立同分布数据的关键问题，使得边缘人工智能的性能不容易受到不平衡数据和恶劣的通信环境的影响。同时，联邦学习算法的核心优势在于将知识分布在大量的设备上，而不必进行集中式训练，因此可以实现隐私保护；

本发明训练的分布式DDQN智能体，基于MEC***环境状态，进行智能化的计算任务卸载，从而使MEC***收益达到最大化。因此，这使得在MEC***中，大量的移动设备和边缘节点可以充当感知机，获取丰富的个性化数据，用于更新全局的DRL模型。从移动设备的角度看，这些数据可以包括无线信道的质量、剩余电池寿命和能量消耗、即时计算能力等等。对于边缘节点，这些数据包括计算负载、存储占用、无线通信链路数量、等待处理的任务队列状态等。因此，使用基于这些原始数据的模糊逻辑代替集中式的数字逻辑使得MEC***更具认知性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的处理流程图；

图2是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的一种优选实施例的过程示意图；

图3是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的分布式DRL的训练场景示意图；

图4是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的移动设备、边缘服务器、云服务器中智能体的协同训练过程示意图；

图5是集中式DRL架构图；

图6是本发明提供的一种基于联邦强化学***均效用的结果对比图；

图7是本发明提供一种基于联邦强化学***均效用的结果对比图；

图8是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的测试实施例中基于联邦学习的DRL架构和集中式的DRL架构在计算卸载场景下的总的无线传输数据量的结果对比图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明提供一种基于联邦强化学***台，用以解决现有技术中的如下技术问题：

现有技术中均未考虑一下因素：1)应该以什么形式收集训练数据(无论是以分布式方式还是集中式方式)；2)应该在哪里放置和训练强化学***衡和非独立同分布的数据，且边缘人工智能的性能容易受到恶劣通信环境的影响，也无法应对隐私问题。

针对当前MEC***中分布式DRL架构存在的问题，本发明引入联邦学习(FederalLearning,FL)来训练MEC***中的DRL智能体，既能解决上述提到的相关问题，也可使MEC***中的DRL智能体可以更好地进行智能资源管理的部署，最大化整个MEC***的整体收益。

参见图1，本发明提供一种基于联邦强化学习的移动边缘计算卸载方法，包括如下步骤：

获取用于认知计算所需的观测数据；

如图2所示，本发明提供了一种基于认知计算的移动边缘计算卸载方法，用于整个MEC***中。此处，本发明使用基于横向联邦学习的分布式DDQN(Double DQN)模型作为认知计算的方法，建立了一个智能化的移动边缘计算和通信的***，无线通信协议栈之间的认知过程在图1中已给出。

整个边缘计算卸载流程包括以下步骤：

第1步：数据收集。基于联邦学习的DRL智能体感知和收集MEC***中认知计算所必需的观测数据，包括但不限于通信和计算资源的使用、无线环境和移动设备计算卸载请求的强度。

考虑这样一个MEC***，该***中包含一组移动设备

和一组基站(属于边缘节点)

假设1个基站有M个无线信道，用集合表示为

在进行计算卸载时，在调度决策

中，移动设备

可以选择经由无线信道将它们的密集计算任务卸载到边缘节点，或者在调度决策c＝0时本地计算这些任务。为了模拟无线信道的变化，从有限状态空间中独立选取移动设备

和基站

之间的信道增益状态，由此将信道状态转移建模为有限状态离散时间马尔可夫链。在这个无线场景中，可达到的数据速率可以通过Shannon-Hartley定理来评估。

在此MEC***中，计算任务由(u,v)表示，其中，u、v分别表示计算输入数据的大小(以bit为单位)和完成计算任务所需的CPU周期总数。所有这些计算任务都存储在任务队列中，并根据先进先出原则在移动设备或边缘节点上顺序执行。当计算任务在本地执行时，其计算执行时间为t_L＝v/f_L，其中f_L为移动设备的计算能力(即每秒的CPU周期数)，由移动设备决定分配的资源量r_L决定；当计算任务被调度到边缘节点上执行时，被卸载任务的执行时间t_E＝v/f_E，其中f_E是边缘节点分配给移动设备的计算能力。

在此阶段，智能体需要从MEC***环境中收集的数据信息包括：网络状态

该网络状态

包括计算任务(u,v)的排队状态

移动设备

的资源消耗量

边缘节点

的资源消耗量

移动设备

占用的无线信道

的情况以及所有无线信道的拥塞程度。网络状态

是通过对移动设备物理层的协议栈进行跨层感知获得的。

第2步：认知计算。使用基于联邦学***衡问题，因此，使用横向联邦学习算法FedAvg来处理。同时，在联邦学习中，通过将模型更新与FedAvg算法结合起来，可以有效地处理非独立同分布的数据。下面给出某一边缘侧移动设备

与边缘节点

间的联邦模型训练过程：

(1)初始化模型参数θ₀；

(2)在每一轮的迭代的步骤t中，边缘节点发送当前全局模型参数θ_t给移动设备

(3)对

进行随机抽样，得到抽样子集

(4)对于不属于

中的移动设备，其根据θ_t，通过随机梯度下降更新模型参数，即

其中η为学习率，l为优化目标；

(5)对于

中的移动设备，其首先根据θ_t，通过随机梯度下降更新模型参数，即

后将

上传至边缘节点进行平均形成新的全局模型参数θ_t+1，即：

上述训练过程中的模型参数θ指的是DDQN智能体的模型训练参数。为了在MEC***上有效地执行计算卸载，移动设备将根据控制动作a_t＝(c,e)来做出联合通信和计算资源分配的决定，其中

表示移动设备选择在本地执行任务(c＝0)或通过哪个无线信道来卸载任务，e表示为无线通信和本地计算分配的资源量。在智能体的训练过程中，本发明将移动设备的任务执行体验(Quality-of-Experience,QoE)作为模型的优化目标。为了评估移动设备的QoE，本发明定义了一个即时效用函数

其与计算任务的执行延迟t_e(包括无线传输延迟和计算延迟)、计算任务的排队延迟t_p、移动设备N_i的资源消耗量

以及计算任务丢弃或失败的次数C成反比，作为DDQN智能体的奖励函数。它是一个与网络的状态S有关的函数，表达式为：

其中k为常数，在实施例中取k＝1。

智能体的控制可以概括为移动设备

根据固定的控制策略

来执行控制动作a_t，以决定无线信道的选择和计算资源的分配。模型的最终目标，则是得到有效的控制策略π，增加移动设备对于长期性能优化的效用(Utility)。智能体的训练过程在图2中已给出，下面给出算法流程：

算法输入：迭代轮数T、状态特征维度n、动作集合A、步长α、衰减因子γ、探索概率ε、当前的Q网络Q(即MainNet)、目标Q网络Q′(即TargetNet)、批量梯度下降的样本数m、Q′网络参数更新频率C。

算法输出：Q网络的参数

算法流程如下：

1.随机初始化所有的状态和动作对应的Q值；随机初始化Q网络的所有参数θ；随机初始化Q′网络的参数θ′＝θ。清空经验回放(Local Replay Memory)的集合D。

2.对i从1到T，进行迭代。

a)初始化S为当前状态序列的第一个状态，得到与网络状态S特征向量φ(S)；

b)在Q网络中使用φ(S)作为输入，得到Q网络的所有动作对应的Q值输出，用ε-greedy策略在当前Q值输出中选择对应的动作集合A；

c)在网络状态S执行当前动作集合A，获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、以及奖励R；所述奖励R通过计算即时效用函数式

获得，式中，t_e表示计算任务的执行延迟，t_p表示计算任务的排队延迟，R_Ni表示移动设备N_i的资源消耗量，C表示计算任务丢弃或失败的次数；式中，φ用于代表智能体状态空间中某一状态的特征向量；

d)基于当前动作集合A，获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、奖励R，加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end}，并存入经验回放集合D中；

e)令S＝S′；

f)从经验回放集合D中采样，获得{φ(S_j),A_j,R_j,φ(S_j′),is_end_j},j＝1,...,m，进一步从其中得到m个样本，再通过式

计算当前的目标Q值y_j；其中，R_j是指采样得到的第j个网络状态对应的智能体的奖励，用于计算目标Q值y_j，该目标Q值y_j可以用于计算均方差损失函数；

g)使用均方差损失函数

通过神经网络的梯度反向传播来更新Q网络的所有参数θ；

h)如果i％C＝1，则更新Q′网络参数θ′＝θ；

i)如果S′是终止状态，则当前轮迭代终止，进行联邦参数更新，输出移动边缘计算卸载策略

经过上述DDQN智能体的训练以及横向联邦学习算法FedAvg的处理，最终可以得到智能的基于隐私保护的移动边缘计算卸载模型，此模型可以根据网络状态

自动生成高效的控制策略π并执行控制动作a_t，实现对边缘侧通信资源和计算资源的智能调度和分配，提升移动设备的效用。

第3步：请求处理。经过第2步得到的移动边缘计算卸载模型会根据网络状态

进行通信资源和计算资源的调度，处理移动设备的计算卸载请求。

第二方面，本发明提供一种执行上述方法的基于联邦强化学***台，包括DDQN智能体、MEC***，MEC***包括多个边缘设备和边缘节点；

DDQN智能体用于从MEC***中获取用于认知计算所需的观测数据；

MEC***包括一组所述边缘设备

和一组边缘节点

所述边缘节点之间的无线信道为

本发明还提供一个实施例，用于示例性地显示本发明的方法的使用过程及其与现有技术的计算卸载方法的效果对比。

MEC***如图3和4所示。该***中包含一组移动设备

和一组基站(属于边缘节点)

假设1个基站有M个无线信道，用集合表示为

在进行计算卸载时，在调度决策

中，移动设备

可以选择经由无线信道

将它们的密集计算任务卸载到边缘节点，或者在调度决策c＝0时本地计算这些任务。为了模拟无线信道的变化，从有限状态空间中独立选取移动设备

和基站

之间的信道增益状态，由此将信道状态转移建模为有限状态离散时间马尔可夫链。计算任务由(u,v)表示，其中，u、v分别表示计算输入数据的大小(以bit为单位)和完成计算任务所需的CPU周期总数。所有这些计算任务都存储在任务队列中，并根据先进先出原则在移动设备或边缘节点上顺序执行。

在此架构中，各移动设备

均拥有一部分模型所需的训练数据d_i，每一个边缘侧都有一个边缘节点

提供边缘计算服务。在每一个边缘侧，边缘节点

和各移动设备

通过联邦学习的方式进行模型训练和参数更新；同时，各个边缘节点之间通过移动网络运营商(MNO)核心节点进行通信，并通过联邦学习的方式进行模型训练和参数更新，最终在远程云计算基础设施上得到完整的训练模型，移动设备可以进行模型的下载和本地部署。

在移动设备、边缘节点、远程云基础设施上，均需要执行DDQN智能体的训练和参数更新过程。为了在MEC***上有效地执行计算卸载，移动设备将根据控制动作a_t＝(c,e)来做出联合通信和计算资源分配的决定，其中

表示移动设备选择在本地执行任务(c＝0)或通过哪个无线信道来卸载任务，e表示为无线通信和本地计算分配的资源量。智能体的状态空间由网络状态

决定，该网络状态

包括计算任务(u,v)的排队状态

移动设备

的资源消耗量

边缘节点

的资源消耗量

移动设备

占用的无线信道

的情况以及所有无线信道的拥塞程度。在智能体的训练过程中，本发明将移动设备的任务执行体验(Quality-of-Experience,QoE)作为模型的优化目标。为了评估用户的QoE，本发明定义了一个即时效用函数

其与计算任务的执行延迟(包括无线传输延迟和计算延迟)、计算任务的排队延迟、移动设备的资源消耗量以及计算任务丢弃或失败的次数成反比，作为DDQN智能体的奖励函数。智能体的控制可以概括为移动设备

根据固定的控制策略

来执行控制动作a_t，以决定无线信道的选择和计算资源的分配。模型的最终目标，则是得到有效的控制策略π，增加移动设备对于长期性能优化的效用(Utility)。

综上所述，本申请的基于联邦强化学习的计算卸载算法流程如下(此处详细阐述了边缘节点与移动设备之间的模型训练过程，边缘节点与云服务器间的模型训练过程类似)：

在某种程度上，本发明提出的边缘人工智能是一个面向未来的概念。设想在不久的将来，大多数移动设备，尤其是智能手机，不仅具有推断的能力，还具有训练深度学习模型的能力。众所周知，即使是最先进的edge芯片，如Edge TPU(由谷歌推出，由TensorFlowLite提供支持)，也只能支持深度学习中的初级训练过程。因此，应在考虑实际部署的情况下讨论此发明的实用性。

部署挑战：计算卸载模型需要长时间的训练以及根据所需的准确度进行推断。显然，在随机设置神经网络权值时，不能直接使用DRL模型。否则，MEC***将会瘫痪，因为DRL模型只能在初步探索时做出随机决策。尽管如此，如果深度学习模型不是从零开始训练的，这可以解决，比如通过迁移学习来促进MEC***的训练。基本思想是模拟无线环境和移动设备的请求。正如在模拟测试床中评估和调整天线设置一样，模拟环境用于训练离线DRL智能体。然后，可以将建立的DRL模型分发给移动设备。

为了评估此发明在MEC***上的计算卸载能力，可以进行仿真模拟实验。假设边缘节点的整个带宽ω＝5MHZ被分成10个无线信道，并且在联邦学习框架中以10个移动设备作为客户端来单独训练它们的DDQN智能体，并且在边缘节点之间进行合并。移动设备和边缘节点之间的信道增益状态来自公共有限集合，该集合将无线信道的质量量化为6个级别。在整个仿真过程中，每个移动设备上生成的任务数遵循Bernoulli分布。

对于移动设备、边缘节点和云服务器的DRL设置，选择DDQN算法，并使用tanh作为激活函数和Adam优化器。使用包括200个神经元的单层全连接前馈神经网络作为目标(TargetNet)和eval(MainNet)Q网络。DDQN中的其他参数值设置如下:经验恢复记忆容量M＝5000，minibatch大小B＝200，折扣因子γ＝0.9，探索概率ε＝0.001，学习速率η＝0.005，更换目标Q网络的周期为φ＝250。此外，为了用联邦学习建立DRL代理的baseline，本发明构建了一个集中式DRL(Centralized DDQN)智能体(如图3所示)用于比较，并且假设它能够接收用于强化学习的所有数据。

为了验证基于联邦强化学***均效用接近Centralized DDQN，并且优于其他三种计算卸载模型，这从一个侧面反映出本发明申请方法的可行性。

为了研究本发明申请方法在训练过程中的移动设备的平均效用情况，假设无线通信能力不是障碍，即Centralized DDQN的大量训练数据和联邦DDQN的轻量模型更新都可以上传到目标位置。如图6至8所示，在训练开始时，Centralized DDQN的性能优于联邦DDQN。然而，一旦联邦学习的模型合并被多次处理，联邦DDQN的性能变得接近Centralized DDQN的性能。当然，如果客户端希望使用联邦DDQN来获得期望的性能，则必须花费时间来等待模型合并，即利用其他客户端的训练结果。尽管如此，这个实验假设了一个理想的无线环境。在实际中，海量的训练数据实际上是无法无延迟上传的。因此，在MEC***中执行联邦DDQN更实用，至少目前无线资源也是主要考虑因素。

为了研究本发明申请方法在移动边缘计算卸载场景下的通信资源消耗情况，在模拟实验中，收集了联邦DDQN智能体从开始训练到训练终止期间的总的无线传输数据，其统计结果如图6至8所示。对于本发明申请的方法，由于使用了联邦学习架构，因此每个客户端只需要上传其模型的更新；而对于Centralized DDQN，客户端必须经由无线信道上传整个训练数据，从而消耗更多的通信资源。

综上所述，本发明提供一种基于联邦强化学***台，在MEC***目前的分布式DRL架构上引入联邦学***台具有如下有益效果：

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。