CN113191484B

CN113191484B - 基于深度强化学习的联邦学习客户端智能选取方法及***

Info

Publication number: CN113191484B
Application number: CN202110449033.4A
Authority: CN
Inventors: 张尧学; 邓永恒; 吕丰; 任炬
Original assignee: Tsinghua University; Central South University
Current assignee: Tsinghua University; Central South University
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-10-14
Anticipated expiration: 2041-04-25
Also published as: CN113191484A

Abstract

本发明公开了一种基于深度强化学***台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及客户端选择方案从多个候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给客户端选择智能体，以奖励用于优化更新策略网络；策略网络通过强化学习方法离线训练得到。本发明可从候选移动边缘设备中选择高质量的设备参与联邦学习，以处理分布式客户端低质量数据问题，以显著提高联邦学习质量。

Description

基于深度强化学习的联邦学习客户端智能选取方法及***

技术领域

本发明涉及大规模分布式边缘智能学习***的性能优化技术领域，尤其涉及一种基于深度强化学习的联邦学习客户端智能选取方法及***。

背景技术

移动边缘设备的普及使得边缘产生的数据快速增长，同时也促进了现代人工智能应用的繁荣发展。然而，由于隐私问题和高昂的数据传输成本，传统的在云端收集大量数据进行集中式模型训练的机制变得不太可取。为了在***露隐私的前提下充分利用数据资源，一种新的学习范式应运而生，即联邦学习(Federated Learning,FL)，它可以让移动边缘设备在不共享其原始数据的情况下协同训练全局模型。在联邦学习中，分布式设备使用自己的数据在本地训练全局模型，然后将模型更新提交给服务器进行模型聚合，聚合后的模型更新用于更新全局模型，然后返回给每个设备以进行下一轮的迭代。全局模型的训练过程便可以通过这种方式以分布式和隐私保护的方式迭代完成。

联邦学习尽管在隐私保护方面具有巨大的潜力，但在实现高性能学习质量方面仍然面临着技术挑战。与在数据中心进行训练时数据充足且资源不受限制不同，参与联邦学习的分布式设备通常在硬件条件和数据资源上都受到限制，且存在异质性，这会极大地影响学习性能。例如，由于传感器的缺陷和功率的限制，移动设备难免会收集一些错误标注的低质量数据，导致设备本地学习质量参差不齐。然而，不加区分地聚合低质量的模型更新会反向恶化全局模型的质量。因此，客户端选择，尤其是从候选客户端中选择合适的移动设备参与分布式学习，成为高质量联邦学习的关键。

最近，现有的一些工作提出了一些联邦学***性保证的客户端选择方案，可以在联邦学***性之间取得良好的权衡。为了减少联邦学习训练的延迟，Xia等人提出了一种基于多臂***的在线客户端调度方案，可以显著缩短模型训练的时间开销。Wang等人提出利用强化学习智能选择联邦学习的参与客户端，以克服客户端非独立同分布的数据对学习性能的负面影响，加快模型训练过程。但是，现有的客户端选择方案并没有充分考虑客户端的数据质量对联邦学习性能的影响，如何综合考虑客户端的数据数量、数据质量、计算资源等因素对模型训练质量的影响，为联邦学习智能地选取高质量的参与节点，仍需进一步探索和研究。

发明内容

本发明提供了一种基于深度强化学习的联邦学习客户端智能选取方法(以下简称AUCTION)及***，用以解决现有的客户端选择方案并没有充分考虑客户端的数据数量、数据质量、计算资源等因素对联邦学习性能的影响的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种基于深度强化学***台和多个愿意参与联邦学***台提交联邦学习任务的候选客户端；包括以下步骤：

联邦平台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及客户端选择方案从多个候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给客户端选择智能体，以奖励用于优化更新策略网络；策略网络通过强化学习方法离线训练得到。

作为本发明的方法的进一步改进：

客户端选择智能体，为基于编码器-解码器结构的策略网络，编码器将客户端状态映射为中间向量表示，解码器根据中间向量表示生成客户端选择方案；客户端状态包括数据大小、数据质量和价格。

优选地，策略网络的强化学习模型，包括状态、动作、奖励和策略：

状态：状态s＝{x₁,x₂,…,x_n}包含给定联邦学习任务所有候选客户端的特征，每个客户端C_i的特征x_i是一个三维向量，用x_i＝{q_i,d_i,b_i}表示，其中q_i和d_i分别是客户端C_i的数据质量和用于训练的样本数量，b_i是客户端C_i完成该学习任务的价格；

动作：采用顺序动作，即客户端选择代理通过采取一系列的动作一一做出客户端选择决策；一个单独的动作只从一组最多N个候选客户端中选出一个客户端；

奖励：将执行客户端选择操作后从联邦服务市场观察到的奖励r作为训练后损失函数值的减少率，即：

其中，F(w)是学习任务测试数据集上的初始全局损失函数值，F(w^*)是经过选定客户端的多轮协同训练后达到的测试损失函数值；

策略：将客户端选择的一个可行动作a＝{a₁,…,a_i,…}定义为候选客户端的一个子集，其中a_i∈{C₁,C₂,…,C_n}且

策略网络为一个随机的客户端选择策略π(a|s,B)用于在给定状态s和学习预算B的情况下选择一个可行动作a；训练策略网络的目标是最大化累计奖励。

优选地，最大化累计奖励，表示为：

其中r(a|s)是在状态s执行动作a后的奖励；

使用REINFORCE算法来优化J，使用梯度下降来不断优化参数θ：

其中b(s)代表一个独立于a的基准函数用于加速训练过程；参数θ是编码器和解码器可学习参数的并集。

优选地，编码器包括：

客户端嵌入层首先通过线性投影把三维输入特征x_i转化为初始的d_h维嵌入向量

其中W^x和b^x为可学习参数；

然后，嵌入向量会经过L个注意力层更新，其中，每一个注意力层l∈{1,2,…,L}输出嵌入向量

每个注意力层包含一个MHA层和一个FF层，每层后面都添加了一个跳跃连接和批归一化。

优选地，解码器包括：

基于编码器输出的嵌入向量和解码器在时间t′<t时间输出的客户端选择结果，解码器在每个时间点t输出一个选中的客户端a_t直到学习预算用尽；解码器的网络包含一个多头注意力层和一个单头注意力层。

本发明还提供一种计算机***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的步骤。

本发明具有以下有益效果：

1、本发明的基于深度强化学习的联邦学习客户端智能选取方法及***，可以利用客户端当前的学习质量相关的监测信息和历史的模型训练记录，自动学习客户端选择策略，以在联邦学习服务市场中实时地做出客户端选择决策。

2、在优选方案中，本发明利用深度强化学习技术，将客户端选择策略编码为神经网络，将每个客户端的数据大小、数据质量和学习价格作为输入，并输出在学习预算内选择的客户端子集，然后策略网络观察所选客户端的联邦学习性能，再利用策略梯度算法逐步改进其客户端选择策略。

3、本发明的基于深度强化学习的联邦学习客户端智能选取方法及***，为了能够适应联邦服务市场中客户端数量的动态变化并减小强化学习算法的搜索空间，本发明设计了基于编码器-解码器结构的策略网络，其中编码器采用注意力机制将客户端信息转化为嵌入向量，然后解码器再根据编码器输出的嵌入向量进行顺序的客户端选择策略。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的联邦服务市场的示意图；

图2是本发明优选实施例的基于深度强化学习的联邦学习客户端智能选取方法(AUCTION)的流程示意图；

图3是本发明优选实施例的基于深度强化学习的联邦学习客户端智能选取方法(AUCTION)的流程图；

图4是本发明优选实施例的训练客户端选择智能体的过程示意图；图4(a)为对于MLP MNIST学习任务；图4(b)为对于LeNet-5 FMNIST学习任务；图4(c)为对于ResNet-18CIFAR-10学习任务；

图5是10个候选客户端下本发明优选实施例(AUCTION)与其他客户端选择方案的性能对比图；图5(a)为对于MLP MNIST学习任务；图5(b)为对于LeNet-5 FMNIST学习任务；图5(c)为对于ResNet-18 CIFAR-10学习任务；

图6是50个候选客户端下本发明优选实施例(AUCTION)与其他客户端选择方案的性能对比图；图6(a)为对于MLP MNIST学习任务；图6(b)为对于LeNet-5 FMNIST学习任务；图6(c)为对于ResNet-18 CIFAR-10学习任务；

图7是学习预算对性能的影响图；图7(a)学习预算＝5；图7(b)学习预算＝10；图7(c)学习预算＝15；图7(d)学习预算＝20；

图8是LeNet-5 FMNIST学习任务在不同的客户端选择模型下的损失函数减少量，其中’ours-10’代表使用10个候选客户端训练得到的AUCTION模型。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

图1是本实施例中所称的一个典型的联邦服务市场框架的示意图，其包括有一个联邦平台和一些愿意参与联邦学***台以一定的预算来招募客户端完成任务，参与联邦学***台提交联邦学***台需要在给定的联邦学习任务预算B内从客户端集合

中选择一组最优的客户端。被选中的客户端将使用它们的私有数据样本协同训练联邦学习模型，然后获得它们声明的报酬。

参见图2，本发明的基于深度强化学***台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及客户端选择方案从多个候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给客户端选择智能体，以奖励用于优化更新策略网络；策略网络通过强化学习方法离线训练得到。

本发明实施例的客户端选择方案使用神经网络即策略网络作为客户端选择智能体，它将客户端的状态作为输入，并输出客户端选择动作。客户端状态包括对联邦学习性能产生重要影响的数据大小、数据质量和价格，而动作则决定选择哪些客户端参与联邦学习任务模型的训练过程。为了使得客户端选择方案能够适应客户端数量的动态变化并减少动作搜索空间，本发明设计了一个基于编码器-解码器结构的策略网络，编码器将客户端状态映射为中间向量表示，然后解码器根据这些中间向量表示生成客户端选择方案。本发明使用强化学习的方法离线训练策略网络，首先从联邦服务市场环境中收集客户端的状态，然后智能体根据当前环境状况做出客户端选择动作。之后，被选中的客户端协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给智能体，奖励用于更新策略网络，逐步完善客户端选择策略。

本发明实施例的强化学习模型。客户端选择问题的强化学习建模，包括状态、动作、奖励和策略。

1)状态(state)：状态s＝{x₁，x₂，…,x_n}包含给定联邦学习任务所有候选客户端的特征，每个客户端C_i的特征x_i是一个三维向量，用x_i＝{q_i,d_i，b_i}表示，其中q_i和d_i分别是客户端C_i的数据质量和用于训练的样本数量，b_i是客户端C_i完成该学习任务的价格(即应得的报酬)。由于出于隐私考虑，无法访问到每个客户端的原始数据，因此无法直接获取每个客户端的训练数据样本的质量(即训练数据中标签错误的样本所占的比例)。本发明使用每个客户端C_i贡献的本地模型的测试精度来代表数据质量q_i作为客户端C_i的特征之一，这样便可以在不破坏数据隐私的情况下捕获客户端的数据质量特征。

2)动作(action)：为了降低动作空间，本发明采用顺序动作，即客户端选择代理通过采取一系列的动作一一做出客户端选择决策。一个单独的动作只从一组最多N个候选客户端中选出一个客户端，通过这样的动作序列，动作空间可以减少到O(N)。

3)奖励(reward)：客户端选择策略的目标是最小化模型训练的损失函数。因此，本发明将执行客户端选择操作后(即在所选的客户端使用其本地数据样本训练全局模型后)从联邦服务市场观察到的奖励r设置为训练后损失函数值的减少率，即：

其中，F(w)是学习任务测试数据集上的初始全局损失函数值，F(w^*)是经过选定客户端的多轮协同训练后达到的测试损失函数值。

4)将客户端选择的一个可行动作a＝{a₁,…,a_i,…}定义为候选客户端的一个子集，其中a_i∈{C₁,C₂,…，C_n}且

AUCTION的策略网络定义了一个随机的客户端选择策略π(a|s，B)用于在给定状态s和学习预算B的情况下选择一个可行动作a。

本发明实施例的客户端选择策略网络。如图3所示，AUCTION的策略网络是一个基于注意力(attention)机制的深度神经网络模型，由编码器(Encoder)网络和解码器(Decoder)网络组成。具体如下：

1)编码器：

在编码器网络中，客户端嵌入层(Client Embedding Layer)首先通过线性投影把三维输入特征x_i转化为初始的d_h维嵌入向量

其中W^x和b^x为可学习参数。然后，嵌入向量会经过L个注意力(attention)层更新，其中，每一个注意力层l∈{1，2，…，L}输出嵌入向量

参照Transformer的编码器结构，每个注意力层包含一个multi-headattention(MHA，多头注意力)层和一个fully connected feed-forward(FF，全连接前馈)层，每层后面都添加了一个跳跃连接(skip-connection)和批归一化(BN，batchnormalization)：

multi-head attention(MHA)层由M个并行运行的注意力头组成，每个客户端C_i的MHA值根据每个头的输出

计算得到：

其中

是一个可学习的参数矩阵。给定一个客户端嵌入向量h_i，

的值由自注意力机制计算得到：

其中

和

为可学习的参数矩阵，每个客户端的查询(query)q_i、键(key)k_i和值(value)v_i是通过映射相同的嵌入向量h_i来计算的d_k是query/key向量的维度。

FF层的值由两个线性变换与ReLu激活函数计算得到：

2)解码器：

基于编码器输出的嵌入向量和解码器在时间t′<t时间输出的客户端选择结果，解码器在每个时间点t输出一个选中的客户端a_t直到学习预算用尽。解码器网络包含一个multi-head attention(多头注意力)层和一个single-head attention(单头注意力)层。Multi-head attention层的值d⁽⁰⁾由注意力机制计算得到。具体来说，以编码器的输出，即最终编码器输出的客户端嵌入向量

作为输入，解码器首先计算一个聚合嵌入向量

为了提高效率，我们只从聚合嵌入向量

中计算每个注意力头(head)的单个查询q_s而从客户端嵌入向量

其中

和

为可学习的参数矩阵。为了确保选中的客户端不重复并且不超过学习预算，本发明在时间t为每个客户端C_i定义了一个注意力mask(标志)

让a_t-1＝(a₁,a₂,…,a_t-1)代表在时间点t-1已经被选中的客户端，B_t-1代表剩余的学习预算，即

定义：

然后计算权重a_sj并且标志在时间点t不能被访问的客户端：

最后，multi-head attention值d⁽⁰⁾可基于每个head(头)的输出

利用公式(3)计算得到：

为了计算在时间点t选择客户端C_i的概率

multi-head attention层之后有一个single-head attention层。查询q和键k_i分别由multi-head attention值d⁽⁰⁾和客户端嵌入向量

计算得到：

其中

和

为可学习的参数矩阵。然后为每个客户端计算权重a_i并使用tanh运算将结果限制在范围[-C,C]内：

最后，在时间点t选择客户端C_i的概率

可使用softmax运算计算得到：

例如：在客户端选择策略网络的编码器网络中，设置d_h＝128，并使用L＝3个注意力层，每一个注意力层由一个M＝8个注意力头的multi-head attention层和一个有着512维隐藏子层的全连接前馈层组成；在解码器网络中，设置C＝10，并且解码器中的multi-head attention层也有M＝8个注意力头。

本发明实施例的策略网络的训练：

策略网络的参数θ是编码器和解码器可学***台上报价格特征b_i。然后，客户端选择代理根据策略选择一个动作a，联邦服务市场执行动作a的过程即选择a中的客户端参与模型训练。具体来说，在每一轮中，每个被选中的客户端C_i利用本地d_i个数据样本训练全局模型，并将模型更新提交到联邦平台进行聚合，这样，全局模型便可被迭代更新。随后，客户端选择代理评估全局模型的质量并得到奖励r。之后便可以根据(state,action,reward)经验更新策略网络。

训练策略网络的目标是最大化累计奖励：

其中r(a|s)是在状态s执行动作a后的奖励。本发明使用REINFORCE算法来优化J，并使用梯度下降来不断优化它的参数θ：

其中b(s)代表一个独立于a的基准函数用于加速训练过程。本发明定义b(s)为迄今为止训练得到的最好的模型输出的客户端选择动作，也就是说，通过贪婪地选择概率最大的动作来获得b(s)的值。这样一来，如果客户端选择动作a的奖励比贪婪选择的好，则r(a|s)-b(s)为正值，导致该动作被强化，所以策略模型就会被训练得不断进步。

具体训练算法为：首先，随机生成一个训练集合

其中每个样本

代表联邦服务市场的一种状态，s_i中候选客户端的特征从均匀分布随机生成。训练集合

以及训练迭代次数E、批次大小B_s和学习预算B作为输入，算法在E次迭代后输出策略网络的更新参数θ。在每次迭代中，算法从集合

中抽取一批大小为B_s的样本，对于每个样本s_i，客户端选择代理首先从策略π_θ(a|s,B)中得到一个可行的动作a_i，然后贪婪地选择动作b_i。之后，联邦服务市场分别执行动作a_i和b_i，并分别计算奖励r(a_i|s_i)和

最后，算法计算梯度

并利用Adam优化器更新参数θ，

使用以下三个联邦学习任务来评估本发明提出的基于深度强化学习的联邦学习客户端智能选取方法及***：1)MLP MNIST，使用Multi-layer Perceptron(MLP)模型训练MNIST数据集；2)LeNet-5 FMNIST，使用LeNet-5模型训练Fashion-MNIST(FMNIST)数据集；3)ResNet-18 CIFAR-10，使用ResNet-18模型训练CIFAR-10数据集。并将本发明提出的联邦学习客户端选择方案与以下三个可行的客户端选择方案比较：1)Greedy(贪心算法)，基于数据大小与数据质量的乘机除以价格的值，即d_i·q_i/b_i贪心地选择数据规模大、数据质量高、价格低的客户端；2)Random(随机算法)，在学习预算B内随机地选择客户端；3)Pricefirst(价格优先算法)，优先选择学习价格低的客户端，以在有限的学习预算内选择尽可能多的客户端。

本发明提出的客户端选择方案先为每个学***均奖励为一个小批量(minibatch)内的平均奖励，具体而言，对于MLP MNIST任务和LeNet-5 FMNIST任务，奖励为5轮次联邦训练后在各自的测试数据集上测得的损失函数减少量，而对于ResNet-18CIFAR-10任务，奖励为20轮次联邦训练后在CIFAR-10测试数据集上测得的损失函数减少量。从图4中可以看到客户端选择智能体对每个学习任务的训练奖励在经过几十个小批量(minibatches)的训练后，可以很快收敛到一个稳定的较高值，这说明客户端选择智能体可以有效学习到如何做出最优的客户端选择策略。

模拟一个联邦服务市场，每个学习任务有10个候选客户端，其中一半客户端的训练数据样本标注错误，错误率从(0,1)随机生成。图5展示了在学习预算为10的情况下，采用不同的客户端选择策略，每个学习任务的损失函数值减少量。可以看到，对于3个学习任务，AUCTION的性能显著优于其他客户端选择方案。此外，可以发现，由于Greedy机制在客户选择过程中同时考虑了数据大小、数据质量和价格，因此，Greedy机制的性能优于Random和Price first机制。这说明数据大小、数据质量和价格对学习性能都是至关重要的，AUCTION可以在这三者之间做出更好的权衡，从而获得更优异的性能。

为了证明AUCTION的鲁棒性，接下来评估其在联邦服务市场上面对大规模候选客户端时的性能。图6展示了有50个候选客户端时每个学习任务的性能。同样，有50％的客户端拥有错误的训练数据样本，每个学习任务的预算为10.可以看到，AUCTION在大规模客户端场景下仍然表现良好，明显优于其他客户端选择方案，因此也证明了AUCTION在不同的联邦服务市场环境下对每个学习任务的高效性和鲁棒性。

图7展示了LeNet-5 FMNIST任务在不同的学习预算下的性能，其中有50个候选客户端。从实验结果中可以得出两点结论。首先，AUCTION在所有情况下的性能都优于其他的客户端选择方案。其次，当增加学习预算时，AUCTION与其他客户端选择方案，尤其是Greedy机制的性能差距变得越来越显著。这是因为随着学习预算的增加，AUCTION的性能先是增加，然后稳定在一个相对较高的值，而Greedy的性能先是增加，但随后开始下降。究其原因，当数据样本标注错误的客户端数量固定时，随着学习预算的增加，Greedy可以选择更多的客户端来完成学习任务，但选择低质量训练数据的客户端的可能性也会增加。结果，所选取的具有低质量训练数据样本的客户端对学习性能产生了负面影响，导致损失函数减少量的下降。然而，AUCTION仍然可以自适应学习预算的变化，保持相对稳定的性能。

图8展示了LeNet-5 FMNIST学习任务通过不同的客户端选择模型选择的参与客户端经过30轮联邦训练后得到的损失函数值减少量。具体来说，先分别使用10-50个候选客户端离线训练AUCTION客户端选择智能体，然后再分别使用10-50个不同数量的候选客户端在线评估其客户端选择性能，其中学习预算设置为10。可以看到，当面对不同数量的在线候选客户端时，训练后的AUCTION模型也能有很好的表现。这意味着AUCTION对于不同数量的客户端有很好的可扩展性，这在真实的联邦服务市场中更加实用。

综上所述，本发明提出的基于深度强化学习的联邦学习客户端智能选取方法及***，可处理分布式客户端低质量数据问题，以显著提高联邦学习质量。并且可以自动学习高质量的联邦学习客户端选择方案，相比其他的客户端选择方案有更好的性能。本发明设计的基于编码器-解码器结构的客户端选择策略网络，可自适应客户端数量的动态变化，实用性强。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学***台和多个愿意参与联邦学***台提交联邦学习任务的候选客户端；其特征在于，包括以下步骤：

联邦平台通过从联邦服务市场环境中收集客户端的状态作为输入，输入到基于策略网络的客户端选择智能体中，输出客户端选择方案；联邦平台根据当前环境状况以及所述客户端选择方案从多个所述候选客户端中选取一组最优的客户端以协同训练联邦学习模型，并将联邦学习性能作为奖励反馈给所述客户端选择智能体，以奖励用于优化更新策略网络；所述策略网络通过强化学习方法离线训练得到；

所述客户端选择智能体，为基于编码器-解码器结构的策略网络，编码器将客户端状态映射为中间向量表示，解码器根据所述中间向量表示生成客户端选择方案；所述客户端状态包括数据大小、数据质量和价格。

2.根据权利要求1所述的基于深度强化学习的联邦学习客户端智能选取方法，其特征在于，所述策略网络的强化学习模型，包括状态、动作、奖励和策略：

3.根据权利要求2所述的基于深度强化学习的联邦学习客户端智能选取方法，其特征在于，所述最大化累计奖励，表示为：

其中r(a|s)是在状态s执行动作a后的奖励；

使用REINFORCE算法来优化J，使用梯度下降来不断优化参数θ：

4.根据权利要求2所述的基于深度强化学习的联邦学习客户端智能选取方法，其特征在于，所述编码器包括：

其中W^x和b^x为可学习参数；

5.根据权利要求4所述的基于深度强化学习的联邦学习客户端智能选取方法，其特征在于，所述解码器包括：

6.一种计算机***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5中任一所述方法的步骤。