CN113011602B

CN113011602B - 一种联邦模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN113011602B
Application number: CN202110233292.3A
Authority: CN
Inventors: 徐宏力; 刘建春; 许杨; 马振国; 范兴鹏; 黄刘生
Original assignee: Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Current assignee: Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-05-30
Anticipated expiration: 2041-03-03
Also published as: CN113011602A

Abstract

本发明公开了一种联邦模型训练方法、装置、电子设备和存储介质，由联邦模型训练***中的服务器执行，包括：将目标任务对应的全局模型下发至各边缘工作节点；基于预设算法，根据当前网络资源以及目标任务的数量，确定参与全局模型更新的本地模型的指定数目；当接收到指定数目的本地模型更新数据时，进行联邦聚合以得到更新后的全局模型。本发明实施例的技术方案，利用预设算法结合每一轮迭代的网络资源来动态的确定参与全局模型训练的本地模型数量，有效地提高联邦学习过程中模型训练的网络资源利用率，避免了由于网络资源受限问题导致的联邦模型无法收敛的问题，极大的提高了联邦模型训练的性能。

Description

一种联邦模型训练方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种联邦模型训练方法、装置、电子设备和存储介质。

背景技术

联邦学习***通常由一个或多个参数服务器和众多边缘工作节点组成，遵循典型的参数服务器体系结构。在进行联邦学习时，边缘工作节点将本地更新发送到参数服务器，并从参数服务器接收全局更新模型。由于边缘工作节点不向参数服务器发送训练数据，而只是向参数服务器发送模型的更新，因此联邦学习可以有效地保护用户的隐私，在各个领域都得到了广泛的应用。

目前，边缘计算网络中的联邦学习模型训练主要有两种方案，分别是同步训练方法和异步训练方法。同步训练方法中，服务器每一轮的全局更新都需要接收所有边缘工作节点更新后的本地模型数据，网络带宽消耗较高；而在异步训练方法中，只有固定数量的部分边缘工作节点将更新的本地模型发送到服务器进行全局更新，这将导致联邦训练的训练次数增加，也会造成带宽的高消耗。

发明内容

本发明提供一种联邦模型训练方法、装置、电子设备以及存储介质，以提高联邦学习过程中模型训练的网络资源利用率，避免了由于网络资源受限问题导致的联邦模型无法收敛的问题，极大的提高了联邦模型训练的性能。

第一方面，本发明实施例提供了一种联邦模型训练方法，由联邦模型训练***中的服务器执行，包括：

将目标任务对应的全局模型下发至各边缘工作节点；

基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目；

当接收到所述指定数目的本地模型更新数据时，进行联邦聚合以得到更新后的全局模型；

将所述更新后的全局模型下发至所述各边缘工作节点，以供所述各边缘工作节点进行下一轮本地模型训练。

第二方面，本发明实施例还提供了一种联邦模型训练装置，配置于服务器中，该装置包括：

下发模块，用于将目标任务对应的全局模型下发至各边缘工作节点，还用于将更新后的全局模型下发至所述各边缘工作节点进行下一轮本地模型训练；

确定模块，用于基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目；

更新模块，当接收到所述指定数目的本地模型更新数据时，进行联邦聚合以得到更新后的全局模型。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施中任一所述的一种联邦模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明实施中任一所述的一种联邦模型训练方法。

本发明的有益效果是：本发明通过联邦模型训练***中的服务器将目标任务对应的全局模型下发至各边缘工作节点，进而基于预设算法，根据当前网络资源以及目标任务的数量，确定参与全局模型更新的本地模型的指定数目，服务器在接收到指定数目的本地模型更新数据时，进行联邦聚合，并将聚合后更新的全局模型下发至各边缘工作节点，以供各边缘工作节点进行下一轮的本地模型训练，直至全局模型达到收敛条件。本发明实施例的技术方案，通过利用预设算法结合每一轮迭代的网络资源来动态的确定参与全局模型训练的本地模型数量，与现有技术相比，能够有效地提高联邦学习过程中模型训练的网络资源利用率，避免了由于网络资源受限问题导致的联邦模型无法收敛的问题，极大的提高了联邦模型训练的性能。

附图说明

图1为本发明提供一种联邦模型训练方法的流程图；

图2为本发明实施例提供一种联邦模型训练***的逻辑架构图；

图3为本发明实施例所依赖的Parameter Server(PS)分布式架构基础示意图；

图4a为采用同步训练方法进行联邦模型训练的试验结果图；

图4b为采用本发明实施例提供的异步训练方法进行联邦模型训练的试验结果图；

图5为本发明实施例二提供的一种联邦模型训练装置的结构示意图；

图6为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种联邦模型训练方法的流程图，本实施例可适用于边缘计算网中进行联邦模型训练的情况，该方法可以由本发明实施例提供的联邦模型训练装置来执行，该装置可以由软件和/或硬件的方式来执行，典型的，该装置可以集成在联邦模型训练***中的服务器中。

进一步参见图2，图2为本发明实施例提供一种联邦模型训练***的逻辑架构图，本实施例所提供的联邦模型训练***包括至少一个参数服务器以及多个边缘设备(即客户端，也称边缘工作节点)。参数服务器用于通过无线网络与客户端进行通信，进行模型参数的传输；客户端用于将本地模型更新传输给参数服务器，并等待回复。

具体的，参数服务器包括两个模块：全局更新模块和参数更新模块。全局更新模块主要负责对来自边缘工作节点的本地模型更新进行汇聚。示例性的，本发明实施例可以采用比较经典的联邦平均(FederatedAveraging，FedAvg)算法进行联邦聚合，根据各自边缘工作节点上的数据量和权重对本地模型更新进行汇聚。

参数更新模块主要负责对参与全局模型训练的本地模型数量的相关参数值的计算和更新，随着训练程度的不同，网络中的资源预算也随之改变，需要根据网络中的资源对上述参数值进行更新，以接收不同数量的本地模型更新。

客户端也包括两个模块：本地训练模块和数据收集模块。本地训练模块主要负责对每一个边缘工作节点上的本地数据进行训练更新，在训练完成后将本地模型更新发送给服务器，然后继续等待服务器发送的更新后的全局模型。数据收集模块主要负责对所有设备产生的数据进行收集，并进行预处理，以便更好地进行模型训练。其中，客户端和参数服务器之间既可以进行模型的传输，也可以进行模型相关参数的传输。

典型的，图3为本发明实施例所依赖的Parameter Server(PS)分布式架构基础示意图，该服务器组里包含一个用于管理的服务器和多个用于全局模型更新的参数服务器。服务器分别通过控制流和数据流与客户端进行通信。客户度在收集到数据后，在本地进行本地模型训练，并将训练完成后的本地模型更新发送给参数服务器。

继续参见图1，该方法具体包括如下步骤：

S110、将目标任务对应的全局模型下发至各边缘工作节点。

其中，目标任务可以为进行联邦训练的任一类型的任务请求，如机器翻译、人脸识别以及语音识别等等。全局模型为在服务器中进行训练的与目标任务相匹配的模型。

具体的，在联邦训练的初始阶段，网络管理员根据目标任务的具体类型向服务器下发的初始全局模型和一些用于模型训练的参数值。服务器在接收到全局模型之后，对全局模型进行初始化，并将该全局模型下发至各边缘工作节点。

S120、基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目。

其中，所述当前网络资源包括：当前网络带宽以及当前所述各边缘工作节点的计算资源等网络资源。预设算法为根据网络资源对模型目标函数进行优化求解的算法，当目标任务的数量不同时，对应的预设算法也不同。

作为一种可选的实施方式，所述基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目，包括：

若所述目标任务为单一任务，则通过求解不等式约束问题确定第一网络资源阈值以及第二网络资源阈值，并将所述当前网络资源与第一网络资源阈值与第二网络资源阈值进行比较；其中，所述第一网络资源阈值大于所述第二网络资源阈值；

根据比较结果，确定参与所述全局模型更新的本地模型的指定数目。

以当前网络资源为带宽资源为例，若带宽资源预算无限，即带宽资源趋向无穷大，则在每一轮全局模型的更新过程中都可以接受所有边缘工作节点上的本地模型更新数据；若带宽资源有限，则需要通过求解不等式约束问题来得到当前带宽资源的上下限两个阈值，通过当前将带宽资源与两个阈值之间的比较，来进行一步确定参与全局模型更新的本地模型的指定数目。

具体的，所述根据比较结果，确定参与所述全局模型更新的本地模型的指定数目，包括：

若所述当前网络资源大于所述第一网络资源阈值，则所述指定数目的本地模型为各边缘工作节点上所有的本地模型；

若所述当前网络资源小于所述第二网络资源阈值，则所述指定数目的本地模型为各边缘工作节点上的本地模型中的一个；

若所述当前网络资源小于或等于所述第一网络资源阈值且大于或等于所述第二网络资源阈值，则基于凸优化算法，根据所述当前网络资源确定参与所述全局模型更新的本地模型的指定数目。

其中，所述基于凸优化算法，根据所述当前网络资源确定参与所述全局模型更新的本地模型的指定数目，包括：确定所述全局模型收敛的目标函数；根据所述当前网络资源，设置单调递减的辅助函数；利用凸优化理论对所述辅助函数进行求导，确定所述当前网络资源下对应的参数值；将所述参数值与所述边缘工作节点个数的乘积作为参与所述全局模型更新的本地模型的指定数目。

具体的，设上述参数值为α，0＜α≤1；带宽资源为B，边缘工作节点的数目为n。使用凸优化算法时，需要使用到收敛性证明的结果。具体的，使用g_k表示第k种资源在边缘工作节点上进行本地更新的消耗，同时使用b_k表示在全局更新时进行模型传输的资源消耗。因此，对于某一种资源k，经过T轮训练后，n个工作节点的总资源消耗分别为T·n·g_k和T·(α+1)·n·b_k。令B_k为第k种资源的预算约束，则所有轮训练的总资源消耗之和要小于该预算约束。

为了更方便的计算，本实施例中，将目标函数F(ω^T)替换为通过收敛证明得到的上确界。使用F(ω^T)和F_i(w^T)分别表示全局损失函数和每个边缘工作节点i上的本地损失函数，当F(ω^T)-F(ω^*)＜ε时，全局模型达到收敛，其中，F(ω^*)为全局模型训练的最优值，ε为较小的正实数。进一步的，以当前资源为网络带宽为例，通过凸优化算法求解参数值ɑ的具体步骤如下：

首先，利用证明得到的F(ω^T)-F(ω^*)的收敛界对目标函数进行替换；

其次，判断当前剩余的带宽资源，如果带宽资源预算无限，即B→∞，那么不管α值如何设定，全局模型总能达到收敛。如果带宽资源有限，设置一个单调递减的辅助函数h(α)，由于辅助函数与原目标函数的单调性相同，因此，通过求解h(α)能够得到原目标函数的结果；

接着，利用凸优化理论中的方法对h(α)进行求导，结合函数的增减性和区间得到三种情况，即不同剩余带宽资源预算下的α值。

最后，随着模型训练的不断迭代，对网络资源B进行更新。

当前带宽资源求解得到值的α与n的乘积为参与所述全局模型更新的本地模型的指定数目。

作为另一可选的实施方式，所述基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目，包括：

若所述目标任务的数量大于或等于2时，则基于序列二次规划的比例分配算法，根据当前网络资源确定参与所述全局模型更新的本地模型的指定数目。

进一步的，所述基于序列二次规划的比例分配算法，根据当前网络资源确定参与所述全局模型更新的本地模型的指定数目，包括：初始化各目标任务对应的各目标函数，并确定所述各目标函数对应的搜索方向和搜索步长；基于所述基于序列二次规划的比例分配算法，根据所述搜索方向和搜索步长对所述各目标函数进行最优化求解；根据最优化求解的结果确定在所述当前网络资源下所述各目标任务对应的参数集合；确定所述参数集合中的各参数与边缘工作节点个数的乘积，将所述乘积作为各目标任务对应的参与所述全局模型更新的本地模型的指定数目。

具体的，当目标任务为多个时，需要为每一个目标任务确定各自的参数值α和训练轮数T，目标为最小化所有目标任务中最大的损失函数，具体步骤如下：

首先，初始化算法中所需参数，Φ为所有任务的α值集合，带宽资源预算B，对称正定矩阵U；

其次，计算向量(λ,D)，其中λ是转换后的目标函数，D为搜索方向。其中当该向量为0时，则算法停止搜索，否则继续搜索；

当确定搜索方向后，开始进行非单调线搜索；

最后，进行更新操作，包括计算一个新的对称正定矩阵，对集合Φ进行更新以及网络带宽资源预算进行更新。判断资源预算如果用尽，则算法停止，否则继续对目标函数进行搜索。

其中，上述基于序列二次规划的比例分配算法可以通过证明得到其全局收敛性，即可以为每一个目标任务对应的全局模型找到最优的α值，并且各目标任务对应的损失函数能达到最小值。

与现有技术相比，本发明实施例的有益效果如下：

(1)资源利用高效：本发明能够对网络中的资源进行高效且合理地利用，根据不同的剩余资源预算，确定不同的全局更新所需要接收的本地模型更新数目。

(2)模型训练速度快：本发明使用异步分布式模型训练方法，无需等到训练时间较长的本地模型更新，或者避免了由于本地边缘工作节点出现宕机等问题而无法发送本地模型更新的问题，大大加快了全局模型训练速度，降低训练时间。

(3)模型训练性能好：本发明在相同资源约束下，与现有方法相比，能够达到较好的训练性能，如全局损失函数值或预测准确率等。

S130、当接收到所述指定数目的本地模型更新数据时，进行联邦聚合以得到更新后的全局模型。

本实施例中，当服务器接收到指定数目的本地模型更新数据时，就可以进行全局模型的联邦聚合，从而得到更新后的全局模型。本实施例通过根据每轮迭代过程中，当前网络资源的情况来动态的确定参与全局模型训练的本地节点数目，有效地利用了当前网络中的资源，避免了网络中由于资源受限问题导致的模型无法收敛等问题。

S140、将所述更新后的全局模型下发至所述各边缘工作节点，以供所述各边缘工作节点进行下一轮本地模型训练。

本实施例中，当服务器完成全局模型的更新之后，将更新后的全局模型或者更新后的模型参数发送至各边缘工作节点，使得各边缘工作节点根据更新后的全局模型进行下一轮本地模型的训练，直至模型收敛。

本发明方法使用异步分布式模型训练策略，与同步训练方法相比，无需等待一些由于资源较少(如计算能力)或者数据较多的而训练较慢的工作节点。与传统异步训练方法相比，无需过多的训练轮数，经实验验证，当达到相同训练效果，传统异步训练方法需要的训练轮数是本发明实施例中所提供的方法的3-4倍。

本实施例的技术方案，通过联邦模型训练***中的服务器将目标任务对应的全局模型下发至各边缘工作节点，进而基于预设算法，根据当前网络资源以及目标任务的数量，确定参与全局模型更新的本地模型的指定数目，服务器在接收到指定数目的本地模型更新数据时，进行联邦聚合，并将聚合后更新的全局模型下发至各边缘工作节点，以供各边缘工作节点进行下一轮的本地模型训练，直至全局模型达到收敛条件。本发明实施例的技术方案，利用预设算法结合每一轮迭代的网络资源来动态的确定参与全局模型训练的本地模型数量，与现有技术相比，能够有效地提高联邦学习过程中模型训练的网络资源利用率，避免了由于网络资源受限问题导致的联邦模型无法收敛的问题，极大的提高了联邦模型训练的性能。

进一步介绍本发明实施例的试验验证结果，参见图4a和图4b，通过包含一个服务器和四个工作节点的联邦训练模型***来对上述方法进行验证。示例性的，本发明实施例采用下表所示几个经典的模型和数据进行验证。

模型	数据集
		逻辑回归	MNIST
卷积神经网络	MNIST
		卷积神经网络	Fashion-MNIST
卷积神经网络	CIFAR-10
		卷积神经网络	CIFAR-100

其中，图4a为采用同步训练方法进行联邦模型训练的试验结果图，图4b为采用本发明实施例提供的异步训练方法进行联邦模型训练的试验结果图，二者具有相同的固定长度时间周期。

图4a和图4b中服务器所对应的那一行为全局模型更新过程，各工作节点对应的那一行为各工作节点上对应的本地模型的更新过程。在图4a对应的同步训练中，只有在服务器接收到来自四个工作节点的所有本地更新之后，服务器才会执行模型聚合以导出更新的全局模型。当工作节点收到全局模型时，工作节点将继续使用本地数据进行训练。

在图4a中，同步训练方案中只有两个全局模型更新。而在本发明所提方案中，令

为例进行实验验证，换句话说，当从任意两个工作节点接收到本地模型更新时，服务器将执行全局更新。但在实际环境中，工作节点的数据和资源(如计算能力和带宽预算)总是随着时间变化的。因此，全局更新中涉及的局部更新的子集将在不同的时间段中变化。例如，服务器在第一轮中聚合来自节点1和节点2的本地更新，在第二轮中聚合来自节点2和节点4的本地更新。请注意，如果服务器在当前聚合期间接收到更新，则本地更新的模型将在下一次全局更新中聚合。因此，在给定一个固定的时间段，本发明所提供的方案图4b中有四个全局更新，而同步方案图4a中只有两个全局更新。因此，在相同的时间预算约束下，本发明所提供的异步训练方法比现有技术中的同步训练方法具有更多的全局更新和更快的收敛速度。

需要注意的是，我们提出的异步分布式模型训练机制可能会遇到另一个问题，也就是延迟更新问题。例如在图4b中，当工作节点3第一次将其本地更新模型发送到服务器进行全局模型聚合时，服务器在时间节点t₁和t₂聚合了来自工作节点1、2和4的本地模型更新。因此，节点3的模型更新相对目前的全局模型已经产生滞后。针对此问题，我们采用了延迟补偿机制来缓解这个问题。我们使用M_G表示当前的全局模型，使用M_i，

表示节点i中最新的本地更新模型。这些模型将记录在服务器上，以便对过时的模型执行延迟补偿。例如，考虑到时间点t介于t₂和t₃之间，工作节点1只向服务器发送了一次本地更新模型，而服务器执行了两次全局模型聚合。然后，工作节点1的陈就度是全局模型更新次数和本地模型更新次数之间的差距，例如这里的2-1＝2。服务器两次从节点1接收本地模型后，模型M₁将用衰减系数/>

进行更新，其中/>

即/>

其中x表示节点1的陈就度。通过这种方式，可以减轻过时模型的影响。

在仿真测试时，我们首先使用逻辑回归模型在手写数字数据集FMNIST上做训练，轮数为300。在测试同步方案(α＝1)和传统异步方案(α＝1/n)的同时，也测试了本发明所提方法的三个不同值(分别为α＝0.3、0.5和0.7和)。通过实验结果可知，当达到相同训练性能，及相同损失函数值或预测准确率时，传统异步方案的训练轮数是本发明实施例所提供的方案的4倍左右，因此传统的异步训练方案需要更多的训练时间。

此外，下表为每一种方案的整体训练完成时间的测试时间，由于同步方案需要等待所有的节点发送本地模型更新，所以需要更多的训练完成时间。本发明实施例所提供的方案相比于同步和传统异步方案可以节省大量的训练时间。具体的，本发明实施例所提供的方案只需要700s左右，而同步方案和传统异步方案大约各自需要2700s和2600s，因此本发明实施例所提供的方案可以节省大约74％的训练时间。

方案	训练时间
		同步方案	2700s
传统异步方案	2600s
		本发明方案	700s

除此之外，本发明实施例所提供的方案还测试了多个任务的应用场景，在有限的训练时间预算下测试了多个学习任务的性能。在实际环境中，一些训练任务往往需要在规定的时间内完成。随着将时间约束从300s调整到3000s，所有任务中的最大损失函数值逐渐变小，最小精度逐渐变高。与其他两个对比方案相比，本发明实施例所提供的技术方案可以实现更小的损失函数值和更高的精确度。例如，当时间预算为1500s时，本发明实施例所提供的技术方案的最小精度约为37％，而同步方案和传统异步方案的最小精度分别只有29％和19％。因此，与这两个方案相比，本发明实施例所提供的技术方案可分别提高8％和18％左右的最小精确度。

进一步观察多个学习任务在有限带宽预算下的性能表现。参数服务器与工作节点之间的通信将产生巨大的网络带宽消耗。在本实施来中，通过将带宽资源预算从100Mbps一直调整到1000Mbps来测试三种方案。例如，当带宽预算为800Mbps时，使用本发明实施例所提供的技术方案的三个训练任务的最小精度约为81％，而同步方案和传统异步方案的最小精度大约是76％和72％。因此，与两种方案相比，本发明实施例所提供的异步联邦学习框架可分别提高约5％和9％的最小精确度。结果表明，在资源受限的情况下，与两个对比方案相比，本发明实施例所提供的异步联邦学习能显著提高分类精确度。

本发明还在小型试验床上实现了三种方案，它由两个主要部分组成：一个具有四个NVIDIA GeForce RTX Titan GPU的深度学习工作站(CPU:ARMv8 Cortex-A57，内存：8GB)和10个Jetson-TX2开发板。具体来说，工作站充当参数服务器，负责模型聚合和全局模型验证。本实施例中采用Jetson-TX2开发板作为工作节点，在本地训练模型并将更新发送到服务器进行聚合。用pytorch开发了一个分布式模型训练框架。工作节点和参数服务器通过同一路由器中的无线网络进行物理连接。此外，它们通过torch.distributed和工具包gloo后端进行逻辑连接。具体地说，将服务器的互联网协议地址(Internet Protocol Address，IP地址)和指定的端口结合起来，通过传输控制协议(Transmission Control Protocol，TCP)协议在服务器和工作节点之间建立连接。建立连接后，服务器对训练和测试数据集进行分段，并将分段结果发送给每个工作节点。在收到结果后，节点生成本地数据集以进行训练。

在试验床上分别为CIFAR10和FMNIST实现了两种不同类型和结构的卷积神经网络(Convolutional Neural Networks,CNN)模型。第一个CNN模型用于CIFAR10数据集。它有两个的卷积层(64、64个通道，每个通道后跟最大池化层)、两个密集层(384和192个单元)和一个softmax输出层(10个单元)。第二个CNN模型有两个卷积层(32、64个通道，每个通道后面有最大池化层)、1024个单元的密集层和10个单元的softmax输出层(与FMNIST中的10个类相关)用于FMNIST数据集。

在试验床上，我们主要考虑了不同数据分布(包括数量和类别)对模型训练效果的影响。首先，节点上的数据量随时间和空间的变化而显著变化，往往是不平衡的，因此，本实施例采用三种不同的数据分布情况来模拟数据不平衡。

(1)情况1：通过在10个节点中分配相同数量的培训数据(例如，6000)；

(2)情况2：不同节点之间的数据量差别不大(例如，4000-8000)；

(3)情况3：不同节点之间的数据量差别很大(例如，1000-11000)。

第二，不同类别的数据分布，即独立同部分(I.I.D.)和非独立同分布(Non-I.I.D.)数据，在节点中也会对模型训练产生不同的影响。例如，在I.I.D.的情况下，每个节点都有所有类别的数据样本(例如，10个类)，但在Non-I.I.D.的情况下，每个节点可能只有部分类别(例如，5个类)。通过采用四个不同的案例来验证数据分布对模型训练的影响，包括案例(I)：每个数据样本随机分配给一个节点，因此每个节点都有统一(但不完全)的信息，即I.I.D.数据；案例(II)：每个节点有5类数据样本；案例(III)：每个节点有2类数据样本；案例(IV)：每个节点只有1类数据样本。病例Ⅱ～Ⅳ的数据样本为Non-I.I.D，数据分布的不均匀程度逐渐增加。

在第一组实验中，分别用卷积神经网络在FMNIST和CIFAR10上的训练来测试均衡和均匀的数据。通过在2000个训练周期内进行了两组实验。在FMNIST数据集上，RE-AFL的损失函数值为0.3737，同步方案和传统异步方案的损失函数值分别为0.3382和0.6296。同时，RE-AFL的训练准确率约为86.8％，同步方案和传统异步方案的训练准确率分别约为87.8％和76.9％。因此，本发明实施例提出的异步训练方法可以提高约10％的训练精度。

在第二组实验中，我们观察了模型训练(卷积神经网络在FMNIST数据集上训练)在三种不同数据量分布情况下(情况1-3)的性能。在每种情况下，都以1000个训练周期作为基线运行同步算法。在第1种情况下，本发明实施例提供的异步联邦学习机制需要更多的训练轮数(约1435)才能达到基线的损失值。因为在传统异步方案中，服务器一次只聚合来自任意一个节点的本地模型更新。因此，传统异步方案需要运行9328个训练周期才能达到相同的训练损失性能。换句话说，与同步方案相比，传统异步方案需要9倍的训练周期，而本发明实施例提供的异步联邦学习机制只需要1.5倍的训练周期。同时观察三种方案在1-3种情况下的训练精度和时间。本发明实施例提供的异步联邦学习机制在达到相同的基线训练性能(损失和准确度)的同时，实现了最小的训练时间。例如，在情况1中，本发明实施例所提供的异步联邦学习机制的训练时间约为11835s，而同步方案和传统异步方案的训练时间分别约为22957s和36587s。换言之，本发明实施例所提供的异步联邦学习机制比同步方案和传统异步方案分别减少48.4％和67.9％的训练时间。

最后一组实验测试了模型训练(卷积神经网络在FMNIST数据集上训练)在四种不同类型的数据分布案例I-IV下的性能。首先测试了本发明实施例所提供的异步联邦学习在四种不同数据类别分布情况下的训练性能。在第四种情况下，运行5000轮时的训练损失约为1.3834，而在第二种情况下运行1300轮时的训练损失约为0.5042。换言之，Non-I.I.D.数据的训练效果比I.I.D.数据差。然后，用案例II测试训练效果。为了达到与同步方案相同的损失值(1000轮)，本发明实施例所提供的异步联邦学习进行了更多的训练轮数(约1310轮)。在训练过程中，传统异步方案的损失值波动较大，并逐渐增大。因此，传统异步方案不能很好地处理Non-I.I.D.训练数据，但本发明实施例所提供的异步联邦学习可以很好地处理它。

实施例二

图5为本发明实施例提供的一种联邦模型训练装置的结构示意图，该装置配置于服务器中。本发明实施例所提供的一种联邦模型训练装置可执行本发明任意实施例所提供的一种联邦模型训练方法，该装置包括：

下发模块510，用于将目标任务对应的全局模型下发至各边缘工作节点，还用于将更新后的全局模型下发至所述各边缘工作节点进行下一轮本地模型训练；

确定模块520，用于基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目；

所述当前网络资源包括：当前网络带宽以及当前所述各边缘工作节点的计算资源。

更新模块530，当接收到所述指定数目的本地模型更新数据时，进行联邦聚合以得到更新后的全局模型。

进一步的，所述确定模块具520体用于：若所述目标任务为单一任务，则通过求解不等式约束问题确定第一网络资源阈值以及第二网络资源阈值，并将所述当前网络资源与第一网络资源阈值与第二网络资源阈值进行比较；其中，所述第一网络资源阈值大于所述第二网络资源阈值；

所述确定模块520还具体用于：若所述当前网络资源大于所述第一网络资源阈值，则所述指定数目的本地模型为各边缘工作节点上所有的本地模型；

所述确定模块520还具体用于：确定所述全局模型收敛的目标函数；

根据所述当前网络资源，设置单调递减的辅助函数；

利用凸优化理论对所述辅助函数进行求导，确定所述当前网络资源下对应的参数值；

将所述参数值与所述边缘工作节点个数的乘积作为参与所述全局模型更新的本地模型的指定数目。

所述确定模块520还具体用于：若所述目标任务的数量大于或等于2时，则基于序列二次规划的比例分配算法，根据当前网络资源确定参与所述全局模型更新的本地模型的指定数目。

所述确定模块520还具体用于：初始化各目标任务对应的各目标函数，并确定所述各目标函数对应的搜索方向和搜索步长；

基于所述基于序列二次规划的比例分配算法，根据所述搜索方向和搜索步长对所述各目标函数进行最优化求解；

根据最优化求解的结果确定在所述当前网络资源下所述各目标任务对应的参数集合；

确定所述参数集合中的各参数与边缘工作节点个数的乘积，将所述乘积作为各目标任务对应的参与所述全局模型更新的本地模型的指定数目。

本发明实施例提供的技术方案，通过联邦模型训练***中的服务器将目标任务对应的全局模型下发至各边缘工作节点，进而基于预设算法，根据当前网络资源以及目标任务的数量，确定参与全局模型更新的本地模型的指定数目，服务器在接收到指定数目的本地模型更新数据时，进行联邦聚合，并将聚合后更新的全局模型下发至各边缘工作节点，以供各边缘工作节点进行下一轮的本地模型训练，直至全局模型达到收敛条件。本发明实施例的技术方案，利用预设算法结合每一轮迭代的网络资源来动态的确定参与全局模型训练的本地模型数量，与现有技术相比，能够有效地提高联邦学习过程中模型训练的网络资源利用率，避免了由于网络资源受限问题导致的联邦模型无法收敛的问题，极大的提高了联邦模型训练的性能。

本发明实施例所提供的一种联邦模型训练装置可执行本发明任意实施例所提供的联邦模型训练方法，具备执行方法相应的功能模块和有益效果，不再进行赘述。

实施例三

图6为本发明实施例三提供的一种电子设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图6显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备/终端/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种联邦模型训练方法。

实施例四

本发明实施例四还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的一种联邦模型训练方法。其中，该方法由联邦模型训练***中的服务器执行，包括：

将目标任务对应的全局模型下发至各边缘工作节点；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种联邦模型训练方法，其特征在于，由联邦模型训练***中的服务器执行，包括：

将目标任务对应的全局模型下发至各边缘工作节点；

将所述更新后的全局模型下发至所述各边缘工作节点，以供所述各边缘工作节点进行下一轮本地模型训练；

所述基于预设算法，根据当前网络资源以及所述目标任务的数量，确定参与所述全局模型更新的本地模型的指定数目，包括：

根据比较结果，确定参与所述全局模型更新的本地模型的指定数目；

所述根据比较结果，确定参与所述全局模型更新的本地模型的指定数目，包括：

若所述当前网络资源小于或等于所述第一网络资源阈值且大于或等于所述第二网络资源阈值，则基于凸优化算法，根据所述当前网络资源确定参与所述全局模型更新的本地模型的指定数目；

2.根据权利要求1所述的方法，其特征在于，所述当前网络资源包括：

当前网络带宽以及当前所述各边缘工作节点的计算资源。

3.根据权利要求1所述的方法，其特征在于，所述基于凸优化算法，根据所述当前网络资源确定参与所述全局模型更新的本地模型的指定数目，包括：

确定所述全局模型收敛的目标函数；

根据所述当前网络资源，设置单调递减的辅助函数；

4.根据权利要求1所述的方法，其特征在于，所述基于序列二次规划的比例分配算法，根据当前网络资源确定参与所述全局模型更新的本地模型的指定数目，包括：

初始化各目标任务对应的各目标函数，并确定所述各目标函数对应的搜索方向和搜索步长；

5.一种联邦模型训练装置，其特征在于，配置于服务器中，包括：

更新模块，当接收到所述指定数目的本地模型更新数据时，进行联邦聚合以得到更新后的全局模型；

6.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的一种联邦模型训练方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的一种联邦模型训练方法。