CN117689009A

CN117689009A - 一种面向正则化个性化联邦训练的通信优化方法

Info

Publication number: CN117689009A
Application number: CN202410123123.8A
Authority: CN
Inventors: 毕远国; 郅明见; 项天敖
Original assignee: 东北大学
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-03-12
Anticipated expiration: 2044-01-30
Also published as: CN117689009B

Abstract

本发明属于个性化联邦学习场景下的通信优化技术领域，公开了一种面向正则化个性化联邦训练的通信优化方法。该方法通过理论分析得到基于部分层正则项损失函数的泛化上界，并比较基于部分层正则项损失函数和全部层正则项损失函数的泛化上界，得到筛选上传层的条件，有效解决了个性化联邦训练中的通信代价高、现有通信优化方法没有理论分析的问题。该方法不仅能降低通信代价，而且不会降低模型性能，同时不会增加计算负载，对于真实的个性化联邦环境具有相当的适用价值。

Description

一种面向正则化个性化联邦训练的通信优化方法

技术领域

本发明涉及个性化联邦学习场景下的通信优化技术领域，具体涉及一种面向正则化个性化联邦训练的通信优化方法。

背景技术

个性化联邦学习作为解决数据异构问题的有力手段，通过为每个用户定制个性化模型，而非强迫一个全局模型适用所有用户的数据特征，提高局部模型对本地数据的适应性，缓解数据异构带来的模型性能下降问题。

为了准确地迁移全局模型的知识，使用正则项技术对局部模型进行训练指导是十分常见的。其中包括：（1）“Dinh, C. T.; Tran, N. H.; and Nguyen, T. D. 2020.Personalized Federated Learning with Moreau Envelopes. In Proceedings of the34th International Conference on Neural Information Processing Systems,21394–21405.”中基于模型构建正则化器，即利用加权平均等方式获得全局模型，并利用该全局模型作为正则项约束本地模型训练；（2）“Karimireddy, S. P.; Kale, S.; Mohri,M.; Reddi, S.; Stich, S.; and Suresh, A. T. 2020. SCAFFOLD: StochasticControlled Averaging for Federated Learning. In Proceedings of the 37thInternational Conference on Machine Learning, 5132–5143”中基于更新方向构建正则化器，因为数据异构会直接导致不同用户模型的更新方向各异，导致聚合的全局模型性能变差，所以此类方法专注于补充异构数据产生的梯度偏差，从而减少non-IID条件下的数据漂移；（3）“Jin, H.; Bai, D.; Yao, D.; Dai, Y.; Gu, L.; Yu, C.; and Sun, L.2023. Personalized Edge Intelligence via Federated Self-KnowledgeDistillation. IEEE Transactions on Parallel and Distributed Systems, 34(2):567–580”中基于软标签构建正则化器，该类方法通过知识蒸馏的方式将全局模型的知识迁移到本地模型上，作为本地训练过程的补充；（4）基于其它方法构建正则化器，即采用其它手段构建正则化器指导本地模型训练，例如中间特征、统计信息等。

然而，以上基于正则项的个性化方法中存在两个关键问题，（1）大部分基于正则项的方法均需要上传本地模型，这不仅会占用大量的通信资源，使用户资源无法合理利用，而且可能存在隐私泄露的风险。同时，用户下载服务器模型作为正则项，也通常为与本地模型形状相同的服务器模型，亦会增加下载过程的通信代价和通信压力；（2）虽然以上个性化方法可以与其它通信优化的工作结合，但是一方面可能会存在信息失真现象造成模型性能下降，另一方面此类工作并未提供理论上的性能保障。

发明内容

针对上述问题，本发明提供一种面向正则化个性化联邦训练的通信优化方法。基于全层正则项损失函数的泛化误差构建使用部分层正则项损失函数的泛化误差，并通过对泛化误差的比较，筛选出可以使泛化误差下降最多的正则项层数。该方法利用泛化误差理论保证模型性能，同时能够最大程度上降低上传和下载的通信代价。

本发明的技术方案如下：一种面向正则化个性化联邦训练的通信优化方法，包括步骤如下：

第一步，服务器下发个性化的服务器模型；

步骤1-1、服务器进行用户选择；

步骤1-2、服务器为所选用户生成个性化的服务器模型并下发；

第二步，用户利用服务器模型的参数构建正则项指导本地深度神经网络模型的更新；所述服务器模型分为全层服务器模型和部分层服务器模型；全层服务器模型为具有全部层参数的服务器模型；部分层服务器模型为通过深度神经网络层选择之后，具有部分层参数的服务器模型；全层服务器模型构建的正则项为全层正则项；部分层服务器模型构建的正则项为部分层正则项；

第三步，用户对待上传到服务器上的本地深度神经网络模型进行深度神经网络层选择；

步骤3-1、获取深度神经网络层选择过程中的固定参数；根据用户的数据集，得到该数据集的类别数量/>、所有样本数量/>；根据用户/>的本地深度神经网络模型，得到本地深度神经网络模型的层数/>、每/>层神经网络层参数矩阵的列数/>，/>；

步骤3-2、估计深度神经网络层选择过程中需要的参数；包括：用户使用全层正则项训练得到的本地深度神经网络模型/>中第/>层参数F范数的上界/>、用户/>的全层正则项中第/>层参数F范数的上界/>、用户/>使用部分层正则项训练得到的本地深度神经网络模型/>中第/>层参数F范数的上界/>以及用户/>的部分层正则项中第/>层参数F范数的上界；

步骤3-3、计算深度神经网络层选择的阈值；

根据公式（1）计算用户的神经网络层选择的阈值，

（1）

步骤3-4、对本地深度神经网络模型逐层判断，直到满足阈值条件；

计算神经网络层选择标准中的固定项，根据公式（2）计算，

（2）

设置用户被选择神经网络层数/>，计算神经网络层选择标准中的可变项，即根据公式（3）计算，

（3）

其中，，/>为第/>层的输出维度；

最后，判断条件是否满足；满足则返回当前上传的层数/>；否则，继续执行上述计算，直到满足阈值条件；

步骤3-5、上传被选择的深度神经网络层参数；

第四步，服务器接收用户深度神经网络层参数并聚合；

第五步，重复以上过程，直到本地深度神经网络模型收敛。

所述步骤1-2服务器为所选用户生成个性化的服务器模型并下发，具体步骤为：用户第一次参与联邦训练，则由服务器随机初始化服务器模型参数；用户非第一次参与联邦训练，则由服务器根据已有算法计算用户的服务器模型参数。

所述步骤3-2估计深度神经网络层选择过程中需要的参数，具体步骤如下；

首先，估计用户使用全层正则项训练得到的本地深度神经网络模型/>中，第/>层参数/>范数的上界/>，定义如公式（4）所示，

（4）

其中，为用户/>使用全层正则项训练得到的本地深度神经网络模型第/>层的参数，/>表示/>范数；

当用户第一次被选中参与联邦训练时，使用全层服务器模型，直接使用此时的服务器模型构建全层正则项训练用户模型，根据公式（4）计算得到；当被选中的深度神经网络层数为/>时，再次下发的正则项为全层正则项，使用公式（5）对该上界/>进行更新，

（5）

其中，表示用户/>使用第/>个通信轮次下发的全层服务器模型构建全层正则项训练得到的本地深度神经网络模型第/>层参数/>范数的上界值；

估计用户使用全层正则项中第/>层参数/>范数的上界/>，定义如公式（6）所示，

（6）

其中，为用户/>的全层服务器模型，/>为用户/>全层服务器模型中的第/>层；

当用户第一次被选中参与联邦训练时，使用的是全层服务器模型，根据公式（6）计算得到；当被选中的深度神经网络层数为/>时，使用公式（7）对该上界/>进行更新，

（7）

表示用户/>使用第/>个通信轮次下发的全层服务器模型构建的全层正则项中第/>层参数/>范数的上界值；

估计用户使用部分层正则项训练得到的本地模型/>中第/>层参数/>范数的上界，定义如公式（8）所示，

（8）

表示用户/>使用部分层正则项训练得到的本地深度神经网络模型中第/>层的参数；

当服务器下发部分层服务器模型时，在利用部分层服务器模型构建部分层正则项完成本地深度神经网络模型训练之后，利用公式（9）对该上界进行更新，

（9）

其中，表示用户/>使用第/>个通信轮次下发的部分层服务器模型构建部分层正则项训练得到的本地深度神经网络模型第/>层参数/>范数的上界值；

最后，估计用户使用部分层正则项中第/>层参数/>范数的上界/>，定义如公式（10）所示，

（10）

其中，为用户/>的部分层服务器模型，/>为用户/>部分层服务器模型中的第/>层；

当服务器下发部分层服务器模型时，在利用部分层服务器模型构建部分层正则项完成本地深度神经网络模型训练之后，利用公式（11）对该上界进行更新，

（11）

其中，表示用户/>使用第/>个通信轮次下发的部分层服务器模型构建的部分层正则项中第/>层参数/>范数的上界值。

所述步骤3-5上传被选择的深度神经网络层参数，具体为，所述神经网络层参数包括如下，

（12）。

所述第四步，服务器接收用户深度神经网络层参数并聚合，根据公式（13）聚合用户的部分层服务器模型/>，以构建用户/>的部分层正则项；

（13）

其中，为用户/>的样本数量，/>为所有用户的样本总数量，/>表示用户/>使用部分层正则项训练得到的本地深度神经网络模型中第/>层的参数。

本发明的有益效果为：本发明基于泛化理论构建层选择标准，并通过该标准筛选联邦学习过程中用户需要上传的层参数，在保证模型性能的同时，最大程度地降低每个用户上传和下载的通信代价。

附图说明

图1为一种面向正则化个性化联邦训练的通信优化方法流程图。

图2为用户选择情况下本算法在CIFAR10且条件下所有用户的平均上传层数。

具体实施方式

本发明提供一个面向正则化个性化联邦训练的通信优化方法，在保障个性化模型性能的同时，降低用户在上传和下载过程中的通信代价。首先，在服务器上进行用户选择，并下发服务器模型。其次，用户接收服务器模型，并使用其构建正则项训练本地模型。然后，再完成本地训练之后，进行上传层选择过程。最后，使用部分层参数更新服务器模型并下发，再次执行以上过程，直到个性化模型收敛。

一种面向正则化个性化联邦训练的通信优化方法，如图1所示，包括步骤如下：

第一步，服务器下发个性化的服务器模型；

步骤1-1 服务器进行用户选择；

具体为随机选择或者根据已有的用户选择算法进行用户选择。

步骤1-2 服务器获得所选用户的服务器模型并下发；

如果用户为第一次参与联邦训练，则由服务器随机初始化服务器模型参数；如果用户非第一次参与联邦训练，则由服务器根据已有算法计算用户的个性化服务器模型参数。

第二步，用户利用服务器模型构建正则项指导本地模型的更新；

第三步，用户对需要上传到服务器上的神经网络层进行选择；

步骤3-1 获取层选择过程中的固定参数；

根据用户的数据集，得到该数据集的类别数量/>、所有样本数量/>；根据用户/>的深度神经网络模型，得到每层神经网络层参数矩阵的列数/>。

步骤3-2 估计层选择过程中需要的参数；

首先，估计用户使用全层服务器模型构建正则项训练得到的模型/>中第/>层参数/>范数的上界/>，

其中，为使用全层服务器模型构建正则项训练得到的用户本地深度神经网络模型的第/>层，/>表示F范数，/>为全层服务器模型的层数。

当用户第一次被选中参与联邦训练时，使用的是全层服务器模型，所以直接使用此时的服务器模型构建正则项训练用户模型，计算得到。此外，当被选中的上传层数为/>时，再次下发的正则项为全层服务器模型，对该上界进行更新，

其中，表示在轮次/>时，根据下发的全层服务器模型计算得到的上界值。

其次，估计用户的全层正则项中第/>层参数F范数的上界/>，

其中，为全层服务器模型，/>为全层服务器模型中的第/>层。

当用户第一次被选中参与联邦训练时，使用的是全层服务器模型，所以直接使用此时的服务器模型构建正则项训练用户模型，计算得到。此外，当被选中的上传层数为/>时，再次下发的正则项为全层服务器模型，需要对该上界进行更新，

然后，估计用户使用部分层服务器模型构建正则项训练得到的本地模型/>中第层参数F范数的上界/>，

当服务器下发部分层服务器模型时，记当前轮次为，在利用部分层服务器模型构建正则项完成本地模型训练之后，对该上界/>进行更新，

最后，估计用户使用部分层服务器模型构建的部分层正则项中第/>层参数F范数的上界/>，

其中，为部分层服务器模型，/>为部分层服务器模型中的第/>层。

当服务器下发部分层服务器模型时，记当前轮次为，在利用其构建正则项完成本地模型训练之后，对该上界进行更新，

步骤3-3 计算深度神经网络层选择的阈值；

计算用户的神经网络层选择的阈值，

其中，为用户/>的全层正则项中第/>层参数F范数的上界，/>表示用户/>使用全层正则项训练得到的本地深度神经网络模型/>中第/>层参数F范数的上界，/>为用户/>的本地深度神经网络模型中每层神经网络层参数矩阵的列数。

步骤3-4 循环递增层数，计算层选择标准直到满足阈值条件。

首先，计算层选择标准中的固定项，

然后，设置用户被选择神经网络层数/>，计算神经网络层选择标准中的可变项，

其中，，/>为第/>层的输出维度。

最后，判断条件是否满足。如果满足，则返回当前上传的层数/>；否则，继续执行上述计算，直到满足阈值条件。

步骤3-5 上传被选择的神经网络层参数。

上传以下模型参数，

第四步，服务器接收用户参数并聚合；服务器接收用户深度神经网络层参数并聚合，聚合用户的部分层服务器模型/>，以构建用户/>的部分层正则项；

其中，其中，为用户/>的样本数量，/>为所有用户的样本总数量，/>表示用户/>使用部分层正则项训练得到的本地深度神经网络模型中第/>层的参数。

第五步，重复以上过程，直到局部模型收敛。

以下结合具体实施例详细阐述本发明的技术方案。

本发明提出一种面向正则化个性化联邦训练的通信优化方法。在实现过程中，使用迪利克雷分布方法模拟用户数据异构情况，并设置异构水平。此外，本发明设置用户选择和非用户选择的两种情况。对于用户选择场景，有100个客户端，参与率为10%，并且使用数据集中的所有训练和测试数据。对于非用户选择的场景，有10个客户端具有100%的参与率，其中我们从数据集中随机选择10%的训练数据和测试数据。采用之前提出的一种基于层正则项的个性化方法作为基准，加入本层选择算法，对比性能。对于本方法的具体实施例的介绍分为以下两部分：

（1）基于层选择的个性化模型训练。该部分主要负责按照本算法内容，在基于正则项的个性化模型训练过程中进行层选择。

（2）个性化模型测试。该部分主要负责利用用户的测试数据对训练好的个性化模型进行测试。

以下分别从这两方面进行介绍。

1、基于层选择的个性化模型训练

首先，服务器随机初始化用户的服务器模型并下发。

其次，用户利用服务器模型构建正则项执行本地模型的更新。

然后，用户对需要上传到服务器上的神经网络层进行选择。

第一步，根据用户的数据集以及用户的深度神经网络模型，估计层选择过程中的固定参数，包括数据集的类别数量、所有样本数量、深度神经网络模型中每层网络参数矩阵的列数。

第二步，当用户第一次被选择参与联邦训练时，估计使用全层服务器模型构建正则项训练得到的模型中所有层参数的F范数的上界以及全层正则项中所有参数F范数的上界；当上一轮次中被选中的上传层数为所有层时，选择当前参数的F范数与之前的上界值更新此上界值。

第三步，当服务器下发的服务器模型为部分层时，使用多个轮次的最大值估计使用部分层服务器模型构建正则项训练得到的模型中所有层参数F范数的上界以及部分层正则项中所有层参数F范数的上界。

第四步，根据估计参数，计算本轮次的层选择阈值。

第五步，循环递减层数，计算层选择标准直到满足阈值条件。

第六步，上传被选择的层参数。

再次，服务器接收用户参数并进行逐层聚合。

最后，循环以上训练过程，直到个性化模型收敛。

2、个性化模型测试

首先，在所有训练轮次中，在模型完成本地训练之后，将本地的测试数据输入到每个用户的个性化模型中，得到每个数据的预测结果。

然后，对比模型的预测结果和真实标签，计算每个用户在所有轮次中的预测准确率。

最后，取每个用户在所有轮次中的准确率最高值作为其最终准确率，将所有用户的最终准确率取平均值，得到最终的算法性能。

为验证本算法的分类效果，在用户选择和非用户选择两种情况进行准确率的对比实验。

根据表1和表2，本算法（our method+BLS）与基准算法对比（our method）达到了相当的准确度，并未因为通信优化而造成性能上的损失。并且本算法与基准算法在多个数据集上、多种异构水平的情况下，与对比算法相比，均能到达最优的准确率。

表1 非用户选择情况下本算法与其它算法在不同数据集和不同异构条件下的准确率对比

表2 用户选择情况下本算法与其它算法在不同数据集和不同异构条件下的准确率对比

根据表3，FedAvg花费的时间最少，因为它不涉及任何额外的个性化操作。FedAMP的聚合规则过于复杂，所以该算法的执行时间最长。pFedLA具有第二长的执行时间，因为它训练超网络以获得聚合权重，消耗了更多的服务器时间。MOON表现出第三长的执行时间，这是由于客户端需要额外的计算来获得全局模型和局部模型的特征表示。与其他基于正则化的方法相比，基准算法执行时间比FedProx长，但比FedAMP和MOON短。虽然在服务器上训练关系立方体和聚合个性化模型需要更多的时间，但基于参数的正则化器易于训练，这导致了平衡的执行时间。另一方面，由于关系立方体的设计和优化方法，与pFedLA相比，KAPC需要更少的时间进行聚合。此外，本算法需要更多的时间在客户端，因为它需要选择上传的层。然而，由于部分层传输，它导致上传和下载模型的时间更少。

表3 用户选择情况下本算法与其它算法在CIFAR10且条件下的平均执行时间对比

根据表4，大多数方法传输所有模型参数（例如，FedProx、FedAMP、MOON、pFedLA和基准算法），导致与FedAvg相同的通信成本。此外，FedBABU仅共享特征提取器（包括除最后一个全连接层之外的模型），所以其通信成本略低于FedAvg。FedBN保持BN层个性化，从而节省相应的成本。本算法与基准算法相比，显著降低了10.70%的上传和下载的通信成本（大约45.66 MB）。此外，对于计算代价，与FedAvg相比，基于正则化的方法需要更高的训练计算成本，而除了FedBABU之外，其他方法保持与FedAvg相似的成本。因为FedBABU只在训练阶段更新提取器，所以它的计算成本比其他的略低。此外，FedAMP和pFedLA需要额外的聚合操作，与其他方法相比，导致服务器端的计算成本更高。本算法与其他基于正则化的方法具有相同的训练计算成本，并且客户端中使用层选择方法会简化正则项，从而减少训练成本。

表4 用户选择情况下本算法与其它算法在CIFAR10且条件下的通信和计算代价对比/>

根据图2，在大多数轮次中，前19层的参数被传输到服务器进行个性化聚合，而其余两层（卷积层和全连接层）并未被上传，充分说明本算法的有效性。

通过对以上实验结果的分析，得到本方法可以在不影响模型精度和不大幅度增加计算量的情况，减少个性化联邦学习过程中的通信代价，说明了本算法的可行性和有效性。

Claims

1.一种面向正则化个性化联邦训练的通信优化方法，其特征在于，包括步骤如下：

第一步，服务器下发个性化的服务器模型；

步骤1-1、服务器进行用户选择；

步骤3-2、估计深度神经网络层选择过程中需要的参数；包括：用户使用全层正则项训练得到的本地深度神经网络模型/>中第/>层参数F范数的上界/>、用户/>的全层正则项中第/>层参数F范数的上界/>、用户/>使用部分层正则项训练得到的本地深度神经网络模型中第/>层参数F范数的上界/>以及用户/>的部分层正则项中第/>层参数F范数的上界；

步骤3-3、计算深度神经网络层选择的阈值；

根据公式（1）计算用户的神经网络层选择的阈值，

（1）

计算神经网络层选择标准中的固定项，根据公式（2）计算，

（2）

（3）

其中，，/>为第/>层的输出维度；

步骤3-5、上传被选择的深度神经网络层参数；

第四步，服务器接收用户深度神经网络层参数并聚合；

第五步，重复以上过程，直到本地深度神经网络模型收敛。

2.根据权利要求1所述的面向正则化个性化联邦训练的通信优化方法，其特征在于，所述步骤1-2服务器为所选用户生成个性化的服务器模型并下发，具体步骤为：用户第一次参与联邦训练，则由服务器随机初始化服务器模型参数；用户非第一次参与联邦训练，则由服务器根据已有算法计算用户的服务器模型参数。

3.根据权利要求2所述的面向正则化个性化联邦训练的通信优化方法，其特征在于，所述步骤3-2估计深度神经网络层选择过程中需要的参数，具体步骤如下；

首先，估计用户使用全层正则项训练得到的本地深度神经网络模型/>中，第/>层参数范数的上界/>，定义如公式（4）所示，

（4）

其中，为用户/>使用全层正则项训练得到的本地深度神经网络模型第/>层的参数，表示/>范数；

（5）

（6）

（7）

估计用户使用部分层正则项训练得到的本地模型/>中第/>层参数/>范数的上界/>，定义如公式（8）所示，

（8）

（9）

（10）

（11）

4.根据权利要求3所述的面向正则化个性化联邦训练的通信优化方法，其特征在于，所述步骤3-5上传被选择的深度神经网络层参数，具体为，所述神经网络层参数包括如下，

（12）。

5.根据权利要求4所述的一种面向正则化个性化联邦训练的通信优化方法，其特征在于，所述第四步，服务器接收用户深度神经网络层参数并聚合，根据公式（13）聚合用户的部分层服务器模型/>，以构建用户/>的部分层正则项；

（13）