CN117829307A

CN117829307A - 一种面向数据异构性的联邦学习方法及***

Info

Publication number: CN117829307A
Application number: CN202311769640.4A
Authority: CN
Inventors: 赵川; 魏宇楠; 赵圣楠; 埃尔加内·阿米娜; 林宇成; 鞠雷
Original assignee: Quancheng Provincial Laboratory
Current assignee: Quancheng Provincial Laboratory
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-05

Abstract

本发明的一种面向数据异构性的联邦学习方法及***，属于联邦学习技术领域，方法包括如下步骤：中心服务器获取用户端数据，进行联邦学习训练将用户端进行聚类，并通过加速节点与用户端连接；用户端通过加速节点获取全局模型梯度和聚合梯度，进行本地模型训练并更新本地模型，将本地模型梯度发送给加速节点；加速节点将用户端的模型梯度进行聚合后发送给中心服务器，每一个加速节点与一个用户簇中的用户端相连；中心服务器收到加速节点发送的用户梯度后，将其聚合得到全局模型梯度并更新全局模型，然后将聚合梯度通过加速节点分发给用户端。本发明确保了模型的训练精度，提高了联邦学习的效率和性能。

Description

一种面向数据异构性的联邦学习方法及***

技术领域

本发明涉及一种面向数据异构性的联邦学习方法及***，属于联邦学习技术领域。

背景技术

近年来，随着智能手机和智能可穿戴设备数量的快速增长，用户所产生的大量数据被存储在这些具有存储和数据处理功能的终端设备里。作为一种新的的机器学习范式，联邦学习(Federated Learning，FL)可以充分利用边缘设备的计算、存储和数据资源，实现多设备间协同模型训练，同时保护用户本地数据隐私。FL目前已被用于多个应用领域，包括预测人类行为、情感检测、自然语言处理和企业基础设施等。

Google的McMahan等人首次提出了FL的基本框架，并设计了一种名为FedAvg的参数聚合算法，但是，Non-IID(非独立分布)数据会影响全局模型的预测精度。而随着数据异质性的增加，FedAvg的准确率会显著下降。为了应对非IID数据带来的挑战，FedDyn和SCAFFOLD分别使用正则化方法来估计所有设备数据分布的全局知识。然而，当每一轮训练只有少量设备参与时，这种方法会产生较大偏差。有研究表明可以利用动量来提高FL的准确性，并将其与其他方法相结合。CMFL、Oort和Favor等方案通过选择一组"优秀"设备参与每轮训练，中和了Non-IID带来的影响并加快了收敛速度。但是这些方法没有充分利用存储在少数设备上的宝贵数据。FedRep和FedMD分别利用迁移学习和知识蒸馏为每个设备建立不同的模型，这使得新设备很难选择合适的模型进行初始化。

在典型的FL框架中，参与训练的用户设备首先根据自己的数据进行本地训练，然后将模型参数更新并上传到中心服务器。中心服务器在每一轮中聚合来自不同设备的模型参数，然后向各设备广播聚合后的全局模型参数。在FL的整个训练过程中，每个设备上的训练数据都不会离开本地，从而保护了数据的隐私性。FL通常涉及大量设备，这些设备通常具有高度异构的硬件资源(CPU、内存和网络资源)和Non-IID数据。现有的FL框架可分为同步FL(如FedAvg)和异步FL(如FedAsync)。在大规模异构设备进行联邦学习时，同步FL往往会导致游离效应，导致设备进入空闲状态；异步FL可避免设备陷入空闲状态，但算力较强的设备与服务器之间会产生更多轮的通信，可能会导致服务器崩溃，而算力较弱的设备传输到服务器的过时模型也会影响全局模型的训练结果。除此之外，在这两个框架中，存储在设备上的非IID数据会导致设备更新的权重存在显著差异，从而极大地影响最终模型的训练精度。

发明内容

为了解决上述问题，本发明提出了一种面向数据异构性的联邦学习方法及***，能够确保模型的训练精度，提高联邦学习的效率和性能。

本发明解决其技术问题采取的技术方案是：

第一方面，本发明实施例提供的一种面向数据异构性的联邦学习方法，包括如下步骤：

中心服务器获取用户端数据，进行联邦学习训练将用户端进行聚类，并通过加速节点与用户端连接；

用户端通过加速节点获取全局模型梯度和聚合梯度，进行本地模型训练并更新本地模型，将本地模型梯度发送给加速节点；

加速节点将用户端的模型梯度进行聚合后发送给中心服务器，每一个加速节点与一个用户簇中的用户端相连；

中心服务器收到加速节点发送的用户梯度后，将其聚合得到全局模型梯度并更新全局模型，然后将聚合梯度通过加速节点分发给用户端。

作为本实施例一种可能的实现方式，所述联邦学习训练过程，包括：

获取用户端的数据分布情况，构建用户端数据分布矩阵；

计算用户相似度矩阵和用户端数据分布之间的EMD距离；

计算欧氏距离，获取聚类簇；

基于聚类簇对客户端模型梯度进行聚合。

作为本实施例一种可能的实现方式，所述用户端数据分布矩阵的每一行对应一个用户端所拥有的不同数据标签的数据样本个数。

作为本实施例一种可能的实现方式，所述计算用户相似度矩阵和用户端数据分布之间的EMD距离，包括：

假设用户端U_j与用户端U_l数据的概率分布分别为其中/>表示某一个分布下的某一个特征值的权重；

定义P与Q之间的距离矩阵为Dist＝[d_ij]，d_ij表示p_i与q_j之间的距离，流量矩阵F＝[f_ij]使得p_i到q_j的距离之和最小，即：

其中，f_ij表示从p_i到q_j的变化量；

找到最优的流量矩阵F后，P和Q两个数据分布之间的EMD距离为：

其中，1≤i≤m,1≤j≤m。

作为本实施例一种可能的实现方式，所述计算欧氏距离，获取聚类簇，包括：

将距离矩阵Dist转换为一个无向带权图G＝<V,E>，其中每一个顶点表示一个用户，每一条边的权重为任意两个用户U_j与U_l之间的距离，即/>

对于定义其度d_j为和它相连的所有边的权重之和，即/>计算得到距离矩阵Dist的度矩阵：

计算图G的拉普拉斯矩阵：

图G的k个子图的点集为A₁,A₂,…,A_k，且A₁∪A₂∪…∪A_k＝V；

对于定义A和B之间的切图损失函数为：

定义k-子图的切图损失函数为：

对于定义vol(A)∶＝∑_j∈Ad_j；

使用Normalized Cut切图法对G进行最优子图切割，定义切图损失为：

其中为A_j的补集，引入指示矩阵/>

对于向量h_j，定义：

对于有：

即：

令则有：

因此优化目标函数为：

其中，为/>的前k个最小的特征值对应的特征向量按行标准化后构成的特征矩阵；

对于特征矩阵将其每一行视作一个样本，在样本集合中初始化k^′个聚类中心E＝{e₁,e₂,…,e_k}，在每一轮迭代中，每一个样本计算与各聚类中心的欧氏距离，并被归并到距离最短的簇c_i中，直到达到最大迭代次数，得到聚类结果C＝{c_i|i∈[1,k]}。

作为本实施例一种可能的实现方式，所述基于聚类簇对客户端模型梯度进行聚合，包括：

簇c_i内的用户端U_j完成本地模型训练后将模型梯度W_j周期性地发送到加速节点AN_i，AN_i定期将本簇的模型梯度上传到中心服务器，中心服务器将每个簇内每个用户到聚类中心的距离作为参数聚合的相应权重，进行梯度聚合：

其中，表示在第r+1轮迭代后的全局模型梯度，l_ij表示用户U_j与聚类中心e_i的距离，L_i表示簇c_i中用户和聚类中心的平均距离。

作为本实施例一种可能的实现方式，所述用户端包括智能手机、PC或者智能穿戴设备。

第二方面，本发明实施例提供的一种面向数据异构性的联邦学习***，包括用户端、加速节点和中心服务器，

所述中心服务器获取用户端数据，进行联邦学习训练将用户端进行聚类，并通过加速节点与用户端连接；

所述用户端通过加速节点获取全局模型梯度和聚合梯度，进行本地模型训练并更新本地模型，将本地模型梯度发送给加速节点；

所述加速节点将用户端的模型梯度进行聚合后发送给中心服务器，每一个加速节点与一个用户簇中的用户端相连；

所述中心服务器收到加速节点发送的用户梯度后，将其聚合得到全局模型梯度并更新全局模型，然后将聚合梯度通过加速节点分发给用户端。

作为本实施例一种可能的实现方式，所述中心服务器进行联邦学习训练过程为：

获取用户端的数据分布情况，构建用户端数据分布矩阵；

计算用户相似度矩阵和用户端数据分布之间的EMD距离；

计算欧氏距离，获取聚类簇；

基于聚类簇对客户端模型梯度进行聚合。

本发明实施例的技术方案可以具有的有益效果如下：

本发明实施例的技术方案的一种面向数据异构性的联邦学习方法，包括如下步骤：中心服务器获取用户端数据，进行联邦学习训练将用户端进行聚类，并通过加速节点与用户端连接；用户端通过加速节点获取全局模型梯度和聚合梯度，进行本地模型训练并更新本地模型，将本地模型梯度发送给加速节点；加速节点将用户端的模型梯度进行聚合后发送给中心服务器，每一个加速节点与一个用户簇中的用户端相连；中心服务器收到加速节点发送的用户梯度后，将其聚合得到全局模型梯度并更新全局模型，然后将聚合梯度通过加速节点分发给用户端。本发明确保了用户端数据的异质性不会影响模型训练的效果，同时又可以充分利用用户端设备上的计算资源，从而提高了联邦学习的效率和性能。

针对用户间数据的异构性，本发明基于谱聚类将具有相似数据分布的用户进行分组后进行联邦模型训练，减轻了数据异构所带来的影响，能够有效提升模型准确率。在参数聚合阶段，本发明将簇内用户与聚类中心的距离作为聚合权重考量的一部分，进一步减轻了用户数据分布差异带来的影响。本发明确保了模型的训练精度，提高了联邦学习的效率和性能。

附图说明

图1是根据一示例性实施例示出的一种面向数据异构性的联邦学习方法的流程图；

图2是根据一示例性实施例示出的一种面向数据异构性的联邦学习***的结构图；

图3是根据一示例性实施例示出的一种联邦学习训练框架图；

图4是根据一示例性实施例示出的一种用户数据预处理过程示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明实施例提供的一种面向数据异构性的联邦学习方法，包括如下步骤：

获取用户端的数据分布情况，构建用户端数据分布矩阵；

计算用户相似度矩阵和用户端数据分布之间的EMD距离；

计算欧氏距离，获取聚类簇；

基于聚类簇对客户端模型梯度进行聚合。

其中，f_ij表示从p_i到q_j的变化量；

其中，1≤i≤m,1≤j≤m。

将距离矩阵Dist转换为一个无向带权图G＝<V,E>，其中每一个顶点表示一个用户，每一条边的权重为任意两个用户U_j与U_l之间的距离，即

计算图G的拉普拉斯矩阵：

对于定义A和B之间的切图损失函数为：

定义k-子图的切图损失函数为：

对于定义vol(A)∶＝∑_j∈Ad_j；

其中为A_j的补集，引入指示矩阵/>

对于向量h_j，定义：

对于有：

即：

令则有：

因此优化目标函数为：

如图2所示，本发明实施例提供的一种面向数据异构性的联邦学习***，包括用户端、加速节点和中心服务器，

获取用户端的数据分布情况，构建用户端数据分布矩阵；

计算用户相似度矩阵和用户端数据分布之间的EMD距离；

计算欧氏距离，获取聚类簇；

基于聚类簇对客户端模型梯度进行聚合。

本发明提出了一种面向数据异构情况的联邦学习框架，旨在解决联邦学习中用户数据异构性的技术问题。***模型如图3所示，主要包含三类实体：

中心服务器(CS)：中心服务器是一类可信、高可靠并且具有高计算能力和数据处理能力的云计算设备，在收到加速节点发送的用户梯度后，将其聚合得到全局模型梯度并更新全局模型，然后将聚合梯度通过各加速节点分发给用户。

加速节点(AN)：加速节点是一种具有计算、存储和网络路由功能的终端设备，相对中心服务器离用户较近，通信延迟更小，主要用于降低用户与中心服务器之间的通信延迟和中心服务器的通信带宽。在中心服务器将用户聚类后，每一个加速节点负责与一个用户簇中的终端设备相连，并周期性的将本组内用户的模型梯度进行聚合后发送给中心服务器，同时也向用户设备分发全局模型梯度。

用户端：每个用户端拥有一个本地小数据集，并且这些数据都是独立同分布的，用户端可以使用终端设备例如智能手机、PC或者智能穿戴设备与中心服务器通信，协同训练一个更加精准高效的机器学习模型。在每一轮FL开始是，用户端进行本地模型训练，然后将本地模型梯度上传给AN，之后用户端会从CS获得全局模型梯度更新本地模型，然后使用自有数据进行新一轮的训练，直到训练完成。

/>

***的联邦学习训练过程如算法1所示。不失一般性，假设有m个加速节点，每个节点连接一个用户簇，每个簇内包含n个用户设备，并连接到同一个加速节点上。假设中心服务器已知所有用户数据特征的并集，但无法区分单个用户所拥有的数据特征。

1.1数据预处理阶段

对于参与本轮训练的用户设备，中心服务器首先统计每个用户的数据分布情况，如图4(a)所示，以MNIST数据集为例，数据标签共10个类别，其中每一行对应该设备所拥有的不同数据标签的数据样本个数。然后计算每两个用户间的EMD距离，假设用户U_j与U_l数据的概率分布其中表示某一个分布下的某一个特征值的权重(这里默认每一个数据特征的权重都相等)。定义P与Q之间的距离矩阵为Dist＝[d_ij]，d_ij表示p_i与q_j之间的距离(1≤i≤m,1≤j≤m)，最终找到一个流量矩阵F＝[f_ij]，能够使得p_i到q_j的距离之和最小，即：

其中f_ij表示从p_i到q_j的变化量。这里问题归约为一个线性约束条件下的线性函数最小值的优化问题。找到最优的F后，两个数据分布之间的EMD距离为：

在得到用户之间的距离矩阵Dist后(图4(b)所示)，将其转换为一个无向带权图G＝<V,E>，如图4(c)所示，其中每一个顶点表示一个用户，每一条边的权重为任意两个用户U_j与U_l之间的距离，即/> />

之后运行算法2，对于定义其度d_j为和它相连的所有边的权重之和，即然后计算得到距离矩阵Dist的度矩阵：

进一步计算图G的拉普拉斯矩阵：

假设图G的k个子图的点集为A₁,A₂,…,A_k，其中且A₁∪A₂∪…∪A_k＝V。对于/>B∈V，定义A和B之间的切图损失函数为：

定义k-子图的切图损失函数为：

对于定义vol(A)∶＝∑_j∈Ad_j。使用Normalized Cut切图法对G进行

最优子图切割，定义切图损失为：

其中为A_j的补集。引入指示矩阵/>对于向量h_j，定义：/>

对于有：

即:

令则有：

因此优化目标函数为：

其中为/>的前k个最小的特征值对应的特征向量按行标准化后构成的特征矩阵。对于特征矩阵/>将其每一行视作一个样本，如算法3所示，在该样本集合中初始化k^′个聚类中心E＝{e₁,e₂,…,e_k}，在每一轮迭代中，每一个样本计算与各聚类中心的欧氏距离，并被归并到距离最短的簇c_i中，直到达到最大迭代次数，得到聚类结果C＝{c_i|i∈[1,k]}。/>

1.2梯度聚合阶段

簇c_i内的用户设备U_j完成本地模型训练后将模型梯度W_j周期性地发送到加速节点AN_i，AN_i定期将本簇的模型梯度上传到CS.***默认上传到服务器的每个模型的权重与上传模型的设备上的数据量无关，每个本地模型拥有相同权重，以此避免由于用户数据集大小所带来的***梯度聚合误差。当所有设备的资源异质性非常高时，***将每个簇内每个用户到聚类中心的距离作为参数聚合的相应权重。梯度聚合如下所示：

其中表示在第r+1轮迭代后的全局模型梯度，l_ij表示用户U_j与聚类中心e_i的距离，L_i表示簇c_i中用户和聚类中心的平均距离。CS将聚合后的模型梯度分发至AN_i继而分发到各用户设备U_j。

针对用户间数据的异构性，本发明基于谱聚类将具有相似数据分布的用户进行分组后进行联邦模型训练，减轻了数据异构所带来的影响，能够有效提升模型准确率。

在参数聚合阶段，本发明将簇内用户与聚类中心的距离作为聚合权重考量的一部分，进一步减轻了用户数据分布差异带来的影响。

本发明确保了模型的训练精度，提高了联邦学习的效率和性能

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种面向数据异构性的联邦学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种面向数据异构性的联邦学习方法，其特征在于，所述联邦学习训练过程，包括：

获取用户端的数据分布情况，构建用户端数据分布矩阵；

计算用户相似度矩阵和用户端数据分布之间的EMD距离；

计算欧氏距离，获取聚类簇；

基于聚类簇对客户端模型梯度进行聚合。

3.根据权利要求2所述的一种面向数据异构性的联邦学习方法，其特征在于，所述用户端数据分布矩阵的每一行对应一个用户端所拥有的不同数据标签的数据样本个数。

4.根据权利要求3所述的一种面向数据异构性的联邦学习方法，其特征在于，所述计算用户相似度矩阵和用户端数据分布之间的EMD距离，包括：

其中，f_ij表示从p_i到q_j的变化量；

其中，1≤i≤m,1≤j≤m。

5.根据权利要求4所述的一种面向数据异构性的联邦学习方法，其特征在于，所述计算欧氏距离，获取聚类簇，包括：

计算图G的拉普拉斯矩阵：

对于定义A和B之间的切图损失函数为：

定义k-子图的切图损失函数为：

对于定义vol(A)：＝∑_j∈Ad_j；

其中为A_j的补集，引入指示矩阵/>

对于向量h_j，定义：

对于有：

即：

令则有：

因此优化目标函数为：

6.根据权利要求5所述的一种面向数据异构性的联邦学习方法，其特征在于，所述基于聚类簇对客户端模型梯度进行聚合，包括：

7.根据权利要求1-6任意一项所述的一种面向数据异构性的联邦学习方法，其特征在于，所述用户端包括智能手机、PC或者智能穿戴设备。

8.一种面向数据异构性的联邦学习***，其特征在于，包括用户端、加速节点和中心服务器，

9.根据权利要求8所述的一种面向数据异构性的联邦学习***，其特征在于，所述中心服务器进行联邦学习训练过程为：

获取用户端的数据分布情况，构建用户端数据分布矩阵；

计算用户相似度矩阵和用户端数据分布之间的EMD距离；

计算欧氏距离，获取聚类簇；

基于聚类簇对客户端模型梯度进行聚合。

10.根据权利要求8或9所述的一种面向数据异构性的联邦学习***，其特征在于，所述用户端包括智能手机、PC或者智能穿戴设备。