CN115829027A

CN115829027A - 一种基于对比学习的联邦学习稀疏训练方法及***

Info

Publication number: CN115829027A
Application number: CN202211349843.3A
Authority: CN
Inventors: 陈家辉; 李峥明; 徐培明
Original assignee: CSG Electric Power Research Institute; Guangdong University of Technology
Current assignee: CSG Electric Power Research Institute; Guangdong University of Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-03-21

Abstract

本发明公开了一种基于对比学习的联邦学习稀疏训练方法及***，涉及联邦学习算法框架、神经网络稀疏训练和对比学习的交叉领域。其中，所述方法包括：服务端向本地客户端发送全局模型和掩码；本地客户端根据接收的全局模型和掩码，生成局部稀疏模型，并使用本地数据集对局部稀疏模型进行训练；本地客户端进行对比损失函数计算，更新本地损失函数和局部稀疏模型，并将更新后的局部稀疏模型上传到服务端；服务端聚合本地客户端更新后的局部稀疏模型，对全局模型进行更新，并将更新后的全局模型发送给本地客户端，开始新一轮的沟通训练直至全局模型收敛。本发明通过在联邦学习中引入稀疏训练和对比学习，显著降低计算通信开销，提高了全局模型的性能。

Description

一种基于对比学习的联邦学习稀疏训练方法及***

技术领域

本发明涉及分布式机器学习技术领域，涉及联邦学习算法框架、神经网络稀疏训练和对比学习的交叉领域，更具体地，涉及一种基于对比学习的联邦学习稀疏训练方法及***。

背景技术

由于隐私保护、计算资源等方面的原因造成的数据孤岛，正在阻碍着训练人工智能模型所必须的大数据使用。

作为一种分布式机器学习技术，联邦学习成为一种解决数据孤岛的方法，通过多个客户端共同训练机器学习模型。联邦学习在数据不发送给他人的情况下，通过交换模型来协同训练机器学习模型，从而保护数据隐私，已在医学学习、自然语言处理和欺诈***检测等广泛应用。

但联邦学习目前仍然存在以下问题：

(1)异质性问题：数据的异质性，即非独立同分布的数据会使局部模型偏离全局模型，影响聚合后的全局模型的性能；

(2)计算通信开销问题：由于现实生活中，一些本地客户端是小型设备，如手机或者个人笔记本，这些设备没有足够的算力训练大模型，同时，与服务器的沟通也会受到带宽的限制。

在资源受限时，上述问题的存在使得联邦学习的训练精度大大降低。

发明内容

本发明提供了一种基于对比学习的联邦学习动态稀疏训练方法，旨在降低联邦学习的通信开销的同时保证模型的准确率。

为解决上述技术问题，本发明的技术方案如下：

第一方面，一种基于对比学习的联邦学习稀疏训练方法，包括：

服务端向本地客户端发送全局模型和掩码；其中，所述掩码基于稀疏度生成，用于表示全局模型参数是否被保留下来；

本地客户端根据接收的全局模型和掩码，生成局部稀疏模型，并使用本地数据集对局部稀疏模型进行训练；

在每轮训练过程中，本地客户端进行对比损失函数计算，更新本地损失函数和局部稀疏模型，并将更新后的局部稀疏模型上传到服务端；

服务端聚合本地客户端更新后的局部稀疏模型，对全局模型进行更新，并将更新后的全局模型发送给本地客户端，开始新一轮的沟通训练直至全局模型收敛。

本技术方案中，通过在联邦学习的过程直接训练稀疏模型，有效减少了训练过程中的计算量，降低设备的存储成本，加快训练过程，显著降低联邦学习计算通信开销；此外，在联邦学习的过程中还引入了对比学习方法，学习相似实例之间的共同特征，利用对比损失函数使同一目标在不同数据增强下的相似性最大化，使不同目标之间的相似性最小化，解决数据异质性问题，在降低联邦学习计算通信开销的同时提高了模型的准确率。

作为优选方案，所述服务端向本地客户端发送全局模型和掩码，包括：

服务端初始化全局模型

根据稀疏度生成用于表示全局模型的参数是否被保留下来的掩码

其中，t表示联邦学习轮次，稀疏度S为全局模型中被裁剪掉的参数数量与总参数量之比；

服务端随机选择参与本轮参与联邦学习的本地客户端，将全局模型

和掩码

发送给本地客户端。

作为优选方案，所述本地客户端根据接收的全局模型和掩码，生成局部稀疏模型，具体为：

本地客户端接收全局模型

和掩码

将全局模型

和掩码

进行Hadamard内积，得到局部稀疏模型

其中，t表示联邦学习轮次，k表示本地客户端的索引。

作为优选方案，所述使用本地数据集对局部稀疏模型进行训练，包括：

本地客户端将本地数据集输入局部稀疏模型

中，局部稀疏模型

进行预测，并计算损失函数

其中，t表示联邦学习轮次，k表示本地客户端的索引；

根据预设的学习率η对局部稀疏模型

进行更新。

作为本优选方案的一种可能设计，所述根据预设的学习率η对局部稀疏模型

进行更新，更新过程采取以下操作：

作为优选方案，所述在每轮训练过程中，本地客户端进行对比损失函数计算，更新本地损失函数和局部稀疏模型，包括：

将本地数据集分别输入第t轮局部稀疏模型

第t-1轮的局部稀疏模型

第t轮的全局模型

中，分别得到对应的特征向量z、z_last和z_glob；

根据特征向量计算对比损失函数

其表达式为：

式中，τ为预设的温度超参数；

更新本地损失函数，其表达式为：

式中，

表示局部稀疏模型

的损失函数；

利用更新后的本地损失函数

更新局部稀疏模型

作为优选方案，在每轮训练过程中，本地客户端进行对比损失函数计算，更新本地损失函数和局部稀疏模型后，在预设的通信轮次进行掩码调整，动态演化更新局部稀疏模型的网络结构，再将动态演化更新后的局部稀疏模型上传到服务端。

本优选方案中，通过在特定轮次调整掩码，对局部稀疏网络进行动态更新，可实现寻找更好的稀疏结构的目的。相较于静态稀疏训练，在高稀疏性下，动态稀疏训练可提高局部稀疏模型的精度，进而提高整个联邦学习模型的准确率。

作为本优选方案的一种可能设计，所述在预设的通信轮次进行掩码调整，动态演化更新局部稀疏模型的网络结构，具体为：

在本地客户端与服务端通信的特定轮次，移除局部稀疏模型部分神经元结点之间的连接，使局部稀疏模型被调整至更高稀疏度S+(1-S)α^t；其中，α^t是动态调整参数，其表达式为：

式中，α表示预设的第一轮的动态调整参数α¹的值，t表示联邦学习轮次，T_end表示最后一轮学习轮次；

根据局部稀疏模型即时的梯度信息增长与移除相同数量的神经元、梯度最大的连接，使模型的稀疏度恢复为原稀疏度S。

作为优选方案，所述服务端聚合本地客户端更新后的局部稀疏模型，对全局模型进行更新，包括：

服务端接收若干个本地客户端上传的局部稀疏模型

服务端基于FedAvg方式，将若干个局部稀疏模型

进行统一聚合，生成更新后的全局模型

其聚合过程表达式为：

其中，K表示第t轮参与训练的本地客户端c_k的数量，D_k表示本地客户端c_k对应的本地数据集，

表示所有本地客户端的数据集，k表示本地客户端c_k的索引。

第二方面，一种基于对比学习的联邦学习稀疏训练***，应用于第一方面任一技术方案提出的一种基于对比学习的联邦学习稀疏训练方法，包括服务端和本地客户端，所述服务端与本地客户端连接；

其中，所述服务端，用于向本地客户端发送全局模型和掩码，还用于聚合本地客户端上传的局部稀疏模型，更新全局模型；所述掩码基于稀疏度生成，用于表示全局模型参数是否被保留下来；

所述本地客户端，用于接收全局模型和掩码生成局部稀疏模型，利用本地数据集对局部稀疏模型进行训练，还用于计算对比损失函数，更新本地损失函数和局部稀疏模型，并向服务端上传更新后的局部稀疏模型。

与现有技术相比，本发明技术方案的有益效果是：

本发明在联邦学习的过程中采用了稀疏训练的方法，显著降低了计算通信开销，同时，引入了对比学习的方法，基于模型表示之间的相似性修正本地模型，训练出偏差更小的全局模型，解决联邦学习中的数据异质性问题，提高了全局模型的性能。

附图说明

图1为联邦学习稀疏训练方法的流程图；

图2为包括掩码调整的联邦学习稀疏训练方法的流程图；

图3为实施例2中联邦学习稀疏训练方法学习过程框架示意图；

图4为实施例2中基于对比学习的联邦学习稀疏训练方法与其他联邦学习方法在MNIST数据集上测试准确率结果的比较图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供了一种基于对比学习的联邦学习稀疏训练方法，参阅图1，包括：

本实施例中，在联邦学习的过程中，引入了稀疏训练方法，利用掩码在本地客户端生成局部稀疏模型并直接训练，有效减少了联邦学习过程中的计算量，并降低设备的存储成本，加快训练过程，显著降低了联邦学习的计算通信开销；同时，通过引入对比学习方法，基于模型表示之间的相似性修正本地模型，解决数据异质性问题。通过联邦学习、系数训练和对比学习间的交叉配合，在降低联邦学习计算通信开销的同时提高了全局模型的准确率。

在一优选实施例中，所述服务端向本地客户端发送全局模型和掩码，包括：

服务端初始化全局模型

和掩码

发送给本地客户端。

在本优选实施例中，稀疏度S为全局模型中被裁剪掉的参数数量与总参数量之比，掩码基于稀疏度生成，其代表了稀疏网络的结构。

在一可选实施例中，所述掩码为二进制形式。

作为非限制性示例，所述掩码基于稀疏度，利用剪枝算法生成。

在一优选实施例中，所述本地客户端根据接收的全局模型和掩码，生成局部稀疏模型，具体为：

本地客户端接收全局模型

和掩码

将全局模型

和掩码

进行Hadamard内积，得到局部稀疏模型

其中，t表示联邦学习轮次，k表示本地客户端的索引。

即，

其中⊙为Hadamard内积。

在一优选实施例中，所述使用本地数据集对局部稀疏模型进行训练，包括：

本地客户端将本地数据集输入局部稀疏模型

中，局部稀疏模型

进行预测，并计算损失函数

根据预设的学习率η对局部稀疏模型

进行更新。

在一可选实施例中，所述根据预设的学习率η对局部稀疏模型

进行更新，更新过程采取以下操作：

在一优选实施例中，所述在每轮训练过程中，本地客户端进行对比损失函数计算，更新本地损失函数和局部稀疏模型，包括：

将本地数据集分别输入第t轮局部稀疏模型

第t-1轮的局部稀疏模型

第t轮的全局模型

中，分别得到对应的特征向量z、z_last和z_glob；其中，z表示样本的特征经过特征表示网络的投影头(Projection head)结构的输出的向量；

根据特征向量计算对比损失函数

其表达式为：

式中，τ为预设的温度超参数；

更新本地损失函数，其表达式为：

式中，

表示局部稀疏模型

的损失函数；

利用更新后的本地损失函数

更新局部稀疏模型

在一优选实施例中，在每轮训练过程中，本地客户端进行对比损失函数计算，更新本地损失函数和局部稀疏模型后，在预设的通信轮次进行掩码调整，动态演化更新局部稀疏模型的网络结构，再将动态演化更新后的局部稀疏模型上传到服务端。

在一具体实施过程中，在训练初始阶段随机选择一种稀疏网络结构，在随后的稀疏训练过程中，进行掩码调整。由于掩码代表了稀疏网络的结构，通过掩码调整，可不断改变稀疏网络的结构，以实现寻找更好的稀疏结构的目的。

在一可选实施例中，参阅图2，所述在预设的通信轮次进行掩码调整，动态演化更新局部稀疏模型的网络结构，具体为：

根据局部稀疏模型即时的梯度信息，增长与移除相同数量的神经元、梯度最大的连接，使模型的稀疏度恢复为原稀疏度S。

在一优选实施例中，所述服务端聚合本地客户端更新后的局部稀疏模型，对全局模型进行更新，包括：

服务端接收若干个本地客户端上传的局部稀疏模型

服务端基于FedAvg方式，将若干个局部稀疏模型

进行统一聚合，生成更新后的全局模型

其聚合过程表达式为：

其中，K表示第t轮参与训练的本地客户端c_k的数量，

表示本地客户端c_k对应的本地数据集，

表示所有本地客户端的数据集，k表示本地客户端c_k的索引。

在一具体实施过程中，服务端完成局部稀疏模型后，将新生成的全局模型发送给选中的本地客户端，开始新一轮的沟通训练直至全局模型收敛。

实施例2

本实施例采用公开的MNIST数据集，对实施例1提出的基于对比学习的联邦学习稀疏训练方法进行实验，参阅图1-图4。

MNIST数据集(Mixed National Institute of Standards and Technologydatabase)是美国国家标准与技术研究院收集整理的大型手写数字数据库，包含60000个示例的训练集以及10000个示例的测试集。

考虑一个典型的联邦学习框架：设定全局模型为包含两个5*5卷积层、两个最大池化层和四个全连接层的卷积神经网络；设计总共有100个本地客户端，每个通信轮次中随机选取20个本地客户端参与训练，每个本地客户端每轮在本地数据集上使用SGD优化器迭代10次，和服务端沟通50次。

作为非限制性示例，在训练过程中，服务端设定稀疏度S＝0.5，初始化全局模型

根据稀疏度设定掩码

服务端随机选择20个本地客户端，向选中的本地客户端发送全局模型和掩码；

本地客户端接收全局模型和掩码后，生成局部稀疏模型

在本地数据集上训练局部模型，将本地数据x以32个样本的小批次输入局部稀疏模型中，局部稀疏模型进行预测，计算损失函数

预设学习率η＝0.01并进行如下操作更新局部稀疏模型：

将本地数据x分别输入本轮局部稀疏模型

上一轮的局部稀疏模型

本轮的全局模型

中，分别得到对应的特征向量z、z_last、z_glob，预设τ＝1的温度超参数计算对比损失函数

更新本地损失函数为：

利用更新后的本地损失函数

更新局部稀疏模型

设定每十轮本地客户端执行一次掩码调整，动态更新稀疏网络的结果。设定α＝0.01，当本地训练完成，在本地客户端与服务端通信的特定轮数，本地客户端通过移除局部稀疏模型部分神经元结点之间的连接，局部稀疏模型被调整到的更高的稀疏度S+(1-S)α^t；随后根据局部稀疏模型即时的梯度信息增长与移除相同数量的神经元、梯度最大的连接，使局部稀疏模型的稀疏度恢复为S。其中α^t是动态调整参数，按照余弦衰减更新计划

调整稀疏度的变化。

在本轮被选中的本地客户端完成局部稀疏模型训练更新之后，将局部模型上传到服务端，服务端采用FedAvg的方式，对本地客户端上传的局部稀疏模型进行聚合，生成更新后的全局模型

完成一轮次的沟通学习；

其中，聚合方式如下：

服务端完成20个参与本轮训练的本地客户端所上传的局部稀疏模型的聚合后，将新生成的全局模型

发送给选中的本地客户端，开始新一轮的沟通训练直至全局模型收敛。

此外，本实施例还选取了与上述全局模型相同结构的卷积神经网络和相同设置，执行MNIST分类预测任务。从100个本地客户端中选择20个本地客户端，在给定稀疏度为S＝0.5的条件下，每个本地客户端每轮在本地数据集上使用SGD优化器迭代10次，和服务端沟通50次，进行联邦学习训练后预测，其预测结果的准确率如图4所示。显而易见，相较于FedDST、FedAvg和FedProx，本实施例提出的基于对比学习的联邦学习稀疏训练方法得到的模型性能更好，经需要较少的沟通轮数便可获得较高的准确率。

实施例3

本实施提出一种基于对比学习的联邦学习稀疏训练***，参照图3，应用于实施例1提出的基于对比学习的联邦学习稀疏训练方法，包括服务端和本地客户端，所述服务端与本地客户端连接；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。