CN113518007B

CN113518007B - 一种基于联邦学习的多物联网设备异构模型高效互学习方法

Info

Publication number: CN113518007B
Application number: CN202110762229.9A
Authority: CN
Inventors: 陈铭松; 夏珺
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2022-09-20
Anticipated expiration: 2041-07-06
Also published as: CN113518007A

Abstract

本发明公开了一种基于联邦学习的多物联网设备异构模型高效互学习方法，所述方法可以打破异构模型之间的知识壁垒，提高异构模型在各类物联网设备中的性能。在本方法框架中，不同的模型开始相互学习，两种模型都可以收敛到很好的结果。由于局部模型有局部数据分布，全局小模型具备全局数据分布，为了增加联邦学习的普适性，本发明提出一种基于深度相互学习的训练方法，考虑局部模型之间的知识共享过程。本发明通过综合实验对本发明方法PFL进行了论证，可以在实际场景中在通信量和预测精度方面的有效性。

Description

一种基于联邦学习的多物联网设备异构模型高效互学习方法

技术领域

本发明属于计算机技术领域，专注于物联网设备异构模型联邦学习效率，涉及一种基于联邦学习的多物联网设备异构模型高效互学习方法，根据流量包含信息从而完整且较为精确的检测物联网应用流量类型与来源。

背景技术

近些年，联邦学***均与模型平均的限制，设备与云端都为相同模型。

但是，现实场景中存在有多类异构物联网设备，每个设备在实际场景、存储、计算、通信等方面存在较大差异性，设备所面临的异构难题与联邦学习中使用同构模型相互矛盾。其次，各个物联网设备生产厂家各不相同，其设备中所存在的预训练模型也存在较大差异，每个设备根据其应用场景的需求所需要的模型存在一定的异构性。

目前所存在的联邦学习算法并不能很好地应用多设备资源异构的特点，只能基于同构模型使用联邦学习算法进行各个设备之间的学习与模型下发，而异构模型除了将自身模型上传云端与同构模型联邦学习这种方式，由于模型结构的不同，不能与其他设备进行学习迭代。这将导致计算与存储较大的设备无法享有更好的模型与更高的准确率，所以如何利用联邦学习中异构设备的差异性提高整体联邦学习性能，成为了现阶段联邦学习算法应用中亟待解决的问题。

因此，如何使用一种联邦聚合算法在保证每个设备中数据与模型隐私的同时，能够针对多个异构模型进行联邦学习，这成为了联邦学习所面对的一个挑战。

发明内容

为了解决现有技术存在的不足，本发明的目的是提供一种基于相互学习的异构物联网模型联邦学习方法。在PFL中，分布式边缘设备和云服务器紧密合作，实现对部署在异构设备上的模型的全球学习。在训练开始前，所有要求参与联邦学习的设备都应该向云服务器报告其计算和存储容量信息。然后，云服务器根据收集到的设备容量信息，计算并确定初始Modellet的大小，然后将初始化后的Modellet分发给所有涉及到的边缘设备。接下来，PFL将对边缘设备进行多层次的本地训练，在云中进行模型聚合，在边缘和云之间进行模型同步。在实际操作中，PFL框架的整个工作过程可以分为四个步骤，包括Modellet大小确定、设备端相互学习、云端模型聚合、模型集成预测四个步骤，提高异构联邦学习性能，具体流程如图1、2。

实现本发明目的的具体技术方案是：

一种基于相互学习的异构物联网模型联邦学习方法，该方法包括以下具体步骤：

步骤1：Modellet大小确定：在训练开始之前，所有请求参与联邦学习的设备都应向云服务器报告设备计算和存储容量信息。之后，云服务器根据收集到的设备容量信息，计算并确定初始Modellet的大小，然后将初始化的Modellet分发给所有涉及的边缘设备。

步骤2：设备端相互学习：基于本地真实数据集对设备上的Modellet和本地模型进行训练。在每个训练阶段，在每个设备上使用深度相互学习来实现Modellet和本地模型之间的相互学习。因此，Modellet将学习本地模型和本地真实数据集，而本地模型将学习Modellet和本地真实数据集。深度相互学习的知识传递性大大提高了模型的预测精度。

步骤3：云端模型聚合：在每个本地训练轮数结束时，每个设备上Modellet的梯度上传到云服务器中，并存储在梯度缓冲区中；然后，对云服务器中储存的Modellet梯度进行平均，生成一个平均的Modellet梯度，该梯度与前一个训练轮数的Modellet参数进一步聚合。最后，这一步将以一个聚合的Modellet结束。云中聚合的Modellet被分派到所有相关的边缘设备，用于下一个训练轮数训练。

步骤4：集成预测：重复步骤1、2和3，直到达到预定的训练次数。最后，通过平均集成投票的方法将模型和局部模型结合成一个新的集成模型，并最终用于预测。

步骤1中，通过引入轻量化模型，最佳适配于当前设备资源容量，屏蔽设备上局部模型的异构信息，减少当前设备的通信开销。

步骤2中，所述的设备端相互学习阶段，所述本地数据集为当前设备所能接触的真实数据集，深度相互学习为全局小模型与本地大模型之间进行知识蒸馏的软标签相互学习，通过小模型学习到的全局知识改变具备本地特征的大模型性能，最终实现异构模型之间联邦学习。

本发明的有益效果：由于联邦学习同构模型的局限性，异构模型的异构性能无法得到充分的发挥，使用本发明可以很好的屏蔽异构设备异构模型的细节，相比于现有研究方法，本方法可以提高异构联邦学习的性能与效率，打破异构模型的壁垒。

附图说明

图1是本发明预处理工作流程。

图2是本发明实验结果样例图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

在机器学习领域中，损失函数被用来表示模型预测与现实之间的差异，其目的是针对模型实现精准预测。在深度学习中，由于对模型有较多要求，损失函数在训练阶段被用来优化神经网络模型的预测精度。当两个模型进行相互学习时，相互学习损失函数与一般损失函数不同。相互学习损失函数包含两部分，传统损失函数与知识蒸馏中标签中的损失函数。他们可以被定义为：

相互学习损失函数L(x，y，y_w，y_t|w)＝(1-α)L_Hard(x，y|w)+αL_Soft(y_w，y_t|w) (1)

公式(1)中的L_Hard(x，y|w)表明深度学习训练中常用的交叉熵损失函数，损失计算的是模型最大概率分布与真实标签概率分布的差别，x和y表示常用图片与分类标签的独热编码，w表示当前模型的模型参数。L_Soft(x，y|w)表明训练中使用的KL散度，即知识蒸馏中标签中的损失函数，损失计算的是大模型与中间件模型概率分布的差异，公式(1)中的超参数α用来设置KL散度损失与交叉熵函数之间的贡献度。更高的超参数表明软标签loss对整体损失函数的占比。

对于不同的神经网络模型，可以使用相同的方式进行两两之间相互学习以达到最小损失L(x，y，y_w，yt|w)与最优化模型。最优化模型可以根据公式2计算获取：

通过对双方模型进行相互的知识迁移与蒸馏，模型双方可以互相学习到不同模型关于知识的学习方式，从而提升双方模型性能。

本发明提出了一种基于相互学习的异构物联网模型联邦学习方法，包括以下步骤：

步骤1：Modellet大小确定：在训练开始之前，所有请求参与联邦学习的设备都应向云服务器报告设备计算和存储容量信息。之后，云服务器根据收集到的设备容量信息，通过计算最小的设备存储资源大小，计算并确定初始Modellet的大小，将Modellet模型具体确定后，再初始化的Modellet分发给所有在联邦学习中的边缘设备。

步骤2：设备端相互学习：基于本地真实数据集对设备上的Modellet和本地模型进行训练。在每个训练阶段，在每个设备上通过Modellet与本地模型计算当前真实图像的硬标签与软标签，使用交叉熵函数与相对熵函数分别计算。深度相互学习来实现Modellet和本地模型之间的相互学习。因此，Modellet将学习本地模型和本地真实数据集，而本地模型将学习Modellet和本地真实数据集。深度相互学习的知识传递性大大提高了模型的预测精度。

步骤4：集成预测：重复步骤1、2和3，直到达到预定的训练次数。最后，通过平均集成投票的方法将模型和局部模型结合成一个新的集成模型，每个模型针对当前预测图片做出预测，最终将预测结果进行平均。

本发明中涉及到的设备相互学习算法和云端模型聚合算法具体如下：

(1)设备相互学习算法

Input：

云端服务器：S；

每批次数据集数量：b；

设备索引：k；

训练轮数：E

全局小模型：M

本地模型：D

Output:

训练后小模型：

训练后本地模型：

假设设备K参与普适联邦学习，最初本地设备只有适应设备容量的异构本地模型。第2行表示设备收集真实图像数据作为其训练数据集。第4行表述本地训练轮数为

第5-6行表示设备使用收集到的自然数据来训练模型和局部模型，获得其预测结果和软标签，其中V表示模型预测结果，P表示模型软标签。

第7-8行表示设备使用收集的自然数据来获得交叉熵损失L_Hard。

第9-10行旨在获得模型和设备本地模型的Kullback-Leibler散度损失L_Soft。

第11-12行计算基于软标签和硬标签的总损失。

第13-14行通过随机梯度下降计算全局小模型和本地大模型的梯度。

第15行根据之前的结果更新设备中的本地模型。

第16行将第k个设备K上的模型梯度发送到云服务器S。

第17行表示第k个设备K从云服务器S接收更新后的模型，并相应地更新其本地模型。

(2)云端聚合算法

Input：

云端模型参数：W_S；

训练总轮数：r；

设备数量：N；

训练轮数：E

全局小模型：M

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于联邦学习的多物联网设备异构模型高效互学习方法，其特征在于，所述方法包括如下步骤：

步骤1：Modellet大小确定：在训练开始之前，所有请求参与联邦学习的设备向云服务器报告设备计算和存储容量信息；之后，云服务器根据收集到的设备容量信息，计算并确定初始Modellet的大小，然后将初始化的Modellet分发给所有涉及的边缘设备；

步骤2：设备端相互学习：基于本地真实数据集对设备上的Modellet和本地模型进行训练；在每个训练阶段，在每个设备上使用深度相互学习来实现Modellet和本地模型之间的相互学习，即Modellet学习本地模型和本地真实数据集，而本地模型学习Modellet和本地真实数据集；通过深度相互学习的知识传递性提高了模型的预测精度；相互学习损失函数包含两部分，传统损失函数与知识蒸馏中标签中的损失函数，其定义为：

公式(1)中的L_Hard(x，y|w)表明深度学习训练中常用的交叉熵损失函数，损失计算的是模型最大概率分布与真实标签概率分布的差别，x和y表示常用图片与分类标签的独热编码，w表示当前模型的模型参数；L_Soft(y_w，y_t|w)表明训练中使用的KL散度，即知识蒸馏中标签中的损失函数，损失计算的是大模型与中间件模型概率分布的差异，公式(1)中的超参数α用来设置KL散度损失与交叉熵函数之间的贡献度；

对于不同的神经网络模型，使用相同的方式进行两两之间相互学习以达到最小损失L(x，y，y_w，y_t|w)与最优化模型；最优化模型根据公式2计算获取：

步骤3：云端模型聚合：在每个本地训练轮数结束时，每个设备上Modellet的梯度上传到云服务器中，并存储在梯度缓冲区中；然后，对云服务器中储存的Modellet梯度进行平均，生成一个平均的Modellet梯度，该梯度与前一个训练轮数的Modellet参数进一步聚合，获得一个聚合的Modellet；在云服务器中聚合的Modellet被分派到所有相关的边缘设备，用于下一个训练轮数训练；

步骤4：模型集成预测：重复步骤1、2和3，直到达到预定的训练次数；最后，通过平均集成投票的方法将模型和局部模型结合成一个新的集成模型，并最终用于预测。

2.如权利要求1所述的方法，其特征在于，步骤1中通过引入轻量化模型，最佳适配于当前设备资源容量，屏蔽设备上局部模型的异构信息，减少当前设备的通信开销。

3.如权利要求1所述的方法，其特征在于，步骤2中，所述本地真实数据集为当前设备所能接触的真实数据集，深度相互学习为全局小模型与本地大模型之间进行知识蒸馏的软标签相互学习。