CN113518007B - 一种基于联邦学习的多物联网设备异构模型高效互学习方法 - Google Patents

一种基于联邦学习的多物联网设备异构模型高效互学习方法 Download PDF

Info

Publication number
CN113518007B
CN113518007B CN202110762229.9A CN202110762229A CN113518007B CN 113518007 B CN113518007 B CN 113518007B CN 202110762229 A CN202110762229 A CN 202110762229A CN 113518007 B CN113518007 B CN 113518007B
Authority
CN
China
Prior art keywords
model
local
learning
modellet
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110762229.9A
Other languages
English (en)
Other versions
CN113518007A (zh
Inventor
陈铭松
夏珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110762229.9A priority Critical patent/CN113518007B/zh
Publication of CN113518007A publication Critical patent/CN113518007A/zh
Application granted granted Critical
Publication of CN113518007B publication Critical patent/CN113518007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于联邦学习的多物联网设备异构模型高效互学习方法,所述方法可以打破异构模型之间的知识壁垒,提高异构模型在各类物联网设备中的性能。在本方法框架中,不同的模型开始相互学习,两种模型都可以收敛到很好的结果。由于局部模型有局部数据分布,全局小模型具备全局数据分布,为了增加联邦学习的普适性,本发明提出一种基于深度相互学习的训练方法,考虑局部模型之间的知识共享过程。本发明通过综合实验对本发明方法PFL进行了论证,可以在实际场景中在通信量和预测精度方面的有效性。

Description

一种基于联邦学习的多物联网设备异构模型高效互学习方法
技术领域
本发明属于计算机技术领域,专注于物联网设备异构模型联邦学习效率,涉及一种基于联邦学习的多物联网设备异构模型高效互学习方法,根据流量包含信息从而完整且较为精确的检测物联网应用流量类型与来源。
背景技术
近些年,联邦学***均与模型平均的限制,设备与云端都为相同模型。
但是,现实场景中存在有多类异构物联网设备,每个设备在实际场景、存储、计算、通信等方面存在较大差异性,设备所面临的异构难题与联邦学习中使用同构模型相互矛盾。其次,各个物联网设备生产厂家各不相同,其设备中所存在的预训练模型也存在较大差异,每个设备根据其应用场景的需求所需要的模型存在一定的异构性。
目前所存在的联邦学习算法并不能很好地应用多设备资源异构的特点,只能基于同构模型使用联邦学习算法进行各个设备之间的学习与模型下发,而异构模型除了将自身模型上传云端与同构模型联邦学习这种方式,由于模型结构的不同,不能与其他设备进行学习迭代。这将导致计算与存储较大的设备无法享有更好的模型与更高的准确率,所以如何利用联邦学习中异构设备的差异性提高整体联邦学习性能,成为了现阶段联邦学习算法应用中亟待解决的问题。
因此,如何使用一种联邦聚合算法在保证每个设备中数据与模型隐私的同时,能够针对多个异构模型进行联邦学习,这成为了联邦学习所面对的一个挑战。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种基于相互学习的异构物联网模型联邦学习方法。在PFL中,分布式边缘设备和云服务器紧密合作,实现对部署在异构设备上的模型的全球学习。在训练开始前,所有要求参与联邦学习的设备都应该向云服务器报告其计算和存储容量信息。然后,云服务器根据收集到的设备容量信息,计算并确定初始Modellet的大小,然后将初始化后的Modellet分发给所有涉及到的边缘设备。接下来,PFL将对边缘设备进行多层次的本地训练,在云中进行模型聚合,在边缘和云之间进行模型同步。在实际操作中,PFL框架的整个工作过程可以分为四个步骤,包括Modellet大小确定、设备端相互学习、云端模型聚合、模型集成预测四个步骤,提高异构联邦学习性能,具体流程如图1、2。
实现本发明目的的具体技术方案是:
一种基于相互学习的异构物联网模型联邦学习方法,该方法包括以下具体步骤:
步骤1:Modellet大小确定:在训练开始之前,所有请求参与联邦学习的设备都应向云服务器报告设备计算和存储容量信息。之后,云服务器根据收集到的设备容量信息,计算并确定初始Modellet的大小,然后将初始化的Modellet分发给所有涉及的边缘设备。
步骤2:设备端相互学习:基于本地真实数据集对设备上的Modellet和本地模型进行训练。在每个训练阶段,在每个设备上使用深度相互学习来实现Modellet和本地模型之间的相互学习。因此,Modellet将学习本地模型和本地真实数据集,而本地模型将学习Modellet和本地真实数据集。深度相互学习的知识传递性大大提高了模型的预测精度。
步骤3:云端模型聚合:在每个本地训练轮数结束时,每个设备上Modellet的梯度上传到云服务器中,并存储在梯度缓冲区中;然后,对云服务器中储存的Modellet梯度进行平均,生成一个平均的Modellet梯度,该梯度与前一个训练轮数的Modellet参数进一步聚合。最后,这一步将以一个聚合的Modellet结束。云中聚合的Modellet被分派到所有相关的边缘设备,用于下一个训练轮数训练。
步骤4:集成预测:重复步骤1、2和3,直到达到预定的训练次数。最后,通过平均集成投票的方法将模型和局部模型结合成一个新的集成模型,并最终用于预测。
步骤1中,通过引入轻量化模型,最佳适配于当前设备资源容量,屏蔽设备上局部模型的异构信息,减少当前设备的通信开销。
步骤2中,所述的设备端相互学习阶段,所述本地数据集为当前设备所能接触的真实数据集,深度相互学习为全局小模型与本地大模型之间进行知识蒸馏的软标签相互学习,通过小模型学习到的全局知识改变具备本地特征的大模型性能,最终实现异构模型之间联邦学习。
本发明的有益效果:由于联邦学习同构模型的局限性,异构模型的异构性能无法得到充分的发挥,使用本发明可以很好的屏蔽异构设备异构模型的细节,相比于现有研究方法,本方法可以提高异构联邦学习的性能与效率,打破异构模型的壁垒。
附图说明
图1是本发明预处理工作流程。
图2是本发明实验结果样例图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明公开了一种基于联邦学习的多物联网设备异构模型高效互学习方法,所述方法可以打破异构模型之间的知识壁垒,提高异构模型在各类物联网设备中的性能。在本方法框架中,不同的模型开始相互学习,两种模型都可以收敛到很好的结果。由于局部模型有局部数据分布,全局小模型具备全局数据分布,为了增加联邦学习的普适性,本发明提出一种基于深度相互学习的训练方法,考虑局部模型之间的知识共享过程。本发明通过综合实验对本发明方法PFL进行了论证,可以在实际场景中在通信量和预测精度方面的有效性。
在机器学习领域中,损失函数被用来表示模型预测与现实之间的差异,其目的是针对模型实现精准预测。在深度学习中,由于对模型有较多要求,损失函数在训练阶段被用来优化神经网络模型的预测精度。当两个模型进行相互学习时,相互学习损失函数与一般损失函数不同。相互学习损失函数包含两部分,传统损失函数与知识蒸馏中标签中的损失函数。他们可以被定义为:
相互学习损失函数L(x,y,yw,yt|w)=(1-α)LHard(x,y|w)+αLSoft(yw,yt|w) (1)
公式(1)中的LHard(x,y|w)表明深度学习训练中常用的交叉熵损失函数,损失计算的是模型最大概率分布与真实标签概率分布的差别,x和y表示常用图片与分类标签的独热编码,w表示当前模型的模型参数。LSoft(x,y|w)表明训练中使用的KL散度,即知识蒸馏中标签中的损失函数,损失计算的是大模型与中间件模型概率分布的差异,公式(1)中的超参数α用来设置KL散度损失与交叉熵函数之间的贡献度。更高的超参数表明软标签loss对整体损失函数的占比。
对于不同的神经网络模型,可以使用相同的方式进行两两之间相互学习以达到最小损失L(x,y,yw,yt|w)与最优化模型。最优化模型可以根据公式2计算获取:
Figure BDA0003149432280000031
通过对双方模型进行相互的知识迁移与蒸馏,模型双方可以互相学习到不同模型关于知识的学习方式,从而提升双方模型性能。
本发明提出了一种基于相互学习的异构物联网模型联邦学习方法,包括以下步骤:
步骤1:Modellet大小确定:在训练开始之前,所有请求参与联邦学习的设备都应向云服务器报告设备计算和存储容量信息。之后,云服务器根据收集到的设备容量信息,通过计算最小的设备存储资源大小,计算并确定初始Modellet的大小,将Modellet模型具体确定后,再初始化的Modellet分发给所有在联邦学习中的边缘设备。
步骤2:设备端相互学习:基于本地真实数据集对设备上的Modellet和本地模型进行训练。在每个训练阶段,在每个设备上通过Modellet与本地模型计算当前真实图像的硬标签与软标签,使用交叉熵函数与相对熵函数分别计算。深度相互学习来实现Modellet和本地模型之间的相互学习。因此,Modellet将学习本地模型和本地真实数据集,而本地模型将学习Modellet和本地真实数据集。深度相互学习的知识传递性大大提高了模型的预测精度。
步骤3:云端模型聚合:在每个本地训练轮数结束时,每个设备上Modellet的梯度上传到云服务器中,并存储在梯度缓冲区中;然后,对云服务器中储存的Modellet梯度进行平均,生成一个平均的Modellet梯度,该梯度与前一个训练轮数的Modellet参数进一步聚合。最后,这一步将以一个聚合的Modellet结束。云中聚合的Modellet被分派到所有相关的边缘设备,用于下一个训练轮数训练。
步骤4:集成预测:重复步骤1、2和3,直到达到预定的训练次数。最后,通过平均集成投票的方法将模型和局部模型结合成一个新的集成模型,每个模型针对当前预测图片做出预测,最终将预测结果进行平均。
本发明中涉及到的设备相互学习算法和云端模型聚合算法具体如下:
(1)设备相互学习算法
Input:
云端服务器:S;
每批次数据集数量:b;
设备索引:k;
训练轮数:E
全局小模型:M
本地模型:D
Output:
训练后小模型:
Figure BDA0003149432280000041
训练后本地模型:
Figure BDA0003149432280000042
Figure BDA0003149432280000051
假设设备K参与普适联邦学习,最初本地设备只有适应设备容量的异构本地模型。第2行表示设备收集真实图像数据作为其训练数据集。第4行表述本地训练轮数为
Figure BDA0003149432280000052
第5-6行表示设备使用收集到的自然数据来训练模型和局部模型,获得其预测结果和软标签,其中V表示模型预测结果,P表示模型软标签。
第7-8行表示设备使用收集的自然数据来获得交叉熵损失LHard
第9-10行旨在获得模型和设备本地模型的Kullback-Leibler散度损失LSoft
第11-12行计算基于软标签和硬标签的总损失。
第13-14行通过随机梯度下降计算全局小模型和本地大模型的梯度。
第15行根据之前的结果更新设备中的本地模型。
第16行将第k个设备K上的模型梯度发送到云服务器S。
第17行表示第k个设备K从云服务器S接收更新后的模型,并相应地更新其本地模型。
(2)云端聚合算法
Input:
云端模型参数:WS
训练总轮数:r;
设备数量:N;
训练轮数:E
全局小模型:M
Figure BDA0003149432280000061
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (3)

1.一种基于联邦学习的多物联网设备异构模型高效互学习方法,其特征在于,所述方法包括如下步骤:
步骤1:Modellet大小确定:在训练开始之前,所有请求参与联邦学习的设备向云服务器报告设备计算和存储容量信息;之后,云服务器根据收集到的设备容量信息,计算并确定初始Modellet的大小,然后将初始化的Modellet分发给所有涉及的边缘设备;
步骤2:设备端相互学习:基于本地真实数据集对设备上的Modellet和本地模型进行训练;在每个训练阶段,在每个设备上使用深度相互学习来实现Modellet和本地模型之间的相互学习,即Modellet学习本地模型和本地真实数据集,而本地模型学习Modellet和本地真实数据集;通过深度相互学习的知识传递性提高了模型的预测精度;相互学习损失函数包含两部分,传统损失函数与知识蒸馏中标签中的损失函数,其定义为:
相互学习损失函数L(x,y,yw,yt|w)=(1-α)LHard(x,y|w)+αLSoft(yw,yt|w) (1)
公式(1)中的LHard(x,y|w)表明深度学习训练中常用的交叉熵损失函数,损失计算的是模型最大概率分布与真实标签概率分布的差别,x和y表示常用图片与分类标签的独热编码,w表示当前模型的模型参数;LSoft(yw,yt|w)表明训练中使用的KL散度,即知识蒸馏中标签中的损失函数,损失计算的是大模型与中间件模型概率分布的差异,公式(1)中的超参数α用来设置KL散度损失与交叉熵函数之间的贡献度;
对于不同的神经网络模型,使用相同的方式进行两两之间相互学习以达到最小损失L(x,y,yw,yt|w)与最优化模型;最优化模型根据公式2计算获取:
Figure FDA0003705228740000011
步骤3:云端模型聚合:在每个本地训练轮数结束时,每个设备上Modellet的梯度上传到云服务器中,并存储在梯度缓冲区中;然后,对云服务器中储存的Modellet梯度进行平均,生成一个平均的Modellet梯度,该梯度与前一个训练轮数的Modellet参数进一步聚合,获得一个聚合的Modellet;在云服务器中聚合的Modellet被分派到所有相关的边缘设备,用于下一个训练轮数训练;
步骤4:模型集成预测:重复步骤1、2和3,直到达到预定的训练次数;最后,通过平均集成投票的方法将模型和局部模型结合成一个新的集成模型,并最终用于预测。
2.如权利要求1所述的方法,其特征在于,步骤1中通过引入轻量化模型,最佳适配于当前设备资源容量,屏蔽设备上局部模型的异构信息,减少当前设备的通信开销。
3.如权利要求1所述的方法,其特征在于,步骤2中,所述本地真实数据集为当前设备所能接触的真实数据集,深度相互学习为全局小模型与本地大模型之间进行知识蒸馏的软标签相互学习。
CN202110762229.9A 2021-07-06 2021-07-06 一种基于联邦学习的多物联网设备异构模型高效互学习方法 Active CN113518007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110762229.9A CN113518007B (zh) 2021-07-06 2021-07-06 一种基于联邦学习的多物联网设备异构模型高效互学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110762229.9A CN113518007B (zh) 2021-07-06 2021-07-06 一种基于联邦学习的多物联网设备异构模型高效互学习方法

Publications (2)

Publication Number Publication Date
CN113518007A CN113518007A (zh) 2021-10-19
CN113518007B true CN113518007B (zh) 2022-09-20

Family

ID=78066857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110762229.9A Active CN113518007B (zh) 2021-07-06 2021-07-06 一种基于联邦学习的多物联网设备异构模型高效互学习方法

Country Status (1)

Country Link
CN (1) CN113518007B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710330B (zh) * 2022-03-22 2023-01-24 华东师范大学 一种基于异构分层联邦学习的异常检测方法
CN114844889B (zh) * 2022-04-14 2023-07-07 北京百度网讯科技有限公司 视频处理模型的更新方法、装置、电子设备及存储介质
CN115017351B (zh) * 2022-05-31 2024-05-10 杭州卷积云科技有限公司 基于联邦小样本学习的轻量工业图片分类方法及***
CN115271033B (zh) * 2022-07-05 2023-11-21 西南财经大学 基于联邦知识蒸馏医学图像处理模型构建及其处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572253A (zh) * 2019-09-16 2019-12-13 济南大学 一种联邦学习训练数据隐私性增强方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995737B (zh) * 2019-12-13 2022-08-02 支付宝(杭州)信息技术有限公司 联邦学习的梯度融合方法及装置和电子设备
CN112702623A (zh) * 2020-12-18 2021-04-23 深圳前海微众银行股份有限公司 视频处理方法、装置、设备及存储介质
CN113052331A (zh) * 2021-02-19 2021-06-29 北京航空航天大学 一种基于区块链的物联网个性化联邦学习方法
CN112836822B (zh) * 2021-02-26 2024-05-28 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
CN113011599B (zh) * 2021-03-23 2023-02-28 上海嗨普智能信息科技股份有限公司 基于异构数据的联邦学习***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572253A (zh) * 2019-09-16 2019-12-13 济南大学 一种联邦学习训练数据隐私性增强方法及***

Also Published As

Publication number Publication date
CN113518007A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN113518007B (zh) 一种基于联邦学习的多物联网设备异构模型高效互学习方法
CN112181971B (zh) 一种基于边缘的联邦学习模型清洗和设备聚类方法、***
Liu et al. FedCPF: An efficient-communication federated learning approach for vehicular edge computing in 6G communication networks
CN113011602B (zh) 一种联邦模型训练方法、装置、电子设备和存储介质
CN113191484B (zh) 基于深度强化学习的联邦学习客户端智能选取方法及***
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN113469325B (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
WO2021227508A1 (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN114553661B (zh) 一种面向无线联邦学习的移动用户设备分簇训练方法
Liu et al. Fedpa: An adaptively partial model aggregation strategy in federated learning
CN115358487A (zh) 面向电力数据共享的联邦学习聚合优化***及方法
WO2023109699A1 (zh) 一种多智能体的通信学习方法
CN115374853A (zh) 基于T-Step聚合算法的异步联邦学习方法及***
CN115344883A (zh) 一种用于处理不平衡数据的个性化联邦学习方法和装置
CN114357676A (zh) 一种针对层次化模型训练框架的聚合频率控制方法
CN115115021A (zh) 基于模型参数异步更新的个性化联邦学习方法
CN117829307A (zh) 一种面向数据异构性的联邦学习方法及***
Zhaohang et al. Adaptive asynchronous federated learning for edge intelligence
Zhang et al. Delay-constrained client selection for heterogeneous federated learning in intelligent transportation systems
CN115118591B (zh) 一种基于联盟博弈的簇联邦学习方法
CN107018027B (zh) 一种基于贝叶斯估计和共同邻居节点度的链路预测方法
CN115345320A (zh) 一种在分层联邦学习框架下实现个性化模型的方法
CN107231252B (zh) 一种基于贝叶斯估计和种子节点邻居集合的链路预测方法
Zhang et al. Network traffic classification method based on subspace triple attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant