CN116562365A - 面向隐私保护的深度量化联邦学习方法 - Google Patents
面向隐私保护的深度量化联邦学习方法 Download PDFInfo
- Publication number
- CN116562365A CN116562365A CN202310487154.7A CN202310487154A CN116562365A CN 116562365 A CN116562365 A CN 116562365A CN 202310487154 A CN202310487154 A CN 202310487154A CN 116562365 A CN116562365 A CN 116562365A
- Authority
- CN
- China
- Prior art keywords
- quantization
- model
- local
- depth
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及信息安全、隐私保护技术领域,为实现将量化误差代替差分隐私技术中格外添加的高斯噪声,实现对于本地客户端的隐私保护,本发明,面向隐私保护的深度量化联邦学习方法,在t次全局迭代过程中,客户端k利用本地数据训练后得到更新模型的参数对深度量化网络进行训练,随后利用训练好的深度量化网络对更新模型进行量化并改变量化噪声分布,得到量化后的的索引值,将索引值经过无损编码后送至服务器端;服务器端接收解码后得到后进行聚合更新,得到更新后的全局模型,并下发至用户进行下一轮联邦学习的迭代。本发明主要应用于隐私保护通信场合。
Description
技术领域
本发明涉及信息安全、隐私保护技术领域,属于联邦学习的量化和隐私增强领域,是一种基于隐私增强任务的联邦学习量化的算法。具体涉及到一种深度量化联邦学习框架的设计。
背景技术
随着通信和网络技术的发展,大数据时代伴随着机器学习的发展到来了。机器学习实质上就是用大量的数据对机器学习模型进行训练直至模型收敛后,该模型能对新的输入数据进行推测和预判。数据无处不在,然而对数据的合法获得和安全使用,为了机器学习的框架和标准提出了新的要求。联邦学习作为一种分布式机器学习范式,具有处理边缘设备密集计算的能力,与集中式训练相比,联邦学习只向服务器传输模型的更新部分,而非传输原始数据,在提高通信效率同时能减少网络拥塞,并提供一定程度的隐私保护效果。因此,联邦学习基于以上优势而受到广泛关注。
传统中心式联邦学习框架主要包括一个中央参数服务器和多个保留本地数据集的边缘用户,***框架具体步骤如下:
步骤1:模型初始化
根据设计的训练任务和模型结构,服务器进行初始化并将初始化模型参数广播下发至所有用户,用户接收模型参数进行模型初始化。
步骤2:本地模型训练
在第t轮全局训练下,服务器下发全局模型,激活的用户利用本地数据集进行本地训练,得到本地模型更新,并上传至服务器。
步骤3:全局模型聚合
服务器将收集到的本地模型进行模型聚合,更新全局模型并广播下发至用户端以便进行下一次迭代训练。
重复迭代步骤2与步骤3,直到模型收敛。
目前联邦学习存在网络训练的通信量大和隐私泄露两个方面的问题,受到研究人员的广泛关注。针对网络通信量通常采用量化的压缩方法,如Konecny等[1]人通过提取模型更新的草图并对其进行量化、随机旋转、二次采样等方法进行压缩,以降低中心服务器与所有用户之间的通信量;Dan Alistarh等人[2]考虑用对模型梯度进行标量量化来改善并行随机梯度下降(Stochastic Gradient Descent,SGD)计算中的通信传输问题,并重点研究了通信带宽和收敛时间的权衡问题。针对联邦学习的隐私保护问题,目前常用方法差分隐私,即对于敏感信息引入噪声进行扰动,从而达到保护私有信息的作用。如文献[3]利用局部差分隐私(Local Differential Privacy,LDP)来保护基于随机梯度下降算法的联邦学习模型的用户数据,且将LDP中使用的查询灵敏度定义为一个变量,实现用户隐私、全局效用和传输速率之间的权衡。文献[4]通过分别应用局部差分隐私LDP和集中差分隐私(Centralized Differential Privacy,CDP),以加强对参与者隐私的保护,服务器端和客户端应用稀疏梯度和动量梯度下降以提高模型的准确性性能。针对通信量和隐私保护的现有研究通常将两者作为独立且互不影响的分量进行考虑,如文献[5]提出了一种具有LDP的通信高效FL(Federated Learning,FL)算法,该算法使用高斯机制,然后进行量化和Elias-gamma编码;文献[6]提出了具有局部差分隐私机制的联邦学习通用向量量化方法,在客户端在聚合之前将人工高斯噪声添加到本地模型更新中,随后使用向量量化方法对模型参数进行量化。
[1]J.Konecny,H.B.McMahan,F.X.Yu,P.Richtárik,A.T.Suresh,and D.Bacon,“Federated learning:
Strategies for improving communication efficiency,”2016.[Online].Available:arXiv:1610.05492
[2]D.Alistarh,D.Grubic,J.Li,R.Tomioka,and M.Vojnovic,“QSGD:Communication-Efficient SGD viaGradient Quantization and Encoding,”31stAnnual Conference on Neural Information Processing Systems
(NIPS),Long Beach,CA,United states,2017,vol.30,pp.1709-1720.
[3]M.Kim,O.Günlüand R.F.Schaefer,"Federated Learning with LocalDifferential Privacy:Trade-OffsBetween Privacy,Utility,and Communication,"ICASSP 2021-2021IEEE International Conference onAcoustics,Speech and SignalProcessing(ICASSP),Toronto,ON,Canada,2021,pp.2650-2654,doi:
10.1109/ICASSP39728.2021.9413764.
[4]S.Weng et al.,"Privacy-Preserving Federated Learning based onDifferential Privacy and MomentumGradient Descent,"2022International JointConference on Neural Networks(IJCNN),Padua,Italy,2022,pp.
1-6,doi:10.1109/IJCNN55064.2022.9889795.
[5]M.Kim,O.Günlüand R.F.Schaefer,"Effects of Quantization onFederated Learning with Local DifferentialPrivacy,"GLOBECOM 2022-2022IEEEGlobal Communications Conference,Rio de Janeiro,Brazil,2022,
pp.921-926,doi:10.1109/GLOBECOM48099.2022.10000632.
[6]H.Zong,Q.Wang,X.Liu,Y.Li and Y.Shao,"Communication ReducingQuantization for FederatedLearning with Local Differential PrivacyMechanism,"2021IEEE/CIC International Conference onCommunications in China(ICCC),Xiamen,China,2021,pp.75-80,doi:10.1109/ICCC52777.2021.9580315.[7]AbadiM,Chu A,Goodfellow I,et al.Deep learning with differential privacy[C]//Proceedings of the 2016
ACM SIGSAC conference on computer and communications security.2016:308-318.
发明内容
为克服现有技术的不足,本发明旨在实现将量化误差代替差分隐私技术中格外添加的高斯噪声,在不引入其他额外噪声的同时实现对于本地客户端的隐私保护,并在理论上分析算法的隐私性能,为此,本发明采取的技术方案是,面向隐私保护的深度量化联邦学习方法,在t次全局迭代过程中,客户端k利用本地数据训练后得到更新模型的参数对深度量化网络进行训练,学习确定量化映射函数的超参并生成自适应的深度标量量化器DSQ,随后利用训练好的深度量化网络对更新模型进行量化并改变量化噪声分布,得到量化后的的索引值,将索引值/>经过无损编码后送至服务器端;服务器端接收所有激活用户发送来的索引值/>解码后得到/>后进行聚合更新,得到更新后的全局模型,并下发至用户进行下一轮联邦学习的迭代。
详细步骤如下:
步骤1:模型初始化
中心服务器初始化模型参数为w0并广播至所有的用户,***内含有K个用户,本地训练次数为τ次,总体训练次数为T次,深度量化网络的量化级数为M;
步骤2:本地模型训练
针对第t个全局模型训练轮次,先有中心服务器下发前t-1次聚合模型wt-1至所有激活用户,第k个激活用户利用本地数据集Dk进行本地训练τ次后得到更新的模型计算模型更新为/>
步骤3:深度量化器训练
设置量化等级为M,利用模型更新参数对深度量化网络DSQ(.)进行训练,学习确定量化映射函数的超参ai,bi和ci,得到量化映射函数如公式(1)和深度量化器如公式(2)所示,以及量化区间为/>
步骤4:量化和编码传输
在将模型更新参数通过训练后的深度量化网络DSQ(.)进行量化,得到量化后的索引值/>最后将对应量化索引值/>经过无损编码编码后发送至中心服务器端;
步骤5:全局模型聚合更新
中心服务器将接收到的码字进行解码,得到索引值,经过映射得到并根据模型聚合公式(3)进行模型聚合并广播更新后的全局模型;
步骤2至步骤5重复迭代T次,直到训练过程收敛。
构建深度量化网络步骤如下:
深度量化网络实际采用深度神经网络,为包含多个线性层和Tanh激活函数的深度神经网络,量化层包含多个Tanh组合的激活函数,整体网络训练目标是使得网络的输入和输出近似,转变输入和输出之间误差的分布使其满足高斯分布;
对于网络的训练部分,所述深度标量量化器DSQ整体为线性深度神经网络,为实现网络的目标,采用两个不同的损失函数,第一个损失函数为均方误差损失函数MSE用于确定深度量化器的量化函数并使得量化前后产生的量化误差尽可能小,第二个损失函数采用KL散度损失函数用于转换量化误差的分布,使其逼近指定的高斯分布,整体的损失函数如下所示:
其中,第一项min||DQM(x)-x||2代表最小化量化误差,x为待量化值,||.||2表示l2范数算子,DQM(.)为深度量化器的量化公式如式(4)主要由量化映射函数qM(.)及其超参ai,bi和ci构成;第二项为最小化KL散度使得目标量化误差的分布函数/>近似与通过差分隐私分析得到的目标高斯分布/>之间的KL散度距离更近,具体公式详见公式(6),/>为高斯分布,Δf为灵敏度,σ为噪声尺度;
对于第一项损失函数的训练即min||DQM(x)-x||2,所述深度量化器网络除了训练整体量化网络的权重,其量化映射函数qM(.)的超参ai,bi和ci也作为整体量化网络的量化层权重一起训练,同时为了实现端到端的量化网络的训练,采用双曲正切之和代替量化过程的不可微分映射过程,其量化映射函数如公式(3):
其中,ai,bi和ci,均为可训练的实值参数,ai与量化值的大小有关,bi和ci决定量化区间,通过调整ci的大小能使得量化前后的值更相近,通过最小化量化前后值的均方误差训练来确定适合的超参,得到训练完成后,进一步得到量化公式如下:
为实现第二个训练目标首先通过差分隐私分析得到的目标分布/>随后KL散度损失函数引导深度量化器产生的量化误差分布近似该目标分布,进而达到通过该量化器的量化能使得量化误差满足高斯分布。
所述深度标量量化器DSQ整体为线性深度神经网络,采用两个不同的损失函数,第一个损失函数为均方误差损失函数MSE用于确定深度量化器的量化函数并使得量化前后产生的量化误差尽可能小,第二个损失函数采用KL散度损失函数,用于转换量化误差的分布,使其逼近满足指定(∈,δ)-本地差分隐私(Local Differential Privacy,LDP)的高斯噪声分布,其中,
定义(∈,δ)-本地差分隐私LDP
如果一个随机机制M满足(∈,δ)-本地差分隐私((∈,δ)-LDP),则其对于任意相同大小的相邻数据集D,D′∈D和输出子集y∈range(O),都满足以下关系:
Pr[M(D)=y]≤e∈Pr[M(D′)=y]+δ
其中参数∈为隐私预算,代表着运用差分隐私技术所实现的隐私保护程度,其值越小表示隐私保护程度越高;δ表示违背严格差分隐私的概率,采用高斯机制实现(∈,δ)-LDP,定义如下:
定义高斯机制
对任意一个随机查询函数f,相邻数据集D,D′∈D,其灵敏度那么随机算法R=f(D)+l能提供(∈,δ)-LDP,其中为随机噪声概率密度函数,即随机噪声l服从参数均值μ=0,标准差为Δfσ的高斯分布,其中/>表示为高斯分布;
实现差分隐私:利用深度量化器的设计使得量化误差近似给定的高斯噪声,代替本地端高斯噪声的加入,即利用深度量化器DSQ(.)量化用户k的本地模型更新设利用深度量化器量化后的本地模型更新为查询函数/>加噪过程可以表示为 其中/>Δf为用户的灵敏度,σ为量化噪声的标准差。因为差分隐私具有后处理不变性,因此查询函数的灵敏度即利用深度量化器量化后的本地模型更新/>的灵敏度等同于用户k本地模型更新/>的灵敏度,接下来对用户k本地模型更新/>的灵敏度Δf进行分析并对量化误差的标准差σ约束;
为进行本地灵敏度Δf分析,需使用剪切技术,对小批量SGD训练的梯度进行裁剪,使其满足梯度有界,设置界限值为C;
假设梯度有界
假设模型损失函数F的梯度的l2-范数是有界的,则其对于任何输入/>和ζ∈D都满足/>
对于FL中的任何客户端k,在仅有第j个数据样本ζj不同的任意两个相邻小批量数据集Bk和B′k,其大小为γ的,采用SGD更新的梯度的灵敏度计算为:
为本地模型损失函数的梯度,上述不等式是根据向量范数三角不等式计算而来,即:对于所有/>有||x+y||≤||x||+||y||。设当前全局模型wt-1,为又因为在第t轮进行τ次本地局部迭代后的用户k的局部模型为:其中s为本地迭代的次数,g为用户模型整体的梯度;因而局部模型更新/>计算为:/> 其中η为模型学习率;
对于用户k每次局部更新的灵敏度Δf:
对量化误差的标准差σ约束:使用基于高斯机制的时刻会计MA算法的进一步改进来降低噪声尺度,高斯噪声的标准差应满足下式:
其中C为总体迭代次数,参数∈为隐私预算,δ表示违背严格差分隐私的概率;
为满足指定的(∈,σ)-LDP,所要求的量化误差分布应满足其中Δf应满足(6),σ应满足(7),目标分布用Pgt表示,则/>即Pgt为均值为μgt=0,均方差σgt=Δfσ,其分布函数满足:/>的高斯分布;
最后,根据上述隐私分析得到的目标分布采用KL散度损失函数引导深度量化器产生的量化误差分布近似该目标分布;将深度量化器的真实量化误差表示为/>和分布函数/>由KL损失引导,因此KL散度的损失函数计算公式如下所示:
联邦学***均FedAvg算法,在FedAvg中,服务器首先随机选择一个设备子集作为激活的用户,然后让所选的设备执行多次SGD迭代,以最小化本地损失函数,然后将其本地计算结果发送给服务器,设τ表示本地迭代次数,t∈[0,……,T-1]表示总体通信轮次的索引,在t轮时,随机选择一组k个本地用户从服务器下载当前全局共享模型wt,并在wt上执行τ次本地迭代,设表示用户k在第s次局部迭代时的局部模型,模型更新过程为:
可知,s=0,
经过τ本地迭代后,本地模型的更新为:
利用训练好的基于任务的量化网络进行量化编码后发送给中央服务器,全局模型聚合为:
量化误差为:
本地数据为乳腺肿瘤图片或者肺部CT影像图片数据。
本发明的特点及有益效果是:
本发明提出一种基于深度标量量化网络的联邦学习方法,实现具有隐私增强和通信高效性能的联邦训练。提出了一种新型基于任务的深度量化器,用于实现联邦学习用户端模型更新参数的量化和局部隐私保护的作用。深度量化器可通过训练确定量化值和量化区间以降低量化误差,同时通过KL散度引导量化网络的误差服从高斯分布,量化的同时实现差分隐私保护。实验结果可看出所提出深度量化器对联邦学习收敛性影响较小,在3比特量化时200epoch能达到92.04%的准确率,如图4所示,提取实验过程量化误差分布图如图5所示。
附图说明:
图1面向隐私保护的深度量化联邦学习框架图。
图2面向隐私保护的深度量化联邦学习模型的训练流程图。
图3深度量化器模块设计。
图4 MNIST数据集3bite量化时本框架准确率测试图。
图5 MNIST数据集3bite量化时本框架量化误差分布图。
具体实施方式
现有的联邦学习框架通常单独考虑量化和隐私增强的问题,现有算法在进行量化等降低通信量的处理后,引入额外的噪声对上传的模型更新进行差分隐私保护从而达到用户个人隐私不被泄露的目的,以上两种操作会对联邦学习的训练过程增加量化噪声和引入差分隐私噪声的影响,从而影响联邦学习模型的聚合,降低网络训练效率。考虑到量化误差通常是客观存在的,是无法忽略不计的,因此本发明利用面向隐私保护的深度量化联邦学习框架,实现将量化误差代替差分隐私技术中格外添加的高斯噪声,在不引入其他额外噪声的同时实现对于本地客户端的隐私保护,并在理论上分析算法的隐私性能,最后通过实验验证了算法性能。
本发明通过实现DNN模型的二分类任务来测试所提出的面向隐私保护的深度量化联邦学习框架。本发明考虑现实联邦学习场景如各个医疗结构联合学习为医生提供辅助第三方意见的肺CAD***判断是否结节,用于提高肺部CT图片分类的准确性。出于患者数据的隐私考虑,各个用户端保留各地的本地数据即各个医疗机构病人真实肺部CT图片,仅需上传扰动后的本地模型更新进行全局模型的聚合训练。本文考虑的整体***模型框架图如图1所示:首先是初始化,***根据给定的DNN模型和肺部CT图片二分类任务对DNN模型进行初始化,并将初始化后的DNN模型参数下发至每个客户端;客户端接收当前DNN全局模型利用本地数据集即机构内含有带病人隐私信息的肺部CT图片对DNN模型进行二分类任务的训练后得到更新模型根据更新DNN模型的参数对深度量化器网络DSQ(Deep ScalarQuantizer,DSQ)进行训练,根据更新模型参数的特征学习生成对应的量化映射函数和量化函数且训练好的深度量化能实现对量化误差分布的转变使其逼近满足指定(∈,δ)-本地差分隐私(Local Differential Privacy,LDP)的高斯噪声分布。随后利用深度量化器DSQ对更新模型/>进行量化,得到量化后的/>的索引值/>将索引值/>经过无损编码后送至服务器端。服务器端接收所有K个激活用户发送来的码字,解码后根据码本和索引值得到/>后进行聚合更新,得到更新后的全局分类模型,并下发至用户进行下一轮联邦学习的迭代。
1、算法总体流程
考虑由K个参与者和一个中心服务器组成的联邦学习***,每个参与者k持有本地数据集带有病人隐私信息的CT图片数据集Dk,共含有|Dk|个样本,样本由输入CT图片xi和是否还有结节的标签值yi={0,1}组成。对于整体数据集为含有|D|个样本,且样本{xi,yi}在模型w上的损失函数定义为f(w,xi,yi),即为fi(w)。联邦学习整体训练目标是找到一个矢量w*使得给定图片分类全局模型的损失函数最小:
基于隐私增强的深度量化高效联邦学习算法的流程,流程图如图2所示,分为如下几步:
步骤1:模型初始化
根据给定的二分类任务和DNN网络,假设中心服务器初始化模型参数为w0并广播至所有的用户,***内含有K个用户,本地训练次数为τ次,总体训练次数为T次,深度量化网络的量化级数为M;
步骤2:本地模型训练
针对第t个全局模型训练轮次,先有中心服务器下发前t-1次聚合模型wt-1至所有激活用户。第k个激活用户利用本地数据集Dk进行本地训练τ次后得到更新的模型计算模型更新为/>
步骤3:深度量化器训练
利用模型更新参数对深度量化网络DSQ(.)进行训练,学习确定量化映射函数的超参ai,bi和ci,得到量化映射函数如公式(1)和深度量化器如公式(2)所示,并使得其量化噪声逼近指定的高斯分布;
步骤4:量化和编码传输
在将模型更新参数通过训练后的深度量化网络DSQ(.)进行量化,得到量化后的索引值。最后将对应量化码本和索引值经过无损编码编码后发送至中心服务器端;
步骤5:全局模型聚合更新
中心服务器将接收到的码字进行解码,得到量化码本和索引值,经过映射得到并根据模型聚合公式(2)进行模型聚合并广播更新后的全局模型。
步骤2至步骤5重复迭代T次,直到训练过程收敛。
2、深度量化网络设计
本发明主要提出了一个整体可微分的端到端的可训练深度标量量化量化器(DeepScalar Quantizer,DSQ),其整体可视为一个深度神经网络(Deep Neural Network,DNN),主要目标是(1)根据待量化值的特征完成量化映射函数及其超参和量化函数的确定;(2)改变量化误差的分布使其逼近具有指定(∈,δ)-本地差分隐私(Local DifferentialPrivacy,LDP)的高斯分布。深度标量量化***模型如图3所示,整体模型可视为一个包含多个线性层和Tanh激活函数的深度神经网络,量化层可以视为一个多个Tanh组合的激活函数,整体网络训练目标是使得网络的输入和输出近似,转变输入和输出之间误差的分布使其满足高斯分布。
对于网络的训练部分,该深度量化器整体为线性深度神经网络,为实现网络的目标,采用两个不同的损失函数,第一个损失函数为均方误差损失函数(Mean SquareError,,MSE)用于确定深度量化器的量化函数并使得量化前后产生的量化误差尽可能小,第二个损失函数采用KL(Kullback-Leible,KL)散度损失函数用于转换量化误差的分布,使其逼近指定的高斯分布。整体的损失函数如下所示:
其中,第一项min||DQM(x)-x||2代表最小化量化误差,x为待量化值,||.||2表示l2范数算子,DQM(.)为深度量化器的量化公式如式(4)主要由量化映射函数qM(.)及其超参ai,bi和ci构成。第二项为最小化KL散度使得目标量化误差的分布函数/>近似与通过差分隐私分析得到的目标高斯分布/>之间的KL散度距离更近,具体公式详见公式(6),/>为高斯分布,Δf为灵敏度,σ为噪声尺度。下文将详细介绍上述两个训练损失函数的设计。
对于第一项损失函数的训练即min||DQM(x)-x||2,我们所设计的深度量化器网络除了训练整体量化网络的权重,其量化映射函数qM(.)的超参ai,bi和ci也作为整体量化网络的量化层权重一起训练。同时为了实现端到端的量化网络的训练,采用双曲正切之和代替量化过程的不可微分映射过程,其量化映射函数如公式(3):
其中,ai,bi和ci,均为可训练的实值参数。ai与量化值的大小有关,bi和ci决定量化区间,通过调整ci的大小能使得量化前后的值更相近。我们通过最小化量化前后值的均方误差训练来确定适合的超参,得到训练完成后,可以进一步得到量化公式如下:
为实现第二个训练目标我们首先通过差分隐私分析得到的目标分布/>随后KL散度损失函数引导深度量化器产生的量化误差分布近似该目标分布,进而达到通过该量化器的量化能使得量化误差满足高斯分布,从而利用该量化噪声达到扰动原始输入的分布并隐藏各个客户端的模型参数信息的作用。
首先我们给出进行差分隐私分析的必要概念,我们的目标是实现(∈,δ)-本地差分隐私(Local Differential Privacy,LDP),其定义如下:
定义(∈,δ)-本地差分隐私(Local Differential Privacy,LDP)
如果一个随机机制M满足(∈,δ)-本地差分隐私((∈,δ)-LDP),则其对于任意相同大小的相邻数据集D,D′∈D和输出子集y∈range(O),都满足以下关系:
Pr[M(D)=y]≤e∈Pr[M(D′)=y]+δ
其中参数∈为隐私预算,代表着运用差分隐私技术所实现的隐私保护程度,其值越小表示隐私保护程度越高;δ表示违背严格差分隐私的概率,我们通常设置为10-4。根据加入的噪声不同差分隐私具有不同的实现机制,本文主要采用高斯机制实现(∈,δ)-LDP,定义如下:定义高斯机制
对任意一个随机查询函数f,相邻数据集D,D′∈D,其灵敏度那么随机算法R=f(D)+l能提供(∈,δ)-LDP,其中为随机噪声概率密度函数,即随机噪声l服从参数均值μ=0,标准差为Δfσ的高斯分布,其中/>表示为高斯分布。
接下来我们正式进行差分隐私分析。本文利用深度量化器的设计使得量化误差近似给定的高斯噪声,代替本地端高斯噪声的加入,即本文利用深度量化器DSQ(.)量化用户k的本地模型更新设利用深度量化器量化后的本地模型更新为查询函数加噪过程可以表示为/>其中/>Δf为用户的灵敏度,σ为量化噪声的标准差。因为差分隐私具有后处理不变性,因此查询函数的灵敏度即利用深度量化器量化后的本地模型更新/>的灵敏度等同于用户k本地模型更新/>的灵敏度,接下来我们对用户k本地模型更新/>的灵敏度Δf进行分析并对量化误差的标准差σ约束。
为本地灵敏度Δf分析,在此前我们需使用剪切技术,对小批量SGD训练的梯度进行裁剪,使其满足梯度有界,设置界限值为C。
假设梯度有界
假设模型损失函数F的梯度的l2-范数是有界的,则其对于任何输入/>和ζ∈D都满足/>
对于FL中的任何客户端k,在仅有第j个数据样本ζj不同的任意两个相邻小批量数据集Bk和B′k,其大小为γ的,采用SGD更新的梯度的灵敏度可以计算为:
为本地模型损失函数的梯度,上述不等式是根据向量范数三角不等式计算而来,即:对于所有/>有||x+y||≤||x||+||y||。设当前全局模型wt-1,为又因为在第t轮进行τ次本地局部迭代后的用户k的局部模型为:其中s为本地迭代的次数,g为用户模型整体的梯度。因而局部模型更新/>计算为:/> 其中η为模型学习率。
综上,所提算法对于用户k每次局部更新的灵敏度Δf:
接下来分析对量化误差的标准差σ约束。由于使用(∈,σ)-LDP及其简单的组合属性来捕获多个迭代中的总隐私损失,这是松散的,需要添加大量的噪声,牺牲了模型的实用性。为在给定(∈,σ)-LDP保证下实现噪声量添加的减少,提高收敛速率,我们使用基于高斯机制的时刻会计(Momentum Account,MA)算法的进一步改进[7]来降低噪声尺度。根据文献[7],高斯噪声的标准差应满足下式:
其中C为总体迭代次数,参数∈为隐私预算,δ表示违背严格差分隐私的概率。
综上,为满足指定的(∈,σ)-LDP,我们所要求的量化误差分布应满足其中Δf应满足(6),σ应满足(7)。假设我们的目标分布用Pgt表示,则即Pgt为均值为μgt=0,均方差σgt=Δfσ,其分布函数满足:的高斯分布。
最后,根据上述隐私分析得到的目标分布我们采用KL散度损失函数引导深度量化器产生的量化误差分布近似该目标分布。我们将深度量化器的真实量化误差表示为/>和分布函数/>它们由KL损失引导,因此KL散度的损失函数计算公式如下所示:
3、基于深度量化网络的隐私增强型高效联邦学习算法
同样采用联邦平均(Federated Averaging,FedAvg)算法。在FedAvg中,服务器首先随机选择一个设备子集作为激活的用户,然后让所选的设备执行多次SGD迭代,以最小化本地损失函数,然后将其本地计算结果发送给服务器。设τ表示本地迭代次数,t∈[0,……,T-1]表示总体通信轮次的索引。具体来说,在t轮时,随机选择一组k个本地用户从服务器下载当前全局共享模型wt,并在wt上执行τ次本地迭代。设表示用户k在第s次局部迭代时的局部模型,模型更新过程为:
可知,s=0,/>
经过τ本地迭代后,本地模型的更新为:
利用训练好的基于任务的量化网络进行量化编码后发送给中央服务器,全局模型聚合为:
量化误差为:
下面是本发明的一个具体实例。
(1)模型结构
本发明的实现深度量化器模型如图3所示。
模型包含前后各三个线性层(linear),每两个线性层中间包含Tanh激活层和标量量化器近似的激活层。量化层的参数作为量化层的权重随着整体模型一同训练,训练完成后确定量化值和量化间隔。
(2)模型训练
针对LUNA16 dataset数据集上进行了实验,采用小批量随机梯度下降的训练方式,batch size为128,模型在GTX1080的GPU上训练200个epoch。
本发明还对乳腺肿瘤图片进行了实验,能够准确分类识别,提高了诊疗效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种面向隐私保护的深度量化联邦学习方法,其特征是,在t次全局迭代过程中,客户端k利用本地数据训练后得到更新模型的参数对深度量化网络进行训练,学习确定量化映射函数的超参并生成自适应的深度标量量化器DSQ,随后利用训练好的深度量化网络对更新模型进行量化并改变量化噪声分布,得到量化后的/>的索引值,将索引值/>经过无损编码后送至服务器端;服务器端接收所有激活用户发送来的索引值/>解码后得到/>后进行聚合更新,得到更新后的全局模型,并下发至用户进行下一轮联邦学习的迭代。
2.如权利要求1所述的面向隐私保护的深度量化联邦学习方法,其特征是,详细步骤如下:
步骤1:模型初始化
中心服务器初始化模型参数为w0并广播至所有的用户,***内含有K个用户,本地训练次数为τ次,总体训练次数为T次,深度量化网络的量化级数为M;
步骤2:本地模型训练
针对第t个全局模型训练轮次,先有中心服务器下发前t-1次聚合模型wt-1至所有激活用户,第k个激活用户利用本地数据集Dk进行本地训练τ次后得到更新的模型计算模型更新为/>
步骤3:深度量化器训练
设置量化等级为M,利用模型更新参数对深度量化网络DSQ(.)进行训练,学习确定量化映射函数的超参ai,bi和ci,得到量化映射函数如公式(1)和深度量化器如公式(2)所示,以及量化区间为/>
步骤4:量化和编码传输
在将模型更新参数通过训练后的深度量化网络DSQ(.)进行量化,得到量化后的索引值/>最后将对应量化索引值/>经过无损编码编码后发送至中心服务器端;
步骤5:全局模型聚合更新
中心服务器将接收到的码字进行解码,得到索引值,经过映射得到并根据模型聚合公式(3)进行模型聚合并广播更新后的全局模型;
步骤2至步骤5重复迭代T次,直到训练过程收敛。
3.如权利要求1所述的面向隐私保护的深度量化联邦学习方法,其特征是,构建深度量化网络步骤如下:
深度量化网络实际采用深度神经网络,为包含多个线性层和Tanh激活函数的深度神经网络,量化层包含多个Tanh组合的激活函数,整体网络训练目标是使得网络的输入和输出近似,转变输入和输出之间误差的分布使其满足高斯分布;
对于网络的训练部分,所述深度标量量化器DSQ整体为线性深度神经网络,为实现网络的目标,采用两个不同的损失函数,第一个损失函数为均方误差损失函数MSE用于确定深度量化器的量化函数并使得量化前后产生的量化误差尽可能小,第二个损失函数采用KL散度损失函数用于转换量化误差的分布,使其逼近指定的高斯分布,整体的损失函数如下所示:
其中,第一项min||DQM(x)-x||2代表最小化量化误差,x为待量化值,||.||2表示l2范数算子,DQM(.)为深度量化器的量化公式如式(4)主要由量化映射函数qM(.)及其超参ai,bi和ci构成;第二项为最小化KL散度使得目标量化误差的分布函数近似与通过差分隐私分析得到的目标高斯分布/>之间的KL散度距离更近,具体公式详见公式(6),/>为高斯分布,Δf为灵敏度,σ为噪声尺度;
对于第一项损失函数的训练即min||DQM(x)-x||2,所述深度量化器网络除了训练整体量化网络的权重,其量化映射函数qM(.)的超参ai,bi和ci也作为整体量化网络的量化层权重一起训练,同时为了实现端到端的量化网络的训练,采用双曲正切之和代替量化过程的不可微分映射过程,其量化映射函数如公式(3):
其中,ai,bi和ci,均为可训练的实值参数,ai与量化值的大小有关,bi和ci决定量化区间,通过调整ci的大小能使得量化前后的值更相近,通过最小化量化前后值的均方误差训练来确定适合的超参,得到训练完成后,进一步得到量化公式如下:
为实现第二个训练目标首先通过差分隐私分析得到的目标分布/>随后KL散度损失函数引导深度量化器产生的量化误差分布近似该目标分布,进而达到通过该量化器的量化能使得量化误差满足高斯分布。
4.如权利要求1所述的面向隐私保护的深度量化联邦学习方法,其特征是,所述深度标量量化器DSQ整体为线性深度神经网络,采用两个不同的损失函数,第一个损失函数为均方误差损失函数MSE用于确定深度量化器的量化函数并使得量化前后产生的量化误差尽可能小,第二个损失函数采用KL散度损失函数,用于转换量化误差的分布,使其逼近满足指定(∈,δ)-本地差分隐私(Local Differential Privacy,LDP)的高斯噪声分布,其中:
定义(∈,δ)-本地差分隐私LDP
如果一个随机机制M满足(∈,δ)-本地差分隐私((∈,δ)-LDP),则其对于任意相同大小的相邻数据集D,D′∈D和输出子集y∈range(O),都满足以下关系:
Pr[M(D)=y]≤e∈Pr[M(D′)=y]+δ
其中参数∈为隐私预算,代表着运用差分隐私技术所实现的隐私保护程度,其值越小表示隐私保护程度越高;δ表示违背严格差分隐私的概率,采用高斯机制实现(∈,δ)-LDP,定义如下:
定义高斯机制
对任意一个随机查询函数f,相邻数据集D,D′∈D,其灵敏度那么随机算法R=f(D)+l能提供(∈,δ)-LDP,其中/>为随机噪声概率密度函数,即随机噪声l服从参数均值μ=0,标准差为Δfσ的高斯分布,其中/>表示为高斯分布;
实现差分隐私:利用深度量化器的设计使得量化误差近似给定的高斯噪声,代替本地端高斯噪声的加入,即利用深度量化器DSQ(.)量化用户k的本地模型更新设利用深度量化器量化后的本地模型更新为查询函数/>加噪过程可以表示为其中/>Δf为用户的灵敏度,σ为量化噪声的标准差。因为差分隐私具有后处理不变性,因此查询函数的灵敏度即利用深度量化器量化后的本地模型更新/>的灵敏度等同于用户k本地模型更新/>的灵敏度,接下来对用户k本地模型更新/>的灵敏度Δf进行分析并对量化误差的标准差σ约束;
为进行本地灵敏度Δf分析,需使用剪切技术,对小批量SGD训练的梯度进行裁剪,使其满足梯度有界,设置界限值为C;
假设梯度有界
假设模型损失函数F的梯度的l2-范数是有界的,则其对于任何输入/>和ζ∈D都满足/>
对于FL中的任何客户端k,在仅有第j个数据样本ζj不同的任意两个相邻小批量数据集Bk和B′k,其大小为γ的,采用SGD更新的梯度的灵敏度计算为:
为本地模型损失函数的梯度,上述不等式是根据向量范数三角不等式计算而来,即:对于所有/>有||x+y||≤||x||+||y||。设当前全局模型wt-1,为又因为在第t轮进行τ次本地局部迭代后的用户k的局部模型为:/> 其中s为本地迭代的次数,g为用户模型整体的梯度;因而局部模型更新/>计算为:/> 其中η为模型学习率;
对于用户k每次局部更新的灵敏度Δf:
对量化误差的标准差σ约束:使用基于高斯机制的时刻会计MA算法的进一步改进来降低噪声尺度,高斯噪声的标准差应满足下式:
其中C为总体迭代次数,参数∈为隐私预算,δ表示违背严格差分隐私的概率;
为满足指定的(∈,σ)-LDP,所要求的量化误差分布应满足其中Δf应满足(6),σ应满足(7),目标分布用Pgt表示,则/>即Pgt为均值为μgt=0,均方差σgt=Δfσ,其分布函数满足:/>的高斯分布;
最后,根据上述隐私分析得到的目标分布采用KL散度损失函数引导深度量化器产生的量化误差分布近似该目标分布;将深度量化器的真实量化误差表示为和分布函数/>由KL损失引导,因此KL散度的损失函数计算公式如下所示:
5.如权利要求1所述的面向隐私保护的深度量化联邦学***均FedAvg算法,在FedAvg中,服务器首先随机选择一个设备子集作为激活的用户,然后让所选的设备执行多次SGD迭代,以最小化本地损失函数,然后将其本地计算结果发送给服务器,设τ表示本地迭代次数,t∈[0,……,T-1]表示总体通信轮次的索引,在t轮时,随机选择一组k个本地用户从服务器下载当前全局共享模型wt,并在wt上执行τ次本地迭代,设表示用户k在第s次局部迭代时的局部模型,模型更新过程为:
可知,s=0,
经过τ本地迭代后,本地模型的更新为:
利用训练好的基于任务的量化网络进行量化编码后发送给中央服务器,全局模型聚合为:
量化误差为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487154.7A CN116562365A (zh) | 2023-04-30 | 2023-04-30 | 面向隐私保护的深度量化联邦学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487154.7A CN116562365A (zh) | 2023-04-30 | 2023-04-30 | 面向隐私保护的深度量化联邦学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116562365A true CN116562365A (zh) | 2023-08-08 |
Family
ID=87495796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310487154.7A Pending CN116562365A (zh) | 2023-04-30 | 2023-04-30 | 面向隐私保护的深度量化联邦学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562365A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938957A (zh) * | 2024-03-22 | 2024-04-26 | 精为技术(天津)有限公司 | 基于联邦深度学习的边缘缓存优化方法 |
CN118101501A (zh) * | 2024-04-23 | 2024-05-28 | 山东大学 | 一种工业物联网异构联邦学习的通信方法和*** |
CN118101501B (zh) * | 2024-04-23 | 2024-07-05 | 山东大学 | 一种工业物联网异构联邦学习的通信方法和*** |
-
2023
- 2023-04-30 CN CN202310487154.7A patent/CN116562365A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938957A (zh) * | 2024-03-22 | 2024-04-26 | 精为技术(天津)有限公司 | 基于联邦深度学习的边缘缓存优化方法 |
CN118101501A (zh) * | 2024-04-23 | 2024-05-28 | 山东大学 | 一种工业物联网异构联邦学习的通信方法和*** |
CN118101501B (zh) * | 2024-04-23 | 2024-07-05 | 山东大学 | 一种工业物联网异构联邦学习的通信方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Deep learning enabled semantic communication systems | |
CN112464837B (zh) | 基于小数据样本的浅海水声通信信号调制识别方法及*** | |
Li et al. | Communication-efficient federated learning based on compressed sensing | |
CN108696331B (zh) | 一种基于生成对抗网络的信号重构方法 | |
Zhang et al. | A unified multi-task semantic communication system for multimodal data | |
US20240135191A1 (en) | Method, apparatus, and system for generating neural network model, device, medium, and program product | |
Ayoobkhan et al. | Lossy image compression based on prediction error and vector quantisation | |
CN104901795B (zh) | 基于信道特征的物理层密钥提取方法 | |
CN113381828B (zh) | 基于条件生成对抗网络的稀疏码多址接入随机信道建模方法 | |
CN114514519A (zh) | 使用异构模型类型和架构的联合学习 | |
CN113128701A (zh) | 面向样本稀疏性的联邦学习方法及*** | |
CN115563650A (zh) | 基于联邦学习实现医疗数据的隐私保护*** | |
CN116562365A (zh) | 面向隐私保护的深度量化联邦学习方法 | |
WO2022126448A1 (zh) | 一种基于演化学习的神经网络结构搜索方法和*** | |
US20230299788A1 (en) | Systems and Methods for Improved Machine-Learned Compression | |
Yoon et al. | Bitwidth heterogeneous federated learning with progressive weight dequantization | |
Huang et al. | Compressing multidimensional weather and climate data into neural networks | |
CN113705242B (zh) | 面向教育咨询服务的智能语义匹配方法和装置 | |
Zhe et al. | Rate-distortion optimized coding for efficient cnn compression | |
CN101467459B (zh) | 信号的矢量量化字典生成方法、编解码器及编解码方法 | |
Yan et al. | Killing two birds with one stone: Quantization achieves privacy in distributed learning | |
Wang et al. | Octopus: Overcoming performance and privatization bottlenecks in distributed learning | |
CN110135465B (zh) | 模型参数表示空间大小估计方法及装置、推荐方法 | |
Chen et al. | Rate distortion optimization for adaptive gradient quantization in federated learning | |
CN115052288A (zh) | 一种基于深度学习的多用户物理层认证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |