CN117521782A - 稀疏鲁棒的联邦学习方法、联邦学习***及服务器 - Google Patents
稀疏鲁棒的联邦学习方法、联邦学习***及服务器 Download PDFInfo
- Publication number
- CN117521782A CN117521782A CN202311576423.3A CN202311576423A CN117521782A CN 117521782 A CN117521782 A CN 117521782A CN 202311576423 A CN202311576423 A CN 202311576423A CN 117521782 A CN117521782 A CN 117521782A
- Authority
- CN
- China
- Prior art keywords
- model
- parameters
- local
- global model
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 64
- 230000002776 aggregation Effects 0.000 claims abstract description 61
- 238000004220 aggregation Methods 0.000 claims abstract description 61
- 230000006870 function Effects 0.000 claims description 52
- 238000003860 storage Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种稀疏鲁棒的联邦学习方法、联邦学习***及服务。该方法包括:对全局模型的参数进行初始化处理,以得到初始化参数;分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数;接收客户端返回的多个本地模型更新参数;根据多个本地模型更新参数确定全局模型的聚合参数;判断全局模型的聚合参数是否满足预设终止条件;在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成。本申请通过增加LogL1正则项和L2正则项,可以在提高模型的稀疏性的同时提高模型鲁棒性,增强了模型的训练效果。
Description
技术领域
本申请涉及联邦学习技术领域,具体地涉及一种稀疏鲁棒的联邦学习方法、联邦学习***及服务器。
背景技术
目前,随着人工智能技术的飞速发展,人工智能技术的应用越来越广泛,已经被应用于图像分析、语音识别、文字处理、智能推荐、安全检测等多个领域,以联邦学习为代表的隐私计算技术已经成为新的前沿技术热点领域。为了提高模型的稀疏性和鲁棒性,现有的联邦学习技术广泛采用了基于L1范数、L2范数的正则化以及模型剪枝等方法,但是上述方法尚存在较大的优化提升空间。例如,L1范数在模型参数的所有取值空间具有相同的优化权重,并不能针对性的提高模型稀疏性。L2正则化技术在提升模型鲁棒性方面效果明显,但是在提升模型稀疏性方面效果较差。因此,现有的技术方案存在对模型的稀疏性和鲁棒性难以同步提升,以导致模型的训练效果不佳的问题。
发明内容
本申请实施例的目的是提供一种稀疏鲁棒的联邦学习方法、联邦学习***及服务器,用以解决现有技术中模型的训练效果不佳的问题。
为了实现上述目的,本申请第一方面提供一种稀疏鲁棒的联邦学习方法,应用于服务器,服务器与客户端通信,该方法包括:
对全局模型的参数进行初始化处理,以得到初始化参数;
分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数;
接收客户端返回的多个本地模型更新参数;
根据多个本地模型更新参数确定全局模型的聚合参数;
判断全局模型的聚合参数是否满足预设终止条件;
在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成。
在本申请实施例中,更新参数满足公式(1):
其中,i为客户端节点序号,k为模型训练轮数,wik为第k轮、第i个客户端节点的全局模型的更新参数,wk-1为第k-1轮全局模型的参数,w为本地模型参数向量,η为学习率常量,表示求新损失函数Li(w)在w=wk-1处对w的梯度。
在本申请实施例中,新损失函数满足公式(2):
其中,Li(w)为全局模型原损失函数加上正则项后的新损失函数,Fi(w)为全局模型的原损失函数,αk为控制模型稀疏度的权重衰减函数,β为权重常量,||w||1表示w的L1范数,表示w的L2范数的平方。
在本申请实施例中,控制模型稀疏度的权重衰减函数满足公式(3):
其中,αk为控制模型稀疏度的权重衰减函数,α为控制模型稀疏度的初始常量,rend为预设的训练周期阈值常量,k为模型训练轮数。
在本申请实施例中,判断全局模型的聚合参数是否满足预设终止条件包括:
判断全局模型的聚合参数是否收敛;或
判断全局模型的训练总轮次是否大于或等于阈值常量。
在本申请实施例中,根据多个本地模型更新参数确定全局模型的聚合参数包括:
分别获取多个客户端节点的本地存储样本数据集中包含的样本数量和多个本地模型更新参数;
分别将每个客户端节点的本地存储样本数据集中包含的样本数量和本地模型更新参数相乘,以得到多个乘积;
将多个乘积求和,再除以多个客户端节点的样本数量之和,以得到全局模型的聚合参数。
在本申请实施例中,联邦学习方法还包括:
在全局模型的聚合参数不满足预设终止条件的情况下,重新对全局模型进行训练。
本申请第二方面提供一种服务器,包括:
存储器,被配置成存储指令;以及
处理器,被配置成从存储器调用指令以及在执行指令时能够实现根据上述的稀疏鲁棒的联邦学习方法。
本申请第三方面提供一种稀疏鲁棒的联邦学习***,包括:
根据上述的服务器;
客户端,与服务器通信,被配置成根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并将多个本地模型更新参数发送至服务器。
本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据上述的稀疏鲁棒的联邦学习方法。
通过上述技术方案,服务器对全局模型的参数进行初始化处理,以得到初始化参数。再分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并接收客户端返回的多个本地模型更新参数。再根据多个本地模型更新参数确定全局模型的聚合参数。最后判断全局模型的聚合参数是否满足预设终止条件。在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成,可以在提高模型的稀疏性的同时提高模型鲁棒性,增强了模型的训练效果。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了根据本申请实施例的一种稀疏鲁棒的联邦学习方法的流程图;
图2示意性示出了根据本申请具体实施例的一种稀疏鲁棒的联邦学习方法的流程图;
图3示意性示出了根据本申请实施例的一种服务器的结构框图;
图4示意性示出了根据本申请实施例的一种稀疏鲁棒的联邦学习***的结构图。
附图标记说明
410服务器420客户端
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
图1示意性示出了根据本申请实施例的一种稀疏鲁棒的联邦学习方法的流程图。如图1所示,本申请实施例提供一种稀疏鲁棒的联邦学习方法,应用于服务器,服务器与客户端通信,该方法可以包括下列步骤:
步骤101、对全局模型的参数进行初始化处理,以得到初始化参数;
步骤102、分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数;
步骤103、接收客户端返回的多个本地模型更新参数;
步骤104、根据多个本地模型更新参数确定全局模型的聚合参数;
步骤105、判断全局模型的聚合参数是否满足预设终止条件;
步骤106、在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成。
在本申请实施例中,在模型训练前,服务器首先对全局模型的参数进行初始化,以得到初始化参数为w0,例如,全局模型可以为深度神经网络模型。在得到初始化参数后,分别将初始化参数发送至多个目标客户端节点。在一个示例中,客户端共有Nc个节点,Nc个客户端节点中随机挑选Nfc个客户端节点,被挑选的联邦学习客户端节点为Ci,其中为客户端节点序号,0<i≤Nfc。并分别对联邦学习客户端节点为Ci下发初始化参数w0。客户端在接收到初始化参数后,分别根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而可以得到多个本地模型更新参数wik。LogL1正则项为L1正则项的Log改进正则项。例如,在更新时,可以利用本地训练数据集采用随机梯度下降算法训练全局模型。在一个示例中,在第k轮全局模型参数下发时,服务器节点S从Nc=1000个客户端节点中随机挑选Nfc=100个客户端节点,将深度神经网络模型全局模型的参数wk-1发送给被挑选的联邦学习客户端节点,开始第k轮模型训练和全局模型参数更新。
在本申请实施例中,客户端节点上的模型为本地模型,服务器端的模型为全局模型,客户端节点向服务器提交多个本地模型的更新参数,服务器节点利用多个参数,聚合生成全局模型,然后将聚合更新后的全局模型参数下发给客户端节点,客户端节点用新收到的全局模型参数更新本地模型,周而复始。在客户端更新本地模型并得到多个本地模型更新参数后,将多个本地模型更新参数返回至服务器。服务器在接收到客户端返回的多个本地模型更新参数后,根据多个本地模型更新参数确定全局模型的聚合参数。例如,在确定聚合参数时,可以分别获取多个客户端节点的本地存储样本数据集中包含的样本数量和多个本地模型更新参数。并分别将每个客户端节点的本地存储样本数据集中包含的样本数量和本地模型更新参数相乘,以得到多个乘积。最后将多个乘积求和,再除以多个客户端节点的样本数量之和,以得到全局模型的聚合参数。再判断聚合参数是否满足预设终止条件。预设终止条件指预先设定的全局模型终止训练的条件。例如,预设终止条件可以为全局模型的聚合参数收敛,或全局模型的训练总轮次大于或等于阈值常量。在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成。
通过上述技术方案,服务器对全局模型的参数进行初始化处理,以得到初始化参数。再分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并接收客户端返回的多个本地模型更新参数。再根据多个本地模型更新参数确定全局模型的聚合参数。最后判断全局模型的聚合参数是否满足预设终止条件。在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成,可以在提高模型的稀疏性的同时提高模型鲁棒性,且正则项权重能够随着训练轮次的增加而自动动态调整,增强了模型的训练效果。
在本申请实施例中,更新参数可以满足公式(1):
其中,i为客户端节点序号,k为模型训练轮数,wik为第k轮、第i个客户端节点的全局模型的更新参数,wk-1为第k-1轮全局模型的参数,w为本地模型参数向量,η为学习率常量,表示求新损失函数Li(w)在w=wk-1处对w的梯度。
具体地,更新参数可以满足公式在第k轮模型训练时,每个被挑选的联邦学习客户端节点Ci利用从服务器节点S收到的全局模型参数wk-1更新本地模型。wik为第k轮、第i个客户端节点的全局模型的更新参数。w为本地模型参数向量,η为学习率常量,/>表示求新损失函数Li(w)在w=wk-1处对w的梯度。新损失函数指原损失函数加上正则项后的函数。通过确定全局模型的更新参数,可以确定全局模型的聚合参数。
在本申请实施例中,新损失函数可以满足公式(2):
其中,Li(w)为全局模型原损失函数加上正则项后的新损失函数,Fi(w)为全局模型的原损失函数,αk为控制模型稀疏度的权重衰减函数,β为权重常量,||w||1表示w的L1范数,表示w的L2范数的平方。
具体地,新损失函数可以满足公式 新损失函数指原损失函数加上正则项后的函数。Fi(w)为全局模型的原损失函数。αk为控制模型稀疏度的权重衰减函数,拟合的是一个先缓慢下降,然后快速下降,最后又缓慢下降的有上下界的函数。β为权重常量,||w||1表示w的L1范数,/>表示w的L2范数的平方。正则化的本质是在损失函数中添加范数。L1正则化对所有参数的惩罚力度都一样,可以让一部分权重变为零,因此产生稀疏模型。L2正则化减少了权重的固定比例,使权重平滑。通过同时增加两个范数,可以提高模型稀疏性的同时提高模型的鲁棒性。
在本申请实施例中,控制模型稀疏度的权重衰减函数满足公式(3):
其中,αk为控制模型稀疏度的权重衰减函数,α为控制模型稀疏度的初始常量,rend为预设的训练周期阈值常量,k为模型训练轮数。
具体地,控制模型稀疏度的权重衰减函数满足公式 αk为控制模型稀疏度的权重衰减函数,拟合的是一个先缓慢下降,然后快速下降,最后又缓慢下降的有上下界的函数。α为控制模型稀疏度的初始常量,且α满足:0<α。rend为预设的训练周期阈值常量,且rend为大于1的正整数。
在本申请实施例中,判断全局模型的聚合参数是否满足预设终止条件可以包括:
判断全局模型的聚合参数是否收敛;或
判断全局模型的训练总轮次是否大于或等于阈值常量。
具体地,预设终止条件指预先设定的全局模型终止训练的条件。预设终止条件可以为全局模型的聚合参数收敛,也可以为全局模型的训练总轮次大于或等于阈值常量。阈值常量rend为大于1的正整数。在全局模型的聚合参数满足预设终止条件的情况下,可以判定全局模型训练完成。
在本申请实施例中,根据多个本地模型更新参数确定全局模型的聚合参数可以包括:
分别获取多个客户端节点的本地存储样本数据集中包含的样本数量和多个本地模型更新参数;
分别将每个客户端节点的本地存储样本数据集中包含的样本数量和本地模型更新参数相乘,以得到多个乘积;
将多个乘积求和,再除以多个客户端节点的样本数量之和,以得到全局模型的聚合参数。
具体地,在客户端更新全局模型并得到多个本地模型更新参数后,将多个本地模型更新参数返回至服务器。服务器在接收到客户端返回的多个本地模型更新参数后,根据多个本地模型更新参数确定全局模型的聚合参数。首先服务器分别获取多个客户端节点的本地存储样本数据集中包含的样本数量和客户端返回的多个本地模型更新参数。再分别将每个客户端节点的本地存储样本数据集中包含的样本数量和本地模型更新参数相乘,以得到多个乘积。最后将多个乘积求和,再除以多个客户端节点的样本数量之和,以得到全局模型的聚合参数。
具体地,聚合参数可以满足公式wk为全局模型的聚合参数。Nfc为从Nc个客户端节点中随机挑选的客户端节点个数。Di为客户端节点Ci的本地存储样本数据集,|Di|为集合Di包含元素的数量。将i个客户端节点Ci的本地存储样本数据集中包含元素的数量与更新参数相乘,以得到i个乘积。再将i个乘积求和,除以所有被选中客户端节点的样本数量之和,以得到全局模型的聚合参数。
在本申请实施例中,联邦学习方法还可以包括:
在全局模型的聚合参数不满足预设终止条件的情况下,重新对全局模型进行训练。
具体地,在全局模型的聚合参数不满足预设终止条件的情况下,重新随机选取多个客户端节点,并对客户节点下发初始化参数,以进行模型训练,直至全局模型的聚合参数满足预设终止条件为止。
通过上述技术方案,服务器对全局模型的参数进行初始化处理,以得到初始化参数。再分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并接收客户端返回的多个本地模型更新参数。再根据多个本地模型更新参数确定全局模型的聚合参数。最后判断全局模型的聚合参数是否满足预设终止条件。在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成,可以在提高模型的稀疏性的同时提高模型鲁棒性,增强了模型的训练效果。
图2示意性示出了根据本申请一具体实施例的一种稀疏鲁棒的联邦学习方法的流程图。如图2所示,本申请实施例提供一种系数鲁棒的联邦学习方法,该方法可以包括下列步骤:
S201、服务端采用对全局模型参数进行初始化;
S202、服务端将全局模型参数下发给随机挑选的部分客户端节点;
S203、客户端基于本地训练数据训练本地模型,利用新的损失函数更新本地模型参数,并上传本地模型新参数;
S204、服务端利用客户端上传的本地模型新参数,聚合生成全局模型参数;
S205、服务器判断训练终止条件,若未满足终止条件,则返回S202,重复上述训练过程,若满足终止条件,则进入S206;
S206、结束训练。
在本申请实施例中,假设联邦学习服务器节点为S,联邦学习客户端节点总数为Nc。模型初始化的具体步骤为:服务器节点S对采用的深度神经网络模型的参数进行初始化,以得到初始化参数为w0。在第k轮全局模型参数下发时,服务器节点S从Nc个客户端节点中随机挑选Nfc个客户端节点,0<Nfc≤Nc,被挑选的联邦学习客户端节点为Ci,其中i为客户端节点序号,0<i≤Nfc。将深度神经网络模型全局模型的参数wk-1发送给被挑选的联邦学习客户端节点,开始第k轮模型训练和全局模型参数更新。其中i、k、Nfc和Nc均为正整数。在第k轮模型训练时,每个被挑选的联邦学习客户端节点Ci利用从服务器节点S收到的全局模型参数wk-1更新本地模型,利用本地训练数据集采用随机梯度下降算法训练本地模型,并计算本地模型的更新参数wik。同时,每个联邦学习客户端节点Ci将本地模型的更新参数wik发送给服务器节点S。服务器节点S将计算全局模型的聚合参数wk,其中Di为客户端节点Ci的本地存储样本数据集,|Di|为集合Di包含元素的数量。|DT|为所有被选中客户端节点的样本数量之和。如果全局模型的参数wk收敛或者k≥rend,则终止训练过程,否则重新从Nc个客户端节点中随机挑选Nfc个客户端节点,开始第k+1轮全局模型参数下发、模型训练和全局模型参数更新。
图3示意性示出了根据本申请实施例的一种服务器的结构框图。如图3所示,本申请实施例提供一种服务器,可以包括:
存储器310,被配置成存储指令;以及
处理器320,被配置成从存储器310调用指令以及在执行指令时能够实现上述的稀疏鲁棒的联邦学习方法。
具体地,在本申请实施例中,处理器320可以被配置成:
对全局模型的参数进行初始化处理,以得到初始化参数;
分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数;
接收客户端返回的多个本地模型更新参数;
根据多个本地模型更新参数确定全局模型的聚合参数;
判断全局模型的聚合参数是否满足预设终止条件;
在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成。
进一步地,处理器320还可以被配置成:
更新参数满足公式(1):
其中,i为客户端节点序号,k为模型训练轮数,wik为第k轮、第i个客户端节点的全局模型的更新参数,wk-1为第k-1轮全局模型的参数,w为本地模型参数向量,η为学习率常量,表示求新损失函数Li(w)在w=wk-1处对w的梯度。
进一步地,处理器320还可以被配置成:
新损失函数满足公式(2):
其中,Li(w)为全局模型原损失函数加上正则项后的新损失函数,Fi(w)为全局模型的原损失函数,αk为控制模型稀疏度的权重衰减函数,β为权重常量,||w||1表示w的L1范数,表示w的L2范数的平方。
进一步地,处理器320还可以被配置成:
控制模型稀疏度的权重衰减函数满足公式(3):
其中,αk为控制模型稀疏度的权重衰减函数,α为控制模型稀疏度的初始常量,rend为预设的训练周期阈值常量,k为模型训练轮数。
进一步地,处理器320还可以被配置成:
判断全局模型的聚合参数是否满足预设终止条件包括:
判断全局模型的聚合参数是否收敛;或
判断全局模型的训练总轮次是否大于或等于阈值常量。
进一步地,处理器320还可以被配置成:
根据多个本地模型更新参数确定全局模型的聚合参数包括:
分别获取多个客户端节点的本地存储样本数据集中包含的样本数量和多个本地模型更新参数;
分别将每个客户端节点的本地存储样本数据集中包含的样本数量和本地模型更新参数相乘,以得到多个乘积;
将多个乘积求和,再除以多个客户端节点的样本数量之和,以得到全局模型的聚合参数。
进一步地,处理器320还可以被配置成:
在全局模型的聚合参数不满足预设终止条件的情况下,重新对全局模型进行训练。
通过上述技术方案,服务器对全局模型的参数进行初始化处理,以得到初始化参数。再分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并接收客户端返回的多个本地模型更新参数。再根据多个本地模型更新参数确定全局模型的聚合参数。最后判断全局模型的聚合参数是否满足预设终止条件。在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成,可以在提高模型的稀疏性的同时提高模型鲁棒性,增强了模型的训练效果。
图4示意性示出了本申请实施例的一种稀疏鲁棒的联邦学习***的结构图。如图4所示,本申请实施例提供一种稀疏鲁棒的联邦学习***,该***可以包括:
根据上述的服务器410;
客户端420,与服务器410通信,被配置成根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并将多个本地模型更新参数发送至服务器410。
在本申请实施例中,稀疏鲁棒的联邦学习***可以包括服务器410和客户端420。客户端420与服务器410通信。在进行模型训练时,首先服务器410对全局模型的参数进行初始化处理,以得到初始化参数。分别将初始化参数发送至多个目标客户端节点,以通过客户端420根据被配置成根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数。客户端420将得到的多个本地模型更新参数返回至服务器410。服务器410接收客户端420返回的多个本地模型更新参数,并根据多个本地模型更新参数确定全局模型的聚合参数。最后,判断全局模型的聚合参数是否满足预设终止条件;在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成。
通过上述技术方案,服务器对全局模型的参数进行初始化处理,以得到初始化参数。再分别将初始化参数发送至多个目标客户端节点,以通过客户端根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并接收客户端返回的多个本地模型更新参数。再根据多个本地模型更新参数确定全局模型的聚合参数。最后判断全局模型的聚合参数是否满足预设终止条件。在全局模型的聚合参数满足预设终止条件的情况下,判定全局模型训练完成,可以在提高模型的稀疏性的同时提高模型鲁棒性,增强了模型的训练效果。
本申请实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据上述的稀疏鲁棒的联邦学习方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种稀疏鲁棒的联邦学习方法,其特征在于,应用于服务器,所述服务器与客户端通信,所述方法包括:
对全局模型的参数进行初始化处理,以得到初始化参数;
分别将所述初始化参数发送至多个目标客户端节点,以通过所述客户端根据所述初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数;
接收所述客户端返回的所述多个本地模型更新参数;
根据所述多个本地模型更新参数确定所述全局模型的聚合参数;
判断所述全局模型的聚合参数是否满足预设终止条件;
在所述全局模型的聚合参数满足所述预设终止条件的情况下,判定所述全局模型训练完成。
2.根据权利要求1所述的联邦学习方法,其特征在于,所述本地模型更新参数满足公式(1):
其中,i为客户端节点序号,k为模型训练轮数,wik为第k轮、第i个客户端节点的本地模型的更新参数,wk-1为第k-1轮全局模型的参数,w为本地模型参数向量,η为学习率常量,表示求新损失函数Li(w)在w=wk-1处对w的梯度。
3.根据权利要求2所述的联邦学习方法,其特征在于,所述新损失函数满足公式(2):
其中,Li(w)为全局模型原损失函数加上正则项后的新损失函数,Fi(w)为全局模型的原损失函数,αk为控制模型稀疏度的权重衰减函数,β为权重常量,||w||1表示w的L1范数,表示w的L2范数的平方。
4.根据权利要求3所述的联邦学习方法,其特征在于,所述控制模型稀疏度的权重衰减函数满足公式(3):
其中,αk为控制模型稀疏度的权重衰减函数,α为控制模型稀疏度的初始常量,rend为预设的训练周期阈值常量,k为模型训练轮数。
5.根据权利要求1所述的联邦学习方法,其特征在于,所述判断全局模型的聚合参数是否满足所述预设终止条件包括:
判断所述全局模型的聚合参数是否收敛;或
判断所述全局模型的训练总轮次是否大于或等于阈值常量。
6.根据权利要求1所述的联邦学习方法,其特征在于,所述根据所述多个本地模型更新参数确定所述全局模型的聚合参数包括:
分别获取多个客户端节点的本地存储样本数据集中包含的样本数量和所述多个本地模型更新参数;
分别将每个客户端节点的本地存储样本数据集中包含的样本数量和本地模型更新参数相乘,以得到多个乘积;
将所述多个乘积求和,再除以多个客户端节点的样本数量之和,以得到所述全局模型的聚合参数。
7.根据权利要求1所述的联邦学习方法,其特征在于,所述联邦学习方法还包括:
在所述全局模型的聚合参数不满足所述预设终止条件的情况下,重新对所述全局模型进行训练。
8.一种服务器,其特征在于,包括:
存储器,被配置成存储指令;以及
处理器,被配置成从所述存储器调用所述指令以及在执行所述指令时能够实现根据权利要求1至7中任一项所述的稀疏鲁棒的联邦学习方法。
9.一种稀疏鲁棒的联邦学习***,其特征在于,包括:
根据权利要求8的服务器;
客户端,与所述服务器通信,被配置成根据初始化参数、LogL1正则项和L2正则项更新本地模型,从而得到多个本地模型更新参数,并将所述多个本地模型更新参数发送至所述服务器。
10.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据权利要求1至7中任一项所述的稀疏鲁棒的联邦学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576423.3A CN117521782A (zh) | 2023-11-23 | 2023-11-23 | 稀疏鲁棒的联邦学习方法、联邦学习***及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576423.3A CN117521782A (zh) | 2023-11-23 | 2023-11-23 | 稀疏鲁棒的联邦学习方法、联邦学习***及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117521782A true CN117521782A (zh) | 2024-02-06 |
Family
ID=89756485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311576423.3A Pending CN117521782A (zh) | 2023-11-23 | 2023-11-23 | 稀疏鲁棒的联邦学习方法、联邦学习***及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521782A (zh) |
-
2023
- 2023-11-23 CN CN202311576423.3A patent/CN117521782A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091199B (zh) | 一种基于差分隐私的联邦学习方法、装置及存储介质 | |
US20220391771A1 (en) | Method, apparatus, and computer device and storage medium for distributed training of machine learning model | |
US11893781B2 (en) | Dual deep learning architecture for machine-learning systems | |
KR102170105B1 (ko) | 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체 | |
EP3479377B1 (en) | Speech recognition | |
CN110728317A (zh) | 决策树模型的训练方法、***、存储介质及预测方法 | |
KR102158683B1 (ko) | 외부 메모리로 신경망들 증강 | |
KR20180129211A (ko) | 뉴럴 네트워크에서 데이터를 양자화하는 방법 및 장치 | |
EP4350572A1 (en) | Method, apparatus and system for generating neural network model, devices, medium and program product | |
CN113128419B (zh) | 一种障碍物识别方法和装置、电子设备及存储介质 | |
US11379724B1 (en) | System and method for domain specific neural network pruning | |
CN112085074B (zh) | 一种模型参数更新***、方法及装置 | |
CN111104954A (zh) | 一种对象分类的方法与装置 | |
CN114637881B (zh) | 基于多代理度量学习的图像检索方法 | |
CN112990387B (zh) | 模型优化方法、相关设备及存储介质 | |
CN117521782A (zh) | 稀疏鲁棒的联邦学习方法、联邦学习***及服务器 | |
CN113378994A (zh) | 一种图像识别方法、装置、设备及计算机可读存储介质 | |
CN112561050B (zh) | 一种神经网络模型训练方法及装置 | |
CN116432780A (zh) | 一种模型增量学习方法、装置、设备及存储介质 | |
CN116010832A (zh) | 联邦聚类方法、装置、中心服务器、***和电子设备 | |
CN115660116A (zh) | 基于稀疏适配器的联邦学习方法及*** | |
KR20190129422A (ko) | 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치 | |
CN113744719A (zh) | 一种语音提取方法、装置及设备 | |
CN117521783A (zh) | 联邦机器学习方法、装置、存储介质及处理器 | |
CN110543549A (zh) | 语义等价性判断方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |