CN114528304A - 一种自适应客户端参数更新的联邦学习方法、***及存储介质 - Google Patents

一种自适应客户端参数更新的联邦学习方法、***及存储介质 Download PDF

Info

Publication number
CN114528304A
CN114528304A CN202210152598.0A CN202210152598A CN114528304A CN 114528304 A CN114528304 A CN 114528304A CN 202210152598 A CN202210152598 A CN 202210152598A CN 114528304 A CN114528304 A CN 114528304A
Authority
CN
China
Prior art keywords
client
local
model
central server
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210152598.0A
Other languages
English (en)
Inventor
潘紫柔
吴宣够
卫琳娜
张卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202210152598.0A priority Critical patent/CN114528304A/zh
Publication of CN114528304A publication Critical patent/CN114528304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供的自适应客户端参数更新的联邦学习方法、***及存储介质,涉及无线通信网络技术领域;该方法包括中央服务器下发全局模型至所属的客户端;客户端利用本地数据对模型进行更新;客户端在下一个全局模型训练过程前估计能量消耗和传输延迟,利用强化学习去选择的本地更新的次数;当客户端本地更新次数达到训练的本地更新最优值时,再将模型上传到中央服务器进行全局聚合;本发明能高效执行联邦学习任务,降低联邦学习学习模型所需的通信代价,并选择客户端本地更新的局部最优模型,提高联邦学习整体训练效率。

Description

一种自适应客户端参数更新的联邦学习方法、***及存储 介质
技术领域
本发明涉及无线通信网络技术领域,具体涉及一种自适应客户端参数更新的联邦学习方法、***及存储介质。
背景技术
在过去的数年里,见证了机器学习在人工智能应用领域中的迅猛发展,这些机器学习技术的成功,无一不建立在大量的数据基础之上,通过使用这些大数据,实现人工智能在许多领域执行人类难以完成的任务。
但是随着社会发展,人们发现在许多应用领域,满足上述规模的数据量是难以甚至无法达到的。原因在于,随着人工智能的发展,人们对于用户隐私和数据安全的关注度也在增加;所以对于数据也失去了掌控,加剧了数据孤岛的严重性,阻碍着训练人工智能模型所必需的大数据的使用。因此,联邦学习应运而生,它允许参与训练的客户端将数据保存在本地并且训练过程不共享,只在训练过程中分享本地数据上训练的机器学习模型的参数,而且模型参数可以利用压缩机制、安全多方计算、差分隐私等技术进行保护,在很大程度上保护了用户的隐私安全。
然而,作为新兴的技术,联邦学习仍然存在一些问题。通过浏览分析对比,发现现有联邦学习存在的问题和缺陷如下:
联邦学习存在数据质量问题,具体表现为:由于数据集存储在本地,服务器无法接触到数据源,难以保证数据的标签是否正确,数据是否发生了混淆等问题;联邦学习同步迭代存在等待时长问题,具体表现为:联邦服务器与客户端之间以同步的方式交换模型参数需要等待所有客户端模型全部更新完毕才能开始新的迭代过程,因为存在***异构性问题,计算能力强的、网络状态好的客户端存在大量空闲等待时间;部分场景下联邦学习通信效率不高,当前的联邦学习大多都是同步的,一次迭代中,服务器要与众多的参与方进行数据交互。如果要采用多种防御手段保证模型与敏感信息的安全,势必会加重服务器的通信负担,甚至会造成拒绝服务攻击或单点失败。
发明内容
本发明目的在于提供一种自适应客户端参数更新的联邦学习方法、***及存储介质,解决了联邦学习同步迭代问题和通信效率问题,更好的发挥联邦学习的特长,将联邦学习应用到更多实际场景中。
为达成上述目的,本发明提出如下技术方案:一种自适应客户端参数更新的联邦学习方法,应用于中央服务器,包括:
在中央服务器使用Q-Learning的算法建立Q表,其中,Q表的建立过程为在中央服务器的任意状态s1下出发,选定任一动作a下发至所有客户端,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,动作a作为中央服务器进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内;
中央服务器广播其初始化的全局模型参数至所有客户端,以便各个客户端根据其拥有的本地数据进行训练,更新本地资源信息;
接收客户端上传的其本地更新的资源信息,并采用马尔科夫决策过程依据所述资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端;其中,最大Q值对应的动作a作为客户端下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;
接收所有客户端上传的本地模型的参数,采用联邦平均算法聚合,更新全局模型参数;其中,客户端上传的本地模型的参数为本地更新局部最优模型的参数;
下发更新后的全局模型参数至各个客户端,以便客户端重复执行上述确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
进一步,所述马尔科夫决策过程定义为联邦学习***中客户端本地更新局部最优模型的选择策略问题,记为<S,A,P,R>,其中,S、A、P和R分别为联邦学习***的状态空间、动作空间、状态转换概率和奖励函数;
所述状态空间S表示为***中所有客户端的资源信息,定义为
Figure BDA0003511175980000031
其中,Ⅱ为笛卡尔积,n为联邦学习***中客户端的数量,sk为客户端k的状态,客户端k的状态表示为
sk={fk,ek,wk;fk≤F,ek≤E,wk≤W}
其中,F、E、W分别为中央服务器的周期频率、能量单位和无线带宽的限制,fk为客户端k的周期频数,ek为客户端k的能量单位,wk为客户端k的无线带宽的限制;
所述操作空间A表示为中央服务器对***包含的所有客户端本地更新局部最优模型的选择策略的组合,定义为
Figure BDA0003511175980000032
其中,ak为客户端k的动作,并且ak=0或1;
当ak=0表示客户端k不上传局部模型的更新,ak=1表示客户端k上传本轮局部模型的更新;
所述状态转换概率P表示为联邦学习***从当前状态s1转换到下一个状态s2的概率,状态转换是根据***中所有客户端状态的转换来确定的;
所述中央服务器根据客户端上传的本地更新局部最优模型的参数进行全局模型参数更新,并根据积累奖赏评估根据马尔科夫决策方法寻找的客户端在本地更新最优模型策略的好坏,获得最优策略;其中,最优策略表示客户端在初始状态下一直执行该策略,直到客户端的状态达到局部的模型收敛或设定的局部模型精度;
所述累积奖赏采用奖励函数R表示,计算方法为:
Figure BDA0003511175980000041
其中,Rs表示客户端k达到局部的模型收敛或设定的局部模型精度的状态s下的累积奖赏,α、β均为折扣因子,m为客户端一轮训练的本地更新次数,Bk为客户端每次迭代所需要的能量消耗;
客户端k每次迭代所消耗的能量Bk计算如下:
BK=fk 2μG
其中,μ为训练数据,G为处理一个本地数据所需的中央服务器周期数。
进一步,自适应客户端参数更新的联邦学习方法应用于客户端,包括:
接收中央服务器下发的初始化的全局模型参数,根据其拥有的本地数据进行训练,更新本地资源信息;
上传其本地更新的资源信息至中央服务器,以便中央服务器采用马尔科夫决策过程依据该资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端;其中,Q表为中央服务器使用Q-Learning的算法建立,建立过程为在中央服务器的任意状态s1下出发,选定任一动作a下发至所有客户端,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,动作a作为中央服务器进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内;
以动作a作为下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;
上传本地更新局部最优模型的参数至中央服务器,以便中央服务器采用联邦平均算法聚合,更新全局模型参数;
接收中央服务器下发的更新后的全局模型参数,重复执行上述确定本地更新局部最优模型的本地更新过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
进一步的,定义联邦学习***包括n个客户端,每个客户端存储有本地数据,则***的本地损失函数和全局损失函数分别为:
Figure BDA0003511175980000051
Figure BDA0003511175980000052
Figure BDA0003511175980000053
其中,i、j分别为联邦学习***中的任一个客户端,w为全局模型的权重矩阵,D为所有客户端存储的本地数据集合。
进一步的,所述初始化的全局模型参数为将全局损失函数中包含的全局模型的权重矩阵w初始化为0。
进一步的,所述客户端根据其拥有的本地数据进行训练过程为在本地数据上进行一次或多次的梯度下降更新。
本发明另一技术方案在于公开一种自适应客户端参数更新的联邦学习***,该***包括中央服务器和网络连接于中央服务器的若干客户端,以及如下模块:
建立模块,用于在中央服务器使用Q-Learning的算法建立Q表,其中,Q表的建立过程为在中央服务器的任意状态s1下出发,选定任一动作a下发至所有客户端,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,动作a作为中央服务器进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内;
广播模块,用于中央服务器广播其初始化的全局模型参数至所有客户端,以便各个客户端根据其拥有的本地数据进行训练,更新本地资源信息;
第一接收模块,用于接收客户端上传的其本地更新的资源信息,并采用马尔科夫决策过程依据所述资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端;其中,最大Q值对应的动作a作为客户端下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;
第二接收模块,用于接收所有客户端上传的本地模型的参数,采用联邦平均算法聚合,更新全局模型参数;其中,客户端上传的本地模型的参数为本地更新局部最优模型的参数;
下发模块,用于下发更新后的全局模型参数至各个客户端;
重复迭代模块,用于客户端根据接收的更新后的全局模型参数重复执行确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
本发明还公开一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联邦学习***的控制程序,所述联邦学习***的控制程序被所述处理器执行时实现上述的自适应客户端参数更新的联邦学习方法。
本发明又一技术方案在于公开一种存储介质,所述存储介质上存储有联邦学习***的控制程序,所述联邦学习***的控制程序被处理器执行时实现上述的自适应客户端参数更新的联邦学习方法
由以上技术方案可知,本发明的技术方案获得了如下有益效果:
本发明公开的自适应客户端参数更新的联邦学***均算法聚合,更新并下发全局模型参数;各客户端重复执行上述确定更新次数最优值的本地更新过程,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
本发明通过马尔科夫决策的方法寻找客户端本地更新次数的最优值,降低中央服务器全局聚合的次数,高效执行联邦学习任务,降低联邦学习模型参数所需的通信代价,并动态选择本地更新最优值,提高联邦学习整体训练效率。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明提出的联邦学习***的结构图;
图2是本发明采用强化学习中Q-Learning的过程图;
图3是本发明提出的自适应客户端参数更新的联邦学习方法流程图。
图中,各标记的具体意义为:
1-中央服务器,2-客户端。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
针对现有技术中联邦学习存在通信开销问题,导致客户端本地更新次数没有达到最优值、部分场景下联邦学习通信效率不高,不符合工业应用场景的需求的技术问题,本发明提供了一种自适应客户端参数更新的联邦学习方法、***及存储介质,解决联邦学习通信开销问题。
下面结合附图所示的实施例,对本发明的一种自适应客户端参数更新的联邦学习方法、***及存储介质作进一步具体介绍。
结合图3所示,本发明一实施例提供的自适应客户端参数更新的联邦学习方法执行时包括如下步骤:中央服务器1下发全局模型至所属的客户端2;客户端2利用本地数据对模型进行更新;客户端2在下一个全局模型训练过程前估计能量消耗和传输延迟,利用强化学习去选择的本地更新局部最优模型;当客户端2本地更新次数达到训练的本地更新最优模型时,再将模型上传到中央服务器进行全局聚合;重复执行上述本地更新过程,直至达到预设条件。通过寻找客户端2在本地更新局部最优模型选择策略,避免客户端2在每一次本地更新后上传本地模型参数,降低全局聚合的次数,达到减少通信开销的目的。
具体的,当本发明方法应用于中央服务器1时,包括:在中央服务器1使用Q-Learning的算法建立Q表;广播其初始化的全局模型参数至所有客户端2,以便各个客户端2根据其拥有的本地数据进行训练,更新本地资源信息;接收客户端2上传的其本地更新的资源信息,并采用马尔科夫决策过程依据资源信息对应的状态s在Q表中选择最大Q值对应的动作a反馈至客户端2;其中,最大Q值对应的动作a为客户端2下一个新状态s2,重复执行计算多次迭代,直至局部的模型收敛或达到设定的局部模型精度;接收所有客户端2上传的本地更新局部最优模型的参数,采用联邦平均算法聚合,更新全局模型参数;下发更新后的全局模型参数至各个客户端2,以便客户端2重复执行上述确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端2内全局模型收敛或达到设定全局模型精度。
当本发明的方法应用于客户端2时,包括:接收中央服务器1下发的初始化的全局模型参数,根据其拥有的本地数据进行训练,更新本地资源信息;上传其本地更新的资源信息至中央服务器1,以便中央服务器1采用马尔科夫决策过程依据该资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端,最大Q值对应的动作a为客户端下一个新状态s2,重复执行计算多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;客户端2上传本地更新局部最优模型的参数至中央服务器1,以便中央服务器1采用联邦平均算法聚合,更新全局模型参数;接收中央服务器1下发的更新后的全局模型参数,重复执行上述确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端2内全局模型收敛或达到设定全局模型精度。
如图2所示,上述方法应用时,Q表的建立过程如下,即在中央服务器1的任意状态s下出发,选定动作a下发至所有客户端2,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,根据选定的动作a作为客户端2下一个新状态s,重复执行计算,直至Q表不再变化或者变化在设定范围内。
另外,当客户端2上传1其更新的资源信息到中央服务器1后,中央服务器1首先观察所有客户端2的资源信息,如无线道状态以及实时能量状态,然后根据客户端2的资源信息,依据马尔科夫决策过程进行最优策略的选择。
方法实施中,将联邦学习***中用于训练客户端2本地更新局部最优模型的选择策略问题用马尔科夫决策过程表达,记为<S,A,P,R>,其中,S、A、P和R分别为联邦学习***的状态空间、动作空间、状态转换概率和奖励函数;
状态空间S表示为***中所有客户端2的资源信息,定义为
Figure BDA0003511175980000101
其中,Ⅱ为笛卡尔积,n为联邦学习***中客户端2的数量,sk为客户端k的状态,客户端k的状态表示为
sk={fk,ek,wk;fk≤F,ek≤E,wk≤W}
其中,F、E、W分别为中央服务器的周期频率、能量单位和无线带宽的限制,fk为客户端k的周期频数,ek为客户端k的能量单位,wk为客户端k的无线带宽的限制;
操作空间A表示为中央服务器1对***包含的所有客户端2的本地更新次数的选择策略的组合,定义为
Figure BDA0003511175980000102
其中,ak为客户端k的动作,并且ak=0或1;
当ak=0表示客户端k不上传局部模型的更新,ak=1表示客户端k上传本轮局部模型的更新;
状态转换概率P表示为联邦学习***从当前状态s1转换到下一个状态s2的概率,状态转换是根据***中所有客户端2状态的转换来确定的;
所述中央服务器根据客户端上传的本地更新局部最优模型的参数进行全局模型参数更新,并根据积累奖赏评估根据马尔科夫决策方法寻找的客户端在本地更新最优模型策略的好坏,获得最优策略;其中,最优策略表示客户端在初始状态下一直执行该策略,直到客户端的状态达到局部的模型收敛或设定的局部模型精度;
所述累积奖赏采用奖励函数R表示,计算方法为:
Figure BDA0003511175980000111
其中,Rs表示客户端k达到局部的模型收敛或设定的局部模型精度的状态s下的累积奖赏,α、β均为折扣因子,m为客户端一轮训练的本地更新次数,Bk为客户端每次迭代所需要的能量消耗;
客户端2每次迭代所消耗的能量Bk计算如下:
BK=fk 2μG
其中,μ为训练数据,G为处理一个本地数据所需的中央服务器周期数。
本发明提出的自适应客户端参数更新的联邦学***均损失函数,即本地损失函数Fi(w),和在所有客户端2组成的本地数据集合上训练的损失函数,即全局损失函数F(w)分别为:
Figure BDA0003511175980000112
Figure BDA0003511175980000121
Figure BDA0003511175980000122
其中,i、j分别为联邦学习***中的任一个客户端2,w为全局模型的权重矩阵,D为所有客户端2存储的本地数据集合。机器学习问题的核心就是通过输入数据集迭代更新求解损失函数的参数集合,使损失函数减小到设定值;联邦学习***的训练任务同样也是求解权重矩阵w,权重矩阵w是使全局损失函数最优的解。
实施例中,中央服务器1广播的初始化的全局模型参数获得方式为将全局损失函数中包含的全局模型的权重矩阵w初始化为0,客户端2在接收到中央服务器1反馈的客户端2本地更新次数的最优值后进行本地训练过程为在本地数据上进行一次或多次的梯度下降更新。
在本实施例中,还提供一种电子设备,该设备包括处理器、存储器,以及存储在存储器上并可在处理器上运行的联邦学习***的控制程序;当联邦学习***的控制程序被处理器执行时,处理器运行上述实施例中的方法。
上述联邦学习***的控制程序可以运行在处理器中,或者也可以存储在计算机可读的存储介质中,存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。存储存质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
示例性的,本实施例中就提供了这样的一种***,即自适应客户端参数更新的联邦学***均算法聚合,更新全局模型参数;其中,客户端上传的本地模型的参数为本地更新局部最优模型的参数;下发模块,用于下发更新后的全局模型参数至各个客户端;重复迭代模块,用于客户端根据接收的更新后的全局模型参数重复执行确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
可选的,建立模块中Q表的建立过程为在中央服务器1的任意状态s1下出发,选定任一动作a下发至所有客户端2,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,选定的动作a作为中央服务器1进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内。Q-Learning算法的主要思想就是将状态s和动作a构建成一张Q表来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
本***在运行时先通过客户端2对初始化的全局参数在本地进行更新,上传资源信息,即状态s给中央服务器1,在中央服务器1利用强化学习中的马尔科夫决策从再先建立的Q表中选择Q值最大那个动作a反馈给客户端2,其中,最大Q值对应的动作a作为客户端2下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;然后,客户端2上传更新后的本地更新局部最优模型的参数,以便中央服务器1进行全局聚合更新全局模型参数,进而很大程度上减少本地开销以及通信开销。
通过马尔科夫决策的方法联邦学习***中客户端本地更新局部最优模型的选择策略问题,通过在客户端2获取本地更新的局部最优模型再上传中央服务器进行全局聚合,降低中央服务器全局聚合的次数,高效执行联邦学习任务,降低联邦学习模型参数所需的通信代价,并动态选择本地更新最优值,提高联邦学习整体训练效率。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (10)

1.一种自适应客户端参数更新的联邦学习方法,其特征在于,应用于中央服务器,包括:
在中央服务器使用Q-Learning的算法建立Q表,其中,Q表的建立过程为在中央服务器的任意状态s1下出发,选定任一动作a下发至所有客户端,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,动作a作为中央服务器进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内;
中央服务器广播其初始化的全局模型参数至所有客户端,以便各个客户端根据其拥有的本地数据进行训练,更新本地资源信息;
接收客户端上传的其本地更新的资源信息,并采用马尔科夫决策过程依据所述资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端;其中,最大Q值对应的动作a作为客户端下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;
接收所有客户端上传的本地模型的参数,采用联邦平均算法聚合,更新全局模型参数;其中,客户端上传的本地模型的参数为本地更新局部最优模型的参数;
下发更新后的全局模型参数至各个客户端,以便客户端重复执行上述确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
2.根据权利要求1所述的自适应客户端参数更新的联邦学习方法,其特征在于,所述马尔科夫决策过程定义为联邦学习***中客户端本地更新局部最优模型的选择策略问题,记为<S,A,P,R>,其中,S、A、P和R分别为联邦学习***的状态空间、动作空间、状态转换概率和奖励函数;
所述状态空间S表示为***中所有客户端的资源信息,定义为
Figure FDA0003511175970000021
其中,Ⅱ为笛卡尔积,n为联邦学习***中客户端的数量,sk为客户端k的状态,客户端k的状态表示为
sk={fk,ek,wk;fk≤F,ek≤E,wk≤W}
其中,F、E、W分别为中央服务器的周期频率、能量单位和无线带宽的限制,fk为客户端k的周期频数,ek为客户端k的能量单位,wk为客户端k的无线带宽的限制;
所述操作空间A表示为中央服务器对***包含的所有客户端本地更新局部最优模型的选择策略的组合,定义为
Figure FDA0003511175970000022
其中,ak为客户端k的动作,并且ak=0或1;
当ak=0表示客户端k不上传局部模型的更新,ak=1表示客户端k上传本轮局部模型的更新;
所述状态转换概率P表示为联邦学习***从当前状态s1转换到下一个状态s2的概率,状态转换是根据***中所有客户端状态的转换来确定的;
所述中央服务器根据客户端上传的本地更新局部最优模型的参数进行全局模型参数更新,并根据积累奖赏评估根据马尔科夫决策方法寻找的客户端在本地更新最优模型策略的好坏,获得最优策略;其中,最优策略表示客户端在初始状态下一直执行该策略,直到客户端的状态达到局部的模型收敛或设定的局部模型精度;
所述累积奖赏采用奖励函数R表示,计算方法为:
Figure FDA0003511175970000023
其中,Rs表示客户端k达到局部的模型收敛或设定的局部模型精度的状态s下的累积奖赏,α、β均为折扣因子,m为客户端一轮训练的本地更新次数,Bk为客户端每次迭代所需要的能量消耗;
客户端k每次迭代所消耗的能量Bk计算如下:
BK=fk 2μG
其中,μ为训练数据,G为处理一个本地数据所需的中央服务器周期数。
3.根据权利要求1所述的自适应客户端参数更新的联邦学习方法,其特征在于,应用于客户端,包括:
接收中央服务器下发的初始化的全局模型参数,根据其拥有的本地数据进行训练,更新本地资源信息;
上传其本地更新的资源信息至中央服务器,以便中央服务器采用马尔科夫决策过程依据该资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端;其中,Q表为中央服务器使用Q-Learning的算法建立,建立过程为在中央服务器的任意状态s1下出发,选定任一动作a下发至所有客户端,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,动作a作为中央服务器进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内;
以动作a作为下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;
上传本地更新局部最优模型的参数至中央服务器,以便中央服务器采用联邦平均算法聚合,更新全局模型参数;
接收中央服务器下发的更新后的全局模型参数,重复执行上述确定本地更新局部最优模型的本地更新过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
4.根据权利要求1所述的自适应客户端参数更新的联邦学习方法,其特征在于,定义联邦学习***包括n个客户端,每个客户端存储有本地数据,则***的本地损失函数和全局损失函数分别为:
Figure FDA0003511175970000041
Figure FDA0003511175970000042
Figure FDA0003511175970000043
其中,i、j分别为联邦学习***中的任一个客户端,w为全局模型的权重矩阵,D为所有客户端存储的本地数据集合。
5.根据权利要求4所述的自适应客户端参数更新的联邦学习方法,其特征在于,所述初始化的全局模型参数为将全局损失函数中包含的全局模型的权重矩阵w初始化为0。
6.根据权利要求1所述的自适应客户端参数更新的联邦学习方法,其特征在于,所述中央服务器和任一客户端网络连接。
7.根据权利要求1所述的自适应客户端参数更新的联邦学习方法,其特征在于,所述客户端根据其拥有的本地数据进行训练过程为在本地数据上进行一次或多次的梯度下降更新。
8.一种自适应客户端参数更新的联邦学习***,其特征在于,包括中央服务器和网络连接于中央服务器的若干客户端,以及如下模块:
建立模块,用于在中央服务器使用Q-Learning的算法建立Q表,其中,Q表的建立过程为在中央服务器的任意状态s1下出发,选定任一动作a下发至所有客户端,获得反馈的奖赏r,根据奖赏r计算Q值并填入Q表,动作a作为中央服务器进入的下一个新状态s2,重复执行计算,直至Q表不再变化或者变化在设定范围内;
广播模块,用于中央服务器广播其初始化的全局模型参数至所有客户端,以便各个客户端根据其拥有的本地数据进行训练,更新本地资源信息;
第一接收模块,用于接收客户端上传的其本地更新的资源信息,并采用马尔科夫决策过程依据所述资源信息对应的状态在Q表中选择最大Q值对应的动作a反馈至客户端;其中,最大Q值对应的动作a作为客户端下一个新状态s2,多次迭代,直至局部的模型收敛或达到设定的局部模型精度,获得本地更新局部最优模型;
第二接收模块,用于接收所有客户端上传的本地模型的参数,采用联邦平均算法聚合,更新全局模型参数;其中,客户端上传的本地模型的参数为本地更新局部最优模型的参数;
下发模块,用于下发更新后的全局模型参数至各个客户端;
重复迭代模块,用于客户端根据接收的更新后的全局模型参数重复执行确定本地更新局部最优模型的过程,多次迭代,直至联邦学习***中所有客户端内全局模型收敛或达到设定全局模型精度。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联邦学习***的控制程序,所述联邦学习***的控制程序被所述处理器执行时实现如权利要求1至7中任一项所述的自适应客户端参数更新的联邦学习方法。
10.一种存储介质,其特征在于,所述存储介质上存储有联邦学习***的控制程序,所述联邦学习***的控制程序被处理器执行时实现如权利要求1至7中任一项所述的自适应客户端参数更新的联邦学习方法。
CN202210152598.0A 2022-02-18 2022-02-18 一种自适应客户端参数更新的联邦学习方法、***及存储介质 Pending CN114528304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210152598.0A CN114528304A (zh) 2022-02-18 2022-02-18 一种自适应客户端参数更新的联邦学习方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210152598.0A CN114528304A (zh) 2022-02-18 2022-02-18 一种自适应客户端参数更新的联邦学习方法、***及存储介质

Publications (1)

Publication Number Publication Date
CN114528304A true CN114528304A (zh) 2022-05-24

Family

ID=81623261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210152598.0A Pending CN114528304A (zh) 2022-02-18 2022-02-18 一种自适应客户端参数更新的联邦学习方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN114528304A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782758A (zh) * 2022-06-21 2022-07-22 平安科技(深圳)有限公司 图像处理模型训练方法、***、计算机设备及存储介质
CN115018086A (zh) * 2022-06-08 2022-09-06 河海大学 一种基于联邦学习的模型训练方法及联邦学习***
CN115081002A (zh) * 2022-06-28 2022-09-20 西安电子科技大学 用于去中心化联邦学习的聚合服务器选择方法
CN115130683A (zh) * 2022-07-18 2022-09-30 山东大学 一种基于多代理模型的异步联邦学习方法及***
CN115134687A (zh) * 2022-06-22 2022-09-30 中国信息通信研究院 光接入网的业务识别方法、装置、电子设备及存储介质
CN115145966A (zh) * 2022-09-05 2022-10-04 山东省计算中心(国家超级计算济南中心) 一种面向异构数据的对比联邦学习方法及***
CN115277555A (zh) * 2022-06-13 2022-11-01 香港理工大学深圳研究院 异构环境的网络流量分类方法、装置、终端及存储介质
CN115357402A (zh) * 2022-10-20 2022-11-18 北京理工大学 一种边缘智能优化方法和装置
CN116016212A (zh) * 2022-12-26 2023-04-25 电子科技大学 一种带宽感知的去中心化联邦学习方法及装置
CN116090550A (zh) * 2022-12-27 2023-05-09 百度在线网络技术(北京)有限公司 联邦学习方法、装置、服务器、电子设备及存储介质
CN116306986A (zh) * 2022-12-08 2023-06-23 哈尔滨工业大学(深圳) 一种基于动态亲和力聚合的联邦学习方法及相关设备
CN116741388A (zh) * 2023-08-14 2023-09-12 中国人民解放军总医院 基于联邦学习构建心血管急危重症大模型的方法
CN116911403A (zh) * 2023-06-06 2023-10-20 北京邮电大学 联邦学习的服务器和客户端的一体化训练方法及相关设备
CN116936048A (zh) * 2023-07-04 2023-10-24 吉林大学 异构医疗信息的联邦学习医院选择方法、设备及存储介质
CN117278540A (zh) * 2023-11-23 2023-12-22 中国人民解放军国防科技大学 自适应边缘联邦学习客户端调度方法、装置及电子设备
WO2024099109A1 (zh) * 2022-11-11 2024-05-16 ***股份有限公司 一种联邦学习模型训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210073639A1 (en) * 2018-12-04 2021-03-11 Google Llc Federated Learning with Adaptive Optimization
CN113011599A (zh) * 2021-03-23 2021-06-22 上海嗨普智能信息科技股份有限公司 基于异构数据的联邦学习***
CN113850396A (zh) * 2021-09-28 2021-12-28 北京邮电大学 隐私增强型联邦决策方法、装置、***和存储介质
CN113971089A (zh) * 2021-09-27 2022-01-25 国网冀北电力有限公司信息通信分公司 联邦学习***设备节点选择的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210073639A1 (en) * 2018-12-04 2021-03-11 Google Llc Federated Learning with Adaptive Optimization
CN113011599A (zh) * 2021-03-23 2021-06-22 上海嗨普智能信息科技股份有限公司 基于异构数据的联邦学习***
CN113971089A (zh) * 2021-09-27 2022-01-25 国网冀北电力有限公司信息通信分公司 联邦学习***设备节点选择的方法及装置
CN113850396A (zh) * 2021-09-28 2021-12-28 北京邮电大学 隐私增强型联邦决策方法、装置、***和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐梦炜;刘渊强;黄康;刘譞哲;黄罡;: "面向移动终端智能的自治学习***", 软件学报, no. 10, 14 October 2020 (2020-10-14) *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115018086A (zh) * 2022-06-08 2022-09-06 河海大学 一种基于联邦学习的模型训练方法及联邦学习***
CN115018086B (zh) * 2022-06-08 2024-05-03 河海大学 一种基于联邦学习的模型训练方法及联邦学习***
CN115277555B (zh) * 2022-06-13 2024-01-16 香港理工大学深圳研究院 异构环境的网络流量分类方法、装置、终端及存储介质
CN115277555A (zh) * 2022-06-13 2022-11-01 香港理工大学深圳研究院 异构环境的网络流量分类方法、装置、终端及存储介质
CN114782758B (zh) * 2022-06-21 2022-09-02 平安科技(深圳)有限公司 图像处理模型训练方法、***、计算机设备及存储介质
CN114782758A (zh) * 2022-06-21 2022-07-22 平安科技(深圳)有限公司 图像处理模型训练方法、***、计算机设备及存储介质
CN115134687A (zh) * 2022-06-22 2022-09-30 中国信息通信研究院 光接入网的业务识别方法、装置、电子设备及存储介质
CN115134687B (zh) * 2022-06-22 2024-05-07 中国信息通信研究院 光接入网的业务识别方法、装置、电子设备及存储介质
CN115081002A (zh) * 2022-06-28 2022-09-20 西安电子科技大学 用于去中心化联邦学习的聚合服务器选择方法
CN115081002B (zh) * 2022-06-28 2024-05-14 西安电子科技大学 用于去中心化联邦学习的聚合服务器选择方法
CN115130683A (zh) * 2022-07-18 2022-09-30 山东大学 一种基于多代理模型的异步联邦学习方法及***
CN115145966A (zh) * 2022-09-05 2022-10-04 山东省计算中心(国家超级计算济南中心) 一种面向异构数据的对比联邦学习方法及***
CN115357402B (zh) * 2022-10-20 2023-01-24 北京理工大学 一种边缘智能优化方法和装置
CN115357402A (zh) * 2022-10-20 2022-11-18 北京理工大学 一种边缘智能优化方法和装置
WO2024099109A1 (zh) * 2022-11-11 2024-05-16 ***股份有限公司 一种联邦学习模型训练方法、装置、设备及存储介质
CN116306986A (zh) * 2022-12-08 2023-06-23 哈尔滨工业大学(深圳) 一种基于动态亲和力聚合的联邦学习方法及相关设备
CN116306986B (zh) * 2022-12-08 2024-01-12 哈尔滨工业大学(深圳) 一种基于动态亲和力聚合的联邦学习方法及相关设备
CN116016212B (zh) * 2022-12-26 2024-06-04 电子科技大学 一种带宽感知的去中心化联邦学习方法及装置
CN116016212A (zh) * 2022-12-26 2023-04-25 电子科技大学 一种带宽感知的去中心化联邦学习方法及装置
CN116090550B (zh) * 2022-12-27 2024-03-22 百度在线网络技术(北京)有限公司 联邦学习方法、装置、服务器、电子设备及存储介质
CN116090550A (zh) * 2022-12-27 2023-05-09 百度在线网络技术(北京)有限公司 联邦学习方法、装置、服务器、电子设备及存储介质
CN116911403A (zh) * 2023-06-06 2023-10-20 北京邮电大学 联邦学习的服务器和客户端的一体化训练方法及相关设备
CN116911403B (zh) * 2023-06-06 2024-04-26 北京邮电大学 联邦学习的服务器和客户端的一体化训练方法及相关设备
CN116936048B (zh) * 2023-07-04 2024-03-19 吉林大学 异构医疗信息的联邦学习医院选择方法、设备及存储介质
CN116936048A (zh) * 2023-07-04 2023-10-24 吉林大学 异构医疗信息的联邦学习医院选择方法、设备及存储介质
CN116741388B (zh) * 2023-08-14 2023-11-21 中国人民解放军总医院 基于联邦学习构建心血管急危重症大模型的方法
CN116741388A (zh) * 2023-08-14 2023-09-12 中国人民解放军总医院 基于联邦学习构建心血管急危重症大模型的方法
CN117278540B (zh) * 2023-11-23 2024-02-13 中国人民解放军国防科技大学 自适应边缘联邦学习客户端调度方法、装置及电子设备
CN117278540A (zh) * 2023-11-23 2023-12-22 中国人民解放军国防科技大学 自适应边缘联邦学习客户端调度方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN114528304A (zh) 一种自适应客户端参数更新的联邦学习方法、***及存储介质
Nath et al. Deep reinforcement learning for dynamic computation offloading and resource allocation in cache-assisted mobile edge computing systems
Han et al. Adaptive gradient sparsification for efficient federated learning: An online learning approach
Yu et al. Federated learning based proactive content caching in edge computing
Yu et al. Computation offloading for mobile edge computing: A deep learning approach
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
Ma et al. Scheduling policy and power allocation for federated learning in NOMA based MEC
AlQerm et al. DeepEdge: A new QoE-based resource allocation framework using deep reinforcement learning for future heterogeneous edge-IoT applications
CN115190033B (zh) 一种基于强化学习的云边融合网络任务卸载方法
CN115714814B (zh) 一种基于多智能体强化学习的边缘缓存替换方法
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN115859184A (zh) 基于联合学习的船舶故障诊断模型***及其训练方法
WO2022217210A1 (en) Privacy-aware pruning in machine learning
CN114116061B (zh) 一种移动边缘计算环境下的工作流任务卸载方法及***
Yan et al. A task offloading algorithm with cloud edge jointly load balance optimization based on deep reinforcement learning for unmanned surface vehicles
CN108306965A (zh) 摄像头的数据处理方法及装置、存储介质、摄像头
CN116843016A (zh) 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质
Li et al. Multiagent Reinforcement Learning for Task Offloading of Space/Aerial‐Assisted Edge Computing
CN112364365A (zh) 工业数据加密方法、边缘服务器及计算机可读存储介质
Zhou et al. DRL-Based Workload Allocation for Distributed Coded Machine Learning
CN116582893A (zh) 一种无线供能边缘智能场景下的神经网络模型分割及资源分配方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN107483541A (zh) 一种基于滚动时域的在线任务迁移方法
CN112416577A (zh) 一种适用于区块链工作量证明的协作式智能计算分流方法
Zhang et al. Cache-enabled dynamic rate allocation via deep self-transfer reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination