CN117278540A

CN117278540A - 自适应边缘联邦学习客户端调度方法、装置及电子设备

Info

Publication number: CN117278540A
Application number: CN202311572304.0A
Authority: CN
Inventors: 束妮娜; 颜康; 余静波; 吴韬; 杨方; 王晨; 王怀习; 周政伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2023-12-22
Anticipated expiration: 2043-11-23
Also published as: CN117278540B

Abstract

本发明公开了一种自适应边缘联邦学习客户端调度方法、装置及电子设备，该方法应用于服务器，包括：初始化生成结构相同的第一神经网络与第二神经网络；令，获取客户端在第轮训练时的状态向量集合；将状态向量集合输入至第一神经网络，得到客户端在第轮训练时的动作向量集合；将待训练的全局模型广播至各个客户端后，以使各客户端基于自身对应的动作向量和本地数据对全局模型进行训练，得到本地模型；获取多个本地模型的参数并聚合，得到新的全局模型；判断新的全局模型的当前精度是否满足预设条件；若是，则将新的全局模型作为训练完成的全局模型。本发明有效提升了全局模型精度和能量效率。

Description

自适应边缘联邦学习客户端调度方法、装置及电子设备

技术领域

本发明属于边缘计算技术领域，具体涉及一种自适应边缘联邦学习客户端调度方法、装置及电子设备。

背景技术

边缘联邦学习(Federated Learning)是一种新兴的机器学习方法，旨在解决传统中心化模型训练时隐私泄露、网络延迟和带宽瓶颈等问题。与中心化模型的训练方式不同，边缘联邦学习通过在设备或本地服务器之间共享模型参数，实现分布式模型训练，从而避免将数据集交给第三方拥有者，保护了用户隐私。

边缘联邦学习的出现是由于边缘计算的兴起和移动设备计算能力的提升，使得日益增长的移动设备用户随时都能为机器学习贡献计算能力。在边缘联邦学习中，单个移动设备或边缘设备会在本地收集并使用自己的本地数据进行训练，而不是将数据集上传到云端训练。本地训练完成之后，移动设备或边缘设备将权重参数汇总并上传到云端进行更新，更新后再次分发给各设备进行训练，这个过程中云端和移动设备及边缘设备之间只共享参数、不共享数据，从而保护了数据隐私性。

然而，边缘联邦学习中参与模型训练的移动设备或边缘设备具有高度异质性，它们可能具有不同的计算能力、处于不同的网络环境、拥有不同的数据集等，如何选择参与训练的设备即客户端，直接影响了联邦学习的准确性和效率。此外，边缘联邦学习中参与训练的设备往往能量有限，一方面，计算(例如涉及数百万参数的机器学习模型训练)和通信(例如上传中间结果)都需要大量的能量;另一方面，设备的计算、通信资源和能量有限，受到电池电量的限制而无法参与更多的学习任务，会影响联邦学习的性能。此外，模型训练涉及多次迭代，需要终端设备执行多轮计算和通信。这些因素给边缘联邦学习的部署带来了重大挑战。

可见，如何提高边缘联邦学习的能量效率是本领域技术人员亟待解决的问题。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种自适应边缘联邦学习客户端调度方法、装置及电子设备。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供一种自适应边缘联邦学习客户端调度方法，应用于服务器，包括：

初始化生成结构相同的第一神经网络与第二神经网络；

令，获取客户端在第/>轮训练时的状态向量集合/>，所述状态向量集合/>包括各个客户端在第/>轮训练时的状态向量；

将所述状态向量集合输入至所述第一神经网络，得到客户端在第/>轮训练时的动作向量集合/>，所述动作向量集合/>包括各个客户端在第/>轮训练时的动作向量；

将待训练的全局模型广播至各个客户端后，以使各客户端基于自身对应的动作向量和本地数据对所述待训练的全局模型进行训练，得到本地模型；

获取多个所述本地模型的参数并聚合，得到新的全局模型；

判断所述新的全局模型的当前精度是否满足预设条件；若是，则将所述新的全局模型作为训练完成的全局模型；反之，则令，使用所述第二神经网络、随机采样得到的经验/>及预设损失函数计算第一神经网络的损失值，并根据所述损失值调整所述第一神经网络的参数后，根据/>的取值更新所述第二神经网络，并将所述新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至所述第一神经网络后，返回所述将待训练的全局模型广播至各个客户端的步骤；其中/>表示第/>轮训练的奖励。

在本发明的一个实施例中，所述各个客户端在第轮训练时的状态向量为：，其中，/>表示第/>个客户端，/>表示计算能力，/>表示网络信号强度，/>表示本地数据的数据量大小，/>表示本地数据的异质性程度，/>表示电池状态。

在本发明的一个实施例中，所述各个客户端在第轮训练时的动作向量为：，其中，/>表示客户端/>在第/>轮训练时的最优训练轮数，/>表示客户端/>是否参与第/>轮训练，/>时表示客户端/>参与第/>轮训练，/>时表示客户端/>不参与第/>轮训练。

在本发明的一个实施例中，获取多个所述本地模型的参数并聚合，得到新的全局模型的步骤，包括：

对客户端上传的各个本地模型的参数进行加权平均，得到新的全局模型。

在本发明的一个实施例中，初始化生成结构相同的第一神经网络与第二神经网络的步骤之后，还包括：

初始化回放缓存；

当所述新的全局模型的当前精度不满足预设条件时，使用所述第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值的步骤之前，还包括：

计算第轮训练的奖励/>；

在获取客户端第轮训练时的状态向量集合/>后，将经验/>存入所述回放缓存。

在本发明的一个实施例中，按照如下公式计算第轮训练的奖励/>：

；

其中，表示第/>轮训练后新的全局模型的当前精度，/>表示预设精度，/>表示客户端/>在第/>轮训练中消耗的能量，/>表示预设权重系数，/>表示与参与第/>轮训练的客户端总数。

在本发明的一个实施例中，当所述新的全局模型的当前精度不满足预设条件时，使用所述第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值，并根据所述损失值调整所述第一神经网络的参数后，根据/>的取值更新所述第二神经网络，并将所述新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至所述第一神经网络后，返回所述将待训练的全局模型广播至各个客户端的步骤，包括：

从所述回放缓存中随机采样经验；

利用所述经验和所述第二神经网络，计算第/>轮训练的Q值：

；

其中，表示第二神经网络的函数，/>表示第二神经网络的参数，表示使/>取得最大值的动作/>，/>表示第i轮训练的奖励，/>表示预设折扣因子；

基于所述第轮训练的Q值以及预设损失函数，计算所述第一神经网络的损失值，并根据所述损失值调整所述第一神经网络的参数；

根据的取值更新所述第二神经网络；

将所述新的全局模型作为待训练的全局模型、将客户端第轮训练时的状态向量集合/>输入至所述第一神经网络后，返回所述将待训练的全局模型广播至各个客户端的步骤。

在本发明的一个实施例中，根据的取值更新所述第二神经网络的步骤，包括：

根据训练轮数，每间隔C轮将所述第一神经网络的参数复制给所述第二神经网络。

第二方面，本发明提供一种自适应边缘联邦学习客户端调度装置，应用于服务器，包括：

初始化模块，用于初始化生成结构相同的第一神经网络与第二神经网络；

获取模块，令，用于获取客户端在第/>轮训练时的状态向量集合/>，所述状态向量集合/>包括各个客户端在第/>轮训练时的状态向量；

输入模块，用于将所述状态向量集合输入至所述第一神经网络，得到客户端在第/>轮训练时的动作向量集合/>，所述动作向量集合/>包括各个客户端在第/>轮训练时的动作向量；

广播模块，用于将待训练的全局模型广播至各个客户端后，以使各客户端基于自身对应的动作向量和本地数据对所述待训练的全局模型进行训练，得到本地模型；

聚合模块，用于获取多个所述本地模型的参数并聚合，得到新的全局模型；

判断模块，用于判断所述新的全局模型的当前精度是否满足预设条件；若是，则将所述新的全局模型作为训练完成的全局模型；反之，则令，使用所述第二神经网络、随机采样得到的经验/>及预设损失函数计算第一神经网络的损失值，并根据所述损失值调整所述第一神经网络的参数后，根据/>的取值更新所述第二神经网络，并将所述新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至所述第一神经网络后，返回广播模块执行所述将待训练的全局模型广播至各个客户端的步骤；其中/>表示第/>轮训练的奖励。

第三方面，本发明还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

与现有技术相比，本发明的有益效果在于：

本发明提供了一种自适应边缘联邦学习客户端调度方法、装置及电子设备，该方法能够根据各个客户端的状态选择参与全局模型训练过程的客户端，考虑了客户端之间的异质性，通过客户端之间组合为边缘联邦学习选择合适的客户端参与训练，并且为参与训练的客户端设置合适的训练轮数，有效提升了全局模型精度和能量效率。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的自适应边缘联邦学习客户端调度方法的一种流程图；

图2是本发明实施例提供的自适应边缘联邦学习客户端调度方法的一种示意图；

图3是本发明实施例提供的自适应边缘联邦学习客户端调度装置的一种结构示意图；

图4是本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

图1是本发明实施例提供的自适应边缘联邦学习客户端调度方法的一种流程图，图2是本发明实施例提供的自适应边缘联邦学习客户端调度方法的一种示意图。如图1-2所示，本发明实施例提供一种自适应边缘联邦学习客户端调度方法，应用于服务器，包括：

S1、初始化生成结构相同的第一神经网络与第二神经网络；

S2、令，获取客户端在第/>轮训练时的状态向量集合/>，状态向量集合/>包括各个客户端在第/>轮训练时的状态向量；

S3、将状态向量集合输入至第一神经网络，得到客户端在第/>轮训练时的动作向量集合/>，动作向量集合/>包括各个客户端在第/>轮训练时的动作向量；

S4、将待训练的全局模型广播至各个客户端后，以使各客户端基于自身对应的动作向量和本地数据对待训练的全局模型进行训练，得到本地模型；

S5、获取多个本地模型的参数并聚合，得到新的全局模型；

S6、判断新的全局模型的当前精度是否满足预设条件；若是，则将新的全局模型作为训练完成的全局模型；反之，则令，使用第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值，并根据损失值调整第一神经网络的参数后，根据/>的取值更新第二神经网络，并将新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至第一神经网络后，返回上述将待训练的全局模型广播至各个客户端的步骤；其中/>表示第/>轮训练的奖励。

具体地，本实施例中服务器初始化生成结构相同的第一神经网络和第二神经网络，由于客户端的状态主要与自身的计算能力、网络条件、本地数据等因素有关，因此服务器在选择参与训练的客户端之前，先获取各个客户端在第轮训练时的状态向量，形成客户端在第/>轮训练时的状态向量集合/>，其中，客户端/>在第/>轮训练时的状态向量为：，/>表示计算能力，/>表示网络信号强度，/>表示本地数据的数据量大小，/>表示本地数据的异质性程度，/>表示电池状态。

接着，服务器将状态向量集合输入第一神经网络，通过第一神经网络预测客户端在第t轮训练时的动作向量集合/>，动作向量集合/>包括各个客户端在第/>轮训练时的动作向量即各个客户端可以采取的动作，可选地，客户端/>在第/>轮训练时的动作向量为：，其中，/>表示客户端/>在第/>轮训练时的最优训练轮数，/>表示客户端/>是否参与第/>轮训练，/>时表示客户端/>参与第/>轮训练，/>时表示客户端/>不参与第/>轮训练。

步骤S4～S5中，服务器将待训练的全局模型广播至所有客户端，对于客户端，若其动作向量中/>，则客户端/>利用本地数据对待训练的全局模型进行第/>轮的训练，得到本地模型。进一步地，参与第/>轮训练的客户端将自身的本地模型的参数上传至服务器，由服务器聚合后得到新的全局模型。

步骤S6中，服务器计算新的全局模型的当前精度是否达到预设条件；若是，则获得训练完成的全局模型；若否，令，并根据预设损失函数的损失值调整第一神经网络的参数，而后获取客户端第/>轮训练时的状态向量集合/>以筛选参与第/>轮训练的客户端，直至每轮训练时聚合得到的新的全局模型的当前精度满足预设条件。

可选地，获取多个本地模型的参数并聚合，得到新的全局模型的步骤，包括：

本实施例中，初始化生成结构相同的第一神经网络与第二神经网络的步骤之后，还包括：

初始化回放缓存；

当新的全局模型的当前精度不满足预设条件时，使用第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值的步骤之前，还包括：

计算第轮训练的奖励/>；

在获取客户端第轮训练时的状态向量集合/>后，将经验/>存入回放缓存。

其中，按照如下公式计算第轮训练的奖励/>：

；

进一步地，上述步骤S6中，当新的全局模型的当前精度不满足预设条件时，使用第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值，并根据损失值调整第一神经网络的参数后，根据t的取值更新第二神经网络，并将新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至第一神经网络后，返回上述将待训练的全局模型广播至各个客户端的步骤，包括：

S601、从回放缓存中随机采样经验；

S602、利用经验和第二神经网络，计算第i轮训练的Q值：

；

其中，表示第二神经网络的函数，/>表示第二神经网络的参数，表示使/>取得最大值的动作/>，/>表示第/>轮训练的奖励，/>表示预设折扣因子；

S603、基于第i轮训练的Q值以及预设损失函数，计算第一神经网络的损失值，并根据损失值调整第一神经网络的参数；

S604、根据的取值更新第二神经网络；

S605、将新的全局模型作为待训练的全局模型、将客户端第轮训练时的状态向量集合/>输入至第一神经网络后，返回上述将待训练的全局模型广播至各个客户端的步骤。

可选地，根据的取值更新第二神经网络的步骤，包括：

根据训练轮数，每间隔C轮将第一神经网络的参数复制给第二神经网络。

应当理解，本实施例中第二神经网络为目标网络，其作用是为提高训练过程的稳定性，避免因为不断更新神经网络的参数而导致Q值不稳定。

图3是本发明实施例提供的自适应边缘联邦学习客户端调度装置的一种结构示意图。如图3所示，本发明实施例提供一种自适应边缘联邦学习客户端调度装置，应用于服务器，包括：

初始化模块310，用于初始化生成结构相同的第一神经网络与第二神经网络；

获取模块320，令，用于获取客户端在第/>轮训练时的状态向量集合/>，状态向量集合/>包括各个客户端在第/>轮训练时的状态向量；

输入模块330，用于将状态向量集合输入至第一神经网络，得到客户端在第/>轮训练时的动作向量集合/>，动作向量集合/>包括各个客户端在第/>轮训练时的动作向量；

广播模块340，用于将待训练的全局模型广播至各个客户端后，以使各客户端基于自身对应的动作向量和本地数据对待训练的全局模型进行训练，得到本地模型；

聚合模块350，用于获取多个本地模型的参数并聚合，得到新的全局模型；

判断模块360，用于判断新的全局模型的当前精度是否满足预设条件；若是，则将新的全局模型作为训练完成的全局模型；反之，则令，使用第二神经网络及随机采样得到的经验/>计算预设损失函数的损失值，并根据损失值调整第一神经网络的参数后，根据/>的取值更新第二神经网络，并将新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至第一神经网络后，返回广播模块340执行将待训练的全局模型广播至各个客户端的步骤；其中/>表示第/>轮训练的奖励。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

初始化生成结构相同的第一神经网络与第二神经网络；

将待训练的全局模型广播至各个客户端后，以使各客户端基于自身对应的动作向量和本地数据对全局模型进行训练，得到本地模型；

获取多个所述本地模型的参数并聚合，得到新的全局模型；

与现有技术相比，本发明的有益效果在于：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的方法可以应用于电子设备。具体的，该电子设备可以为：台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定，任何可以实现本发明的电子设备，均属于本发明的保护范围。

对于装置/电子设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，本发明实施例的装置、电子设备及存储介质分别是应用上述自适应边缘联邦学习客户端调度方法的装置、电子设备及存储介质，则上述自适应边缘联邦学习客户端调度方法的所有实施例均适用于该装置、电子设备及存储介质，且均能达到相同或相似的有益效果。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种自适应边缘联邦学习客户端调度方法，其特征在于，应用于服务器，包括：

初始化生成结构相同的第一神经网络与第二神经网络；

获取多个所述本地模型的参数并聚合，得到新的全局模型；

判断所述新的全局模型的当前精度是否满足预设条件；若是，则将所述新的全局模型作为训练完成的全局模型；反之，则令，使用所述第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值，并根据所述损失值调整所述第一神经网络的参数后，根据/>的取值更新所述第二神经网络，并将所述新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至所述第一神经网络后，返回所述将待训练的全局模型广播至各个客户端的步骤；其中/>表示第/>轮训练的奖励。

2.根据权利要求1所述的自适应边缘联邦学习客户端调度方法，其特征在于，所述各个客户端在第轮训练时的状态向量为：/>，其中，/>表示第/>个客户端，/>表示计算能力，/>表示网络信号强度，/>表示本地数据的数据量大小，表示本地数据的异质性程度，/>表示电池状态。

3.根据权利要求2所述的自适应边缘联邦学习客户端调度方法，其特征在于，所述各个客户端在第轮训练时的动作向量为：/>，其中，/>表示客户端/>在第/>轮训练时的最优训练轮数，/>表示客户端/>是否参与第/>轮训练，/>时表示客户端/>参与第/>轮训练，/>时表示客户端/>不参与第/>轮训练。

4.根据权利要求1所述的自适应边缘联邦学习客户端调度方法，其特征在于，获取多个所述本地模型的参数并聚合，得到新的全局模型的步骤，包括：

5.根据权利要求1所述的自适应边缘联邦学习客户端调度方法，其特征在于，初始化生成结构相同的第一神经网络与第二神经网络的步骤之后，还包括：

初始化回放缓存；

计算第轮训练的奖励/>；

6.根据权利要求5所述的自适应边缘联邦学习客户端调度方法，其特征在于，按照如下公式计算第轮训练的奖励/>：

；

7.根据权利要求6所述的自适应边缘联邦学习客户端调度方法，其特征在于，当所述新的全局模型的当前精度不满足预设条件时，使用所述第二神经网络、随机采样得到的经验及预设损失函数计算第一神经网络的损失值，并根据所述损失值调整所述第一神经网络的参数后，根据/>的取值更新所述第二神经网络，并将所述新的全局模型作为待训练的全局模型、将客户端第/>轮训练时的状态向量集合/>输入至所述第一神经网络后，返回所述将待训练的全局模型广播至各个客户端的步骤，包括：

从所述回放缓存中随机采样经验；

利用所述经验和所述第二神经网络，计算第i轮训练的Q值：

；

其中，表示第二神经网络的函数，/>表示第二神经网络的参数，/>表示使/>取得最大值的动作/>，/>表示第/>轮训练的奖励，/>表示预设折扣因子；

根据的取值更新所述第二神经网络；

8.根据权利要求7所述的自适应边缘联邦学习客户端调度方法，其特征在于，根据的取值更新所述第二神经网络的步骤，包括：

9.一种自适应边缘联邦学习客户端调度装置，其特征在于，应用于服务器，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。