CN116050540B

CN116050540B - 一种基于联合双维度用户调度的自适应联邦边缘学习方法

Info

Publication number: CN116050540B
Application number: CN202310050202.6A
Authority: CN
Inventors: 潘春雨; 张九川; 李学华; 姚媛媛
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-09-22
Anticipated expiration: 2043-02-01
Also published as: CN116050540A

Abstract

本发明提供一种基于联合双维度用户调度的自适应联邦边缘学习方法，包括：基于损失函数和训练周期，获取模型训练的评估效率；基于所述评估效率，获取批量数据，基于所述批量数据，获取训练后的初始模型；对所述初始模型进行筛选，获取最终训练后的模型。本发明能够进一步提高联邦学习方法的准确率和效率。

Description

一种基于联合双维度用户调度的自适应联邦边缘学习方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于联合双维度用户调度的自适应联邦边缘学习方法。

背景技术

随着移动通信和物联网的发展，智能手机和物联网传感器等设备产生的数据量呈***式增长的趋势。机器学习模型需要大量丰富的数据集来进行训练。一方面，传统集中式的机器学习算法，需要将大量数据上传至中心节点，大规模的数据传输将导致较大的传输时间和拥塞。另一方面，传统分布式机器学习算法要求训练数据集进行集中上传，统一划分后再分配到多个工作节点，容易造成隐私泄露。

联邦边缘学习(Federated Edge Learning,FEL)的提出为上述问题提供了解决方案。在FEL中，模型训练是在边缘设备上执行的，并配有多路访问边缘计算中心服务器。FEL通过以下两个步骤实现迭代更新：1)局部模型训练：智能边缘设备利用本地数据集训练局部模型后上传模型参数至中心服务器。2)全局模型聚合：中心服务器聚合本地上传的局部模型参数形成全局模型后进行更新，然后将更新后的模型下发给智能边缘设备开始新一轮迭代。与传统的集中式和分布式机器学习算法相比，FEL的迭代训练过程无需智能边缘设备上传本地数据，因此对于数据的隐私保护更具潜力。

然而，智能边缘设备的计算能力和本地数据集异构以及不平衡对全局模型的收敛速度和全局模型精度提出了严峻挑战。近年来，已有相关工作对FEL的迭代过程进行了优化研究。现有研究大多采用随机梯度下降算法(Stochastic Gradient Descent,SGD)进行局部模型训练。文献通过信息编码设计提高联邦学习中的冗余率，以减小基于局部模型训练时间较长设备造成的影响。

然而上述研究均没有考虑由于智能设备计算能力和数据集异构造成的训练完成时间差异，等待所有边缘设备完成局部模型训练将延迟全局模型聚合进程。此外，鉴于设备收集的数据取决于本地环境和设备的自身属性，数据集通常较为庞大，并且数据分布并不平衡。本地的数据集因设备而异，呈现出不均匀的分布状态，需要考虑不同设备的数据属性来进行设备调度。因此，需要设计一种兼顾设备计算能力、数据集分布特性的方法，来增强算法的模型训练精度和收敛速度。

梯度下降算法中，每次迭代都需要对整个数据集上样本的梯度进行计算，当数据集样本数量较大时，每次迭代都会耗费大量的时间和计算资源。公式如下：

其中，w_t表示第t次迭代的模型参数，表示损失函数在w_t处的梯度。η表示学习率，学习率可以表示在梯度下降过程中，整个损失函数在梯度负方向上移动的距离。

随机梯度下降每次仅选择一个样本计算随机梯度，因此每次梯度更新时间大大减小。公式如下：

但是一个样本的随机梯度并不能代表整个数据集的梯度，因此随机梯度下降法并不是每次迭代都沿着全梯度的负方向进行，收敛过程相对较为抖动。由于单个样本的随机梯度和所有样本的全梯度相差较大，所以使用随机梯度下降算法，收敛所需的迭代次数大大增加。

介于梯度下降和随机梯度下降算法的折中就是小批量梯度下降算法。该算法每次选取一部分样本的梯度更新模型参数，更新公式如下：

其中ξ_t表示第t次迭代时选取的一个批量的随机样本，假设批量大小为m，则可得：

然而，传统的小批量梯度下降算法每次迭代采用的批量大小需要在训练开始前进行配置，且在训练过程中始终保持不变。随着局部模型训练进程的推进，模型精度逐渐提高，依据模型精度自适应的选择批量大小有利于提高收敛速度。

另一方面，在主动学习中，当选择的样本具备多样化和特征丰富等特点时，模型可以使用较少的数据进行训练。因此，在FEL中，可以参考主动学习选择多样化的数据进行训练，当设备中存在非独立同分布的数据时，选择多样性更高的数据可以提高收敛速度与精度。

目前，现有的联邦边缘学习局部模型精度以及本地模型训练时间，对全局模型聚合以及模型更新过程会产生重大影响，因此需要在局部模型训练过程中自动调整梯度下降抽取的批量大小，在提高模型精度的同时，加速算法收敛；

现有的联邦边缘学习没有考虑由于智能设备计算能力和数据集异构造成的训练完成时间差异，等待所有边缘设备完成局部模型训练将延迟全局模型聚合进程；设备收集的数据取决于本地环境和设备的自身属性，数据集通常较为庞大，并且数据非独立同分布。因此本申请针对用户数据的非独立同分布特性，提出基于任务完成时间和数据自身属性的双维度用户调度策略，降低等待时间的同时进一步提高全局模型精度和收敛速度。

发明内容

为解决上述技术问题，本发明提出了一种基于联合双维度用户调度的自适应联邦边缘学习方法，能够进一步提高联邦学习方法的准确率和效率。

为实现上述目的，本发明提供了一种基于联合双维度用户调度的自适应联邦边缘学习方法，包括：

S1.基于损失函数和训练周期，获取模型训练的评估效率；

S2.基于所述评估效率，获取批量数据，基于所述批量数据，获取训练后的初始模型；

S3.对所述初始模型进行筛选，将筛选后的模型放回S1中重复迭代，直至若干次迭代过程完成后，获取最终训练后的模型。

可选地，获取模型训练的所述评估效率包括：

基于所述损失函数，获取本次迭代损失和若干次前的损失变化量；

基于所述损失变化量和所述训练周期，获取所述评估效率。

可选地，所述损失变化量为：

Δloss＝f(x-n)-f(x)

其中，Δloss为损失变化量，f(x-n)为之前n次迭代的损失值，f(x)为本次迭代的损失值。

可选地，所述评估效率为：

其中，e为评估效率，Δloss为损失变化量，t为训练周期。

可选地，获取所述批量数据包括：

基于所述评估效率，预设批量切换的触发条件；

将本地数据随机分配为数据量大小不同的批量存放在列表中，选择所述列表中的最小批量开始首次迭代，在每轮迭代结束后计算所述评估效率，当获取的所述评估效率满足触发批量切换的所述触发条件时，切换至预设数值的批量作为所述批量数据。

可选地，所述触发条件包括：第一触发条件、第二触发条件和第三触发条件；

所述第一触发条件为：第n次的所述评估效率小于第n-1次的所述评估效率；

所述第二触发条件为：当前所述评估效率低于历史评估效率；

所述第三触发条件为：当前所述评估效率为负数。

可选地，切换至预设数值的批量作为所述批量数据包括：

当获取的所述评估效率满足所述第一触发条件时，切换至第一预设数值的批量作为所述批量数据；

当获取的所述评估效率满足所述第二触发条件时，切换至第二预设数值的批量作为所述批量数据；

当获取的所述评估效率满足所述第三触发条件时，切换至第三预设数值的批量作为所述批量数据；

所述第一预设数值大于所述第二预设数值，所述第三预设数值大于所述第一预设数值。

可选地，对所述初始模型进行筛选包括：

当所述初始模型来源于低于预设计算能力的边缘设备时，剔除所述初始模型；

对剔除后的剩余模型进行多样性分析，当模型的多样性指数低于阈值时，剔除该模型对应的设备；反之，保留。

可选地，当所述初始模型来源于低于预设计算能力的边缘设备时，剔除所述初始模型包括：

从一组计算能力异构的边缘设备子集中获取局部所述初始模型的训练参数，根据不同设备性能设置最长时间阈值；

对边缘设备子集中每一个设备的局部所述初始模型训练时间与设备i规定的所述最长时间阈进行比较；若局部训练时间不大于设备i规定的所述最长时间阈值，则在设备子集中将设备i保留；若局部训练时间大于设备i规定的所述最长时间阈值，则在设备子集中将设备i剔除；所述边缘设备子集中符合阈值要求的设备被更新为新子集M₁。

可选地，对剔除后的剩余模型进行多样性分析包括：

遍历所述新子集M₁中的每一个设备的多样性指数g，并保存到多样性指数数组G中；然后将G中的多样性指数从大到小排列，并根据多样性约束在数组G中从大到小筛选；若数组G中设备i的多样性指数g在多样性约束/>之内，则在所述新子集M₁中将设备i保留；若数组G中设备i的多样性指数g在多样性约束/>之外，则在所述新子集M₁中剔除设备i；最后输出更新后的设备子集M₂，并将此用户调度设置运用在当前迭代的联邦学习中。

与现有技术相比，本发明具有如下优点和技术效果：

本发明基于评估效率，获取批量数据，更加准确的确定批量数据，从而动态平衡模型的准确率和效率，进一步能够提高联邦学习算法的准确率和效率。

通过本发明获取最终训练后的模型，能更加准确的确定用于联邦学习聚合的模型，进一步能够提高联邦学习算法的准确率和效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的自适应联邦边缘学习方法流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本发明提供了一种基于联合双维度用户调度的自适应联邦边缘学习方法，包括：

S1.基于损失函数和训练周期，获取模型训练的评估效率；

S3.对所述初始模型进行筛选，将筛选后的模型放回S1中重复迭代，直至若干次迭代过程完成后，也就是训练结果的成功率达到一定高度时，此时筛选后的模型为最终训练后的模型。

进一步地，获取模型训练的所述评估效率包括：

基于所述损失变化量和所述训练周期，获取所述评估效率。

进一步地，获取所述批量数据包括：

基于所述评估效率，预设批量切换的触发条件；

进一步地，所述触发条件包括：第一触发条件、第二触发条件和第三触发条件；

所述第三触发条件为：当前所述评估效率为负数。

进一步地，切换至预设数值的批量作为所述批量数据包括：

进一步地，对所述初始模型进行筛选包括：

进一步地，当所述初始模型来源于低于预设计算能力的边缘设备时，剔除所述初始模型包括：

进一步地，对剔除后的剩余模型进行多样性分析包括：

实施例

传统集中式的机器学习算法，需要将大量数据上传至中心节点，大规模的数据传输将导致较大的传输时间和拥塞。此外，传统分布式机器学习算法要求训练数据集进行集中上传，统一划分后再分配到多个工作节点，容易造成隐私泄露。联合双维度用户调度策略的自适应动态批量梯度下降算法的提出为上述问题提供了解决方案。例如在工业互联网的大背景下，传统工厂拥有转换成智能工厂的需求，但由于工厂的生产与制造数据属于商业机密，对于数据的隐私和安全具有较高的要求。因此本实施例的算法使用工厂本地的数据训练工厂的智能生产模型，保留其机密数据在工厂的本地服务器中，只需传输智能生产模型至云端服务器，大幅减少数据泄漏的风险。此外，由于单一智能工厂的数据具有数据量较少、数据结构较为单一等弊端，在智能生产模型的训练过程中会对模型的准确率产生较大影响，因此本实施例的算法可以将多个同类型智能工厂训练出的智能生产模型上传到云端服务器进行联邦学习聚合，可以大幅提升单一工厂中智能生产模型的准确率。因此，在实际应用中采用本实施例的算法既可以保障安全又可以保证效率。

如图1所示，本实施例提供了一种基于联合双维度用户调度的自适应联邦边缘学习方法，其步骤具体包括：

1.自适应动态批量梯度下降算法

边缘设备：根据损失函数和运行时间确定评估效率，损失函数能够反映历史批量数据的模型的准确率，模型是通过样本和标签拟合得到的(如果说假设一个简化的公式为y＝Ax+B，则样本就是其中的x，标签就是其中的y，A和B就是模型)；根据历史批量数据、评估效率和历史评估效率确定批量数据(batchsize)，批量数据用于确定动态更新后的模型。例如，智能工厂的本地数据包括样本数据和标签，因此工厂可以在本地训练出智能生产模型，智能工厂相当于边缘。

步骤(1)：损失预测：依据梯度下降算法收敛速度的次线性特性，通过损失函数，计算出本次迭代损失与之前n次损失的变化量Δloss。

Δloss＝f(x-n)-f(x)。

其中，Δloss为损失变化量，f(x-n)为之前n次迭代的损失值，f(x)为本次迭代的损失值。这个公式的意思是本次迭代的损失值与之前n次迭代的损失值之间的变化量，f()是损失函数，f(x)代表本次迭代的损失值，f(x-n)代表之前n次迭代的损失值。

步骤(2)：效率评估：训练周期t为常数，是评估效率的时间阈值，可以根据需要设定。算法效率e用来评估前n次迭代在相同批量下的模型训练效果，由损失变化量和训练周期确定。

步骤(3)：动态拟合梯度下降算法通过效率评估参数，确定批量切换的触发条件。将本地数据随机分配为数据量大小不同的批量存放在列表L中，算法选择最小批量开始首次迭代。每轮迭代结束后计算算法效率e。直到第n次的算法效率e小于第n-1次的算法效率时，触发批量切换至较大批量作为批量数据。为了避免局部最优，当前算法效率低于历史效率时，算法允许切换回较小批量作为批量数据。当前算法效率为负数时，证明当前批量无法使算法正常收敛，算法应切换至更大批量作为批量数据，同时应避免在后续训练过程中再次访问该批量数据，防止算法抖动。

2.双维度用户调度策略

中心服务器接收来自多个边缘设备的模型；中心服务器剔除部分边缘设备的模型，模型用于联邦学习聚合。例如，多个同类型智能工厂将各自训练好的智能生产模型上传到云端，模型经过联邦学习聚合后下放到各个智能工厂中，用于新一轮的联邦边缘学习。

中心服务器剔除的方法包括以下两种：

方法一：减少边缘设备的差异性，目的是提高速度，减少计算时间。当模型来源于计算能力较弱的边缘设备时，剔除该模型；反之，保留。

主要过程是该算法首先从一组计算能力异构的边缘设备子集M中获取局部模型训练参数，根据不同设备性能设置用户调度策略规定的最长时间阈值数组T。下一步对M中每一个设备的局部模型训练时间与设备i规定的最长时间阈值比较。若局部训练时间小于或等于阈值，则在设备子集M中将设备i保留；若局部训练时间大于阈值，则在设备子集M中将设备i剔除。子集M中符合阈值要求的设备被更新为新子集M₁。

设备中会存储局部模型和数据集，例如在联邦边缘学习中剔除设备i，则设备i中的局部模型I就不会参与到联邦学习的联邦聚合中。想要剔除设备i，就不需要考虑模型I。

方法二：提升边缘设备数据集的多样性，目的是提高准确率。当模型的多样性指数低于阈值时，剔除该模型；反之，保留。可选的多样性指数可以是基尼-辛普森指数，也可以是香农熵指数，本方案不做限定。

主要过程是遍历子集M₁中的每一个设备中数据集的多样性指数g，并保存到多样性指数数组G中。然后将G中的多样性指数从大到小排列，并根据多样性约束在数组G中从大到小筛选。若数组G中设备i的多样性指数g在多样性约束/>之内，则在设备子集M₁中将设备i保留；若数组G中设备i的多样性指数g在多样性约束/>之外，则在设备子集M₁中剔除设备i。最后输出更新后的设备子集M₂，并将此用户调度设置运用在当前迭代的联邦学习中。

通过对每个设备中的数据集进行多样性分析，当模型的多样性指数低于阈值时，剔除该模型对应的设备；反之，保留。

基尼-辛普森指数的公式为：

其中C是类别总数，p_c是类别c的概率。

香农熵指数的公式为：

其中C是类别总数，p_c是类别c的概率。

综上，本实施例的主要技术方案为：

1.自适应动态批量梯度下降算法：边缘设备：根据损失函数和运行时间确定评估效率，损失函数能够反映历史批量数据的模型的准确率，模型是通过样本和标签拟合得到的；根据历史批量数据、评估效率和历史评估效率确定批量数据(batch size)，批量数据用于确定模型。

2.减少边缘设备的差异性，目的是提高速度，减少计算时间。当模型来源于计算能力较弱的边缘设备时，剔除该模型；反之，保留。

3.提升边缘设备数据集的多样性，目的是提高准确率。当模型的多样性指数低于阈值时，剔除该模型；反之，保留。可选的，多样性指数可以是基尼-辛普森指数，也可以是香农熵指数，本实施例不做限定。

本实施例的有益效果为：

1.更加准确的确定批量数据，从而动态平衡模型的准确率和效率，进一步能够提高联邦学习算法的准确率和效率。

2.更加准确的确定用于联邦学习聚合的模型，进一步能够提高联邦学习算法的准确率和效率。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于联合双维度用户调度的自适应联邦边缘学习方法，其特征在于，包括：

S1.基于损失函数和训练周期，获取模型训练的评估效率；

获取所述批量数据包括：

基于所述评估效率，预设批量切换的触发条件；

将本地数据随机分配为数据量大小不同的批量存放在列表中，选择所述列表中的最小批量开始首次迭代，在每轮迭代结束后计算所述评估效率，当获取的所述评估效率满足触发批量切换的所述触发条件时，切换至预设数值的批量作为所述批量数据；

所述触发条件包括：第一触发条件、第二触发条件和第三触发条件；

所述第一触发条件为：第次的所述评估效率小于第/>次的所述评估效率；

所述第三触发条件为：当前所述评估效率为负数；

切换至预设数值的批量作为所述批量数据包括：

所述第一预设数值大于所述第二预设数值，所述第三预设数值大于所述第一预设数值；

S3.对所述初始模型进行筛选，将筛选后的模型放回S1中重复迭代，直至若干次迭代过程完成后，获取最终训练后的模型；

对所述初始模型进行筛选包括：

对剔除后的剩余模型进行多样性分析，当模型的多样性指数低于阈值时，剔除该模型对应的边缘设备；反之，保留；

当所述初始模型来源于低于预设计算能力的边缘设备时，剔除所述初始模型包括：

从一组计算能力异构的边缘设备子集中获取局部所述初始模型的训练参数，根据不同边缘设备性能设置最长时间阈值；

对边缘设备子集中每一个边缘设备的局部所述初始模型训练时间与边缘设备规定的所述最长时间阈值进行比较；若局部训练时间不大于边缘设备/>规定的所述最长时间阈值，则在边缘设备子集中将边缘设备/>保留；若局部训练时间大于边缘设备/>规定的所述最长时间阈值，则在边缘设备子集中将边缘设备/>剔除；所述边缘设备子集中符合阈值要求的边缘设备被更新为新子集/>；

对剔除后的剩余模型进行多样性分析包括：

遍历所述新子集中的每一个边缘设备的多样性指数/>，并保存到多样性指数数组/>中；然后将/>中的多样性指数从大到小排列，并根据多样性约束/>在数组/>中从大到小筛选；若数组/>中边缘设备/>的多样性指数/>在多样性约束/>之内，则在所述新子集/>中将边缘设备/>保留；若数组/>中边缘设备/>的多样性指数/>在多样性约束/>之外，则在所述新子集/>中剔除边缘设备/>；最后输出更新后的边缘设备子集/>，并将此用户调度设置运用在当前迭代的联邦学习中。

2.根据权利要求1所述的基于联合双维度用户调度的自适应联邦边缘学习方法，其特征在于，获取模型训练的所述评估效率包括：

基于所述损失变化量和所述训练周期，获取所述评估效率。

3.根据权利要求2所述的基于联合双维度用户调度的自适应联邦边缘学习方法，其特征在于，所述损失变化量为：

其中，/>为损失变化量，/>为之前n次迭代的损失值，/>为本次迭代的损失值。

4.根据权利要求1所述的基于联合双维度用户调度的自适应联邦边缘学习方法，其特征在于，所述评估效率为：

其中，/>为评估效率，/>为损失变化量，t为训练周期。