CN116843016A

CN116843016A - 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质

Info

Publication number: CN116843016A
Application number: CN202310580633.3A
Authority: CN
Inventors: 李秀华; 徐国增; 李辉; 郝金隆; 程路熙; 蔡春茂; 范琪琳; 杨正益
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-10-03

Abstract

本发明公开一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质，方法步骤为：所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数w_i(k)，并通过基站上传到边缘服务器中；根据待聚合设备的本地数据量，所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；***包括边缘服务器和用户设备。介质存储有计算机程序。本发明综合考虑联邦学习过程中的能量消耗和任务模型的损失函数值来优化联邦聚合策略，在保证任务模型精度的同时减少能量的消耗。

Description

一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质

技术领域

本发明涉及移动边缘计算、强化学习和联邦学习技术领域，具体是一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质。

背景技术

近年来，随着计算机视觉、自然语言处理、推荐***等众多新技术的不断涌现，人工智能进入了蓬勃发展的时期。然而，由于数据孤岛和绿色通信等方面的问题，传统上以集中所有数据在一台设备上单独训练人工智能模型的方式，很难处理训练分布在各个移动设备上的数据。

移动边缘计算是一种具有潜力的新兴技术，它可以在本地处理数据，然后将计算任务卸载到网络边缘，通过在移动边缘计算网络中部署联邦学习框架，可以高效地以去中心化的方式训练分布在各个设备中的数据得到融合模型。

联邦学习被提出来构建基于多方数据的分布式机器学习模型。通常，联邦学习***包含至少一个参数服务器和许多工作设备。每个工作设备和参数服务器分别负责在本地更新模型和聚合模型。具体来说，每个工作设备在本地训练模型，然后将模型上传到参数服务器，参数服务器将接收到的模型根据某种策略加权进行聚合，然后将聚合后的模型发送给每个工作设备。每个工作设备和参数服务器之间传输的内容只包含模型参数，没有具体的数据，这样可以以去中心化的方式训练模型，这大大提高了训练效率并保护了所有设备的隐私。

然而，移动边缘计算网络中具有许多不同计算资源的设备，并且这些设备通常具有很大的不确定性，例如离线、断电、网络阻塞等情况，不同设备中的数据量分布是不均的，并且会随时间变化，不同设备的计算能力和续航时间也是不同的，这些都会导致模型收敛速度慢，训练能量消耗大。

发明内容

本发明的目的是提供一种移动边缘计算网络下基于强化学习的联邦学习方法，包括以下步骤：

1)确定当前加入联邦学习的用户设备；

所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；

2)每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数w_i(k)，并通过基站上传到边缘服务器中；

3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若存在不满足收敛条件的机器学习模型参数，则进入步骤4)，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；

4)所述边缘服务器选出n_t个用户设备作为待聚合设备；

根据待聚合设备的本地数据量，所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；

5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，令迭代次数k＝k+1，并返回步骤2)，直至获得训练完成的机器学习模型。

进一步，所述机器学习模型参数w_i(k)如下所示：

式中，w_i(k-1)为第k-1次迭代更新的机器学习模型参数；为第k-1次迭代更新的机器学习模型参数的一阶梯度；α为学习率。

进一步，机器学习模型参数聚合值如下所示：

式中，|D_i|为第i个用户设备的本地数据量；w_i(k_t,i)为第i个用户设备的机器学习模型参数；x_t,i∈{0,1}表示设备i是否参与第t轮聚合。N为用户设备数量。

进一步，基于动态异步联邦聚合算法，所述边缘服务器按照接收到机器学习模型参数的时间顺序，选出n_t个用户设备作为待聚合设备。

进一步，待聚合设备数量n_t通过动态异步联邦聚合算法确定。

进一步，确定待聚合设备数量n_t的步骤包括：

s1)将边缘服务器作为智能体，所述智能体获取来自用户设备的反馈信息，从而建立感知状态t为聚合轮数；ΔF_t为相邻两次聚合的全局损失函数差值；

其中，完成机器学习模型参数聚合所需的时间E_t、完成机器学习模型参数聚合所需的能量H_t、全局损失函数值F_t如下所示：

式中，为第i个用户设备对应的损失函数值；

第i个用户设备更新学习模型参数w_i(k)所需要的时间消耗的能量/>如下所示：

式中，κ、C、f_i分别为设备芯片架构的有效开关电容、单条数据训练所需要的CPU轮数、第i个用户设备上每批次数据量和设备CUP频率。

第i个用户设备将机器学习模型参数w_i(k)上传至边缘服务器所需要的时间消耗的能量/>如下所示：

式中，s、b_i、p_i、g_i、N₀分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。

s2)边缘服务器将感知状态s_t作为输入数据输入至预存储的深度神经网络中，得到具有最大奖励值r_t的动作a_t，将动作a_t作为待聚合设备数量。

进一步，所述深度神经网络的损失函数Loss(θ)如下所示：

式中，为执行动作a的价值；/>为期望；

目标价值y_j如下所示：

式中，r_j为执行动作aj的奖励；s_j+1为感知状态；γ为衰减因子；θ为深度神经网络参数；a^′为s_j+1的动作空间；

进一步，所述深度神经网络的损失函数梯度如下所示：

式中，为奖励梯度。

应用权利要求1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的***，所述***用于完成机器学习模型的训练，得到满足预设要求的机器学习模型；

所述***包括边缘服务器和若干用户设备；

工作时，所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；

每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数w_i(k)，并通过基站上传到边缘服务器中；

所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；

若存在不满足收敛条件的机器学习模型参数，则选出n_t个用户设备作为待聚合设备，并对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；

所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，继续利用本地数据对机器学习模型进行训练。

一种计算机可读存储介质，其上存储有计算机程序；

所述计算机程序被调用时，执行上述方法的步骤。

本发明的技术效果是毋庸置疑的，本发明内容是提供一种移动边缘计算网络下基于强化学习的联邦学习方法，具有以下有益效果：

在优化联邦聚合策略时考虑了网络的动态性和不确定性，使得***能够在多数网络环境中正常稳定运行。

进一步的，本发明综合考虑联邦学习过程中的能量消耗和任务模型的损失函数值来优化联邦聚合策略，在保证任务模型精度的同时减少能量的消耗。

更进一步的，本发明所使用的联邦聚合策略基于强化学习算法，可以满足不同网络和用户的需求，并在使用中可以同时对算法网络优化，使***取得更好的效果。

附图说明

图1为***模型图；

图2为强化学习的结构图；

图3为基于强化学习的联邦学习流程图；

图4为强化学习算法流程图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，包括以下步骤：

1)确定当前加入联邦学习的用户设备；

4)所述边缘服务器选出n_t个用户设备作为待聚合设备；

实施例2：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1，进一步的，所述机器学习模型参数w_i(k)如下所示：

实施例3：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-2任一项，进一步的，机器学习模型参数聚合值如下所示：

实施例4：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-3任一项，进一步的，基于动态异步联邦聚合算法，所述边缘服务器按照接收到机器学习模型参数的时间顺序，选出n_t个用户设备作为待聚合设备。

实施例5：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-4任一项，进一步的，待聚合设备数量n_t通过动态异步联邦聚合算法确定。

实施例6：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-5任一项，进一步的，确定待聚合设备数量n_t的步骤包括：

式中，为第i个用户设备对应的损失函数值；

实施例7：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-6任一项，进一步的，所述深度神经网络的损失函数Loss(θ)如下所示：

式中，为执行动作a的价值；/>为期望；

目标价值y_j如下所示：

实施例8：

参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-7任一项，进一步的，所述深度神经网络的损失函数梯度如下所示：

式中，为奖励梯度。

实施例9：

应用实施例1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的***，所述***用于完成机器学习模型的训练，得到满足预设要求的机器学习模型；

所述***包括边缘服务器和若干用户设备；

实施例10：

一种计算机可读存储介质，其上存储有计算机程序；

所述计算机程序被调用时，执行实施例1-8任一项所述方法的步骤。

实施例11：

一种移动边缘计算网络下基于强化学习的联邦学习方法，主要包括以下步骤：

1)当前时刻t,开始进行联邦学习，从网络中读取边缘基站信号范围内N个要进行联邦学习的设备。

2)加入联邦学习的每个设备在本地训练更新模型参数w_i(k)，具体的更新规则如下：

更新学习模型参数w_i(k)所需要的时间可以通过CPU的周期来计算：

同样计算出每个设备消耗的能量：

随后将更新好的参数通过基站上传到边缘服务器中，根据信息传输模型计算出上传消耗的时间和能量：

3)根据动态异步联邦聚合算法，按收到各个设备上传模型参数的顺序，选择n_t个设备上传的参数在边缘服务器中对这些模型参数根据对应设备的数据量|D_i|进行加权聚和:

然后边缘服务器将更新后的模型参数发送给每个加入联邦学习的设备。同时得到全局损失函数值：

同时根据每轮参与聚合的具体设备可以计算出每一轮联邦聚合所需要的时间和能量：

4)在进行模型聚合时，基于强化学习算法DQN训练得到确定n_t的策略，确定n_t具体的值。

4.1)将边缘服务器作为一个智能体，设备所处的移动边缘计算网络作为环境。智能体从来自设备反馈的消息中感知状态其中包括聚合次数，能量和时间的消耗以及模型的损失函数值，然后输出相应状态下每个动作的值，即本轮参与联邦聚合的设备数量，选择一个最大价值的动作a_t来执行并获得奖励r_t。在状态s_t下执行a_t后的实际价值为/>

4.2)使用一个深度神经网络来制定一个策略π，当输入当前状态时，输出具有最大价值的动作。当选择执行这个动作后，智能体会获得奖励：

通过最大化奖励来减小联邦学习的能量消耗。

4.3)智能体通过策略π随机在对应状态下选择动作，返回奖励。完成本轮聚合后，进入下一轮聚合，重复该步骤。

4.4)智能体收集到一定经验后，对智能体的策略网络进行训练：

其中目标价值是通过价值函数进行更新得来的：

智能体按照随街梯度下降算法来更新网络的参数：

5)根据上述强化学习的算法，动态更新联邦聚合策略，并采用该策略进行联邦聚合。

5.1)在边缘服务器中，当设备上传聚合的请求时，智能体通过上述训练更新的网络，通过预测价值函数来选择参与聚合的设备数量执行联邦聚合。

5.2)在执行动作后，更新当前联邦学习环境。

5.3)将边缘服务器将聚合后的参数广播给每个参与联邦学习的设备。

Claims

1.一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，包括以下步骤：

1)确定当前加入联邦学习的所述用户设备。

4)所述边缘服务器选出n_t个用户设备作为待聚合设备；

2.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，所述机器学习模型参数w_i(k)如下所示：

3.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，机器学习模型参数聚合值如下所示：

4.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，基于动态异步联邦聚合算法，所述边缘服务器按照接收到机器学习模型参数的时间顺序，选出n_t个用户设备作为待聚合设备。

5.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，待聚合设备数量n_t通过动态异步联邦聚合算法确定。

6.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，确定待聚合设备数量n_t的步骤包括：

s1)将边缘服务器作为智能体，所述智能体获取来自用户设备的反馈信息，从而建立感知状态t为聚合轮数；ΔF_t为相邻两次聚合的全局损失函数差值；/>为能量聚合值；

式中，为第i个用户设备对应的损失函数值；

7.根据权利要求6所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，所述深度神经网络的损失函数Loss(θ)如下所示：

式中，Q(s_j,a；θ)为执行动作a的价值；为期望；

目标价值y_j如下所示：

式中，r_j为执行动作aj的奖励；s_j+1为感知状态；γ为衰减因子；θ为深度神经网络参数；a′为s_j+1的动作空间。

8.根据权利要求6所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，所述深度神经网络的损失函数梯度如下所示：

式中，为奖励梯度。/>为执行动作a的价值。

9.应用权利要求1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的***，其特征在于，所述***用于完成机器学习模型的训练，得到满足预设要求的机器学习模型；

所述***包括边缘服务器和若干用户设备；

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；

所述计算机程序被调用时，执行权利要求1-8任一项所述方法的步骤。