CN116843016A - 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质 - Google Patents
一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质 Download PDFInfo
- Publication number
- CN116843016A CN116843016A CN202310580633.3A CN202310580633A CN116843016A CN 116843016 A CN116843016 A CN 116843016A CN 202310580633 A CN202310580633 A CN 202310580633A CN 116843016 A CN116843016 A CN 116843016A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- learning model
- model parameters
- user equipment
- federal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002787 reinforcement Effects 0.000 title claims abstract description 33
- 238000010801 machine learning Methods 0.000 claims abstract description 114
- 230000002776 aggregation Effects 0.000 claims abstract description 28
- 238000004220 aggregation Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims abstract description 7
- 238000005304 joining Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000006116 polymerization reaction Methods 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- OIGNJSKKLXVSLS-VWUMJDOOSA-N prednisolone Chemical compound O=C1C=C[C@]2(C)[C@H]3[C@@H](O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 OIGNJSKKLXVSLS-VWUMJDOOSA-N 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 239000003990 capacitor Substances 0.000 claims description 2
- 238000005265 energy consumption Methods 0.000 abstract description 6
- 230000004075 alteration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质,方法步骤为:所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;根据待聚合设备的本地数据量,所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;***包括边缘服务器和用户设备。介质存储有计算机程序。本发明综合考虑联邦学习过程中的能量消耗和任务模型的损失函数值来优化联邦聚合策略,在保证任务模型精度的同时减少能量的消耗。
Description
技术领域
本发明涉及移动边缘计算、强化学习和联邦学习技术领域,具体是一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质。
背景技术
近年来,随着计算机视觉、自然语言处理、推荐***等众多新技术的不断涌现,人工智能进入了蓬勃发展的时期。然而,由于数据孤岛和绿色通信等方面的问题,传统上以集中所有数据在一台设备上单独训练人工智能模型的方式,很难处理训练分布在各个移动设备上的数据。
移动边缘计算是一种具有潜力的新兴技术,它可以在本地处理数据,然后将计算任务卸载到网络边缘,通过在移动边缘计算网络中部署联邦学习框架,可以高效地以去中心化的方式训练分布在各个设备中的数据得到融合模型。
联邦学习被提出来构建基于多方数据的分布式机器学习模型。通常,联邦学习***包含至少一个参数服务器和许多工作设备。每个工作设备和参数服务器分别负责在本地更新模型和聚合模型。具体来说,每个工作设备在本地训练模型,然后将模型上传到参数服务器,参数服务器将接收到的模型根据某种策略加权进行聚合,然后将聚合后的模型发送给每个工作设备。每个工作设备和参数服务器之间传输的内容只包含模型参数,没有具体的数据,这样可以以去中心化的方式训练模型,这大大提高了训练效率并保护了所有设备的隐私。
然而,移动边缘计算网络中具有许多不同计算资源的设备,并且这些设备通常具有很大的不确定性,例如离线、断电、网络阻塞等情况,不同设备中的数据量分布是不均的,并且会随时间变化,不同设备的计算能力和续航时间也是不同的,这些都会导致模型收敛速度慢,训练能量消耗大。
发明内容
本发明的目的是提供一种移动边缘计算网络下基于强化学习的联邦学习方法,包括以下步骤:
1)确定当前加入联邦学习的用户设备;
所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;
2)每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;
3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断,若存在不满足收敛条件的机器学习模型参数,则进入步骤4),若所有机器学习模型参数均满足收敛条件,则机器学习模型训练完成;
4)所述边缘服务器选出nt个用户设备作为待聚合设备;
根据待聚合设备的本地数据量,所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;
5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数,更新机器学习模型,令迭代次数k=k+1,并返回步骤2),直至获得训练完成的机器学习模型。
进一步,所述机器学习模型参数wi(k)如下所示:
式中,wi(k-1)为第k-1次迭代更新的机器学习模型参数;为第k-1次迭代更新的机器学习模型参数的一阶梯度;α为学习率。
进一步,机器学习模型参数聚合值如下所示:
式中,|Di|为第i个用户设备的本地数据量;wi(kt,i)为第i个用户设备的机器学习模型参数;xt,i∈{0,1}表示设备i是否参与第t轮聚合。N为用户设备数量。
进一步,基于动态异步联邦聚合算法,所述边缘服务器按照接收到机器学习模型参数的时间顺序,选出nt个用户设备作为待聚合设备。
进一步,待聚合设备数量nt通过动态异步联邦聚合算法确定。
进一步,确定待聚合设备数量nt的步骤包括:
s1)将边缘服务器作为智能体,所述智能体获取来自用户设备的反馈信息,从而建立感知状态t为聚合轮数;ΔFt为相邻两次聚合的全局损失函数差值;
其中,完成机器学习模型参数聚合所需的时间Et、完成机器学习模型参数聚合所需的能量Ht、全局损失函数值Ft如下所示:
式中,为第i个用户设备对应的损失函数值;
第i个用户设备更新学习模型参数wi(k)所需要的时间消耗的能量/>如下所示:
式中,κ、C、fi分别为设备芯片架构的有效开关电容、单条数据训练所需要的CPU轮数、第i个用户设备上每批次数据量和设备CUP频率。
第i个用户设备将机器学习模型参数wi(k)上传至边缘服务器所需要的时间消耗的能量/>如下所示:
式中,s、bi、pi、gi、N0分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。
s2)边缘服务器将感知状态st作为输入数据输入至预存储的深度神经网络中,得到具有最大奖励值rt的动作at,将动作at作为待聚合设备数量。
进一步,所述深度神经网络的损失函数Loss(θ)如下所示:
式中,为执行动作a的价值;/>为期望;
目标价值yj如下所示:
式中,rj为执行动作aj的奖励;sj+1为感知状态;γ为衰减因子;θ为深度神经网络参数;a′为sj+1的动作空间;
进一步,所述深度神经网络的损失函数梯度如下所示:
式中,为奖励梯度。
应用权利要求1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的***,所述***用于完成机器学习模型的训练,得到满足预设要求的机器学习模型;
所述***包括边缘服务器和若干用户设备;
工作时,所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;
每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;
所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断,若所有机器学习模型参数均满足收敛条件,则机器学习模型训练完成;
若存在不满足收敛条件的机器学习模型参数,则选出nt个用户设备作为待聚合设备,并对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;
所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数,更新机器学习模型,继续利用本地数据对机器学习模型进行训练。
一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被调用时,执行上述方法的步骤。
本发明的技术效果是毋庸置疑的,本发明内容是提供一种移动边缘计算网络下基于强化学习的联邦学习方法,具有以下有益效果:
在优化联邦聚合策略时考虑了网络的动态性和不确定性,使得***能够在多数网络环境中正常稳定运行。
进一步的,本发明综合考虑联邦学习过程中的能量消耗和任务模型的损失函数值来优化联邦聚合策略,在保证任务模型精度的同时减少能量的消耗。
更进一步的,本发明所使用的联邦聚合策略基于强化学习算法,可以满足不同网络和用户的需求,并在使用中可以同时对算法网络优化,使***取得更好的效果。
附图说明
图1为***模型图;
图2为强化学习的结构图;
图3为基于强化学习的联邦学习流程图;
图4为强化学习算法流程图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,包括以下步骤:
1)确定当前加入联邦学习的用户设备;
所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;
2)每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;
3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断,若存在不满足收敛条件的机器学习模型参数,则进入步骤4),若所有机器学习模型参数均满足收敛条件,则机器学习模型训练完成;
4)所述边缘服务器选出nt个用户设备作为待聚合设备;
根据待聚合设备的本地数据量,所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;
5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数,更新机器学习模型,令迭代次数k=k+1,并返回步骤2),直至获得训练完成的机器学习模型。
实施例2:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1,进一步的,所述机器学习模型参数wi(k)如下所示:
式中,wi(k-1)为第k-1次迭代更新的机器学习模型参数;为第k-1次迭代更新的机器学习模型参数的一阶梯度;α为学习率。
实施例3:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1-2任一项,进一步的,机器学习模型参数聚合值如下所示:
式中,|Di|为第i个用户设备的本地数据量;wi(kt,i)为第i个用户设备的机器学习模型参数;xt,i∈{0,1}表示设备i是否参与第t轮聚合。N为用户设备数量。
实施例4:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1-3任一项,进一步的,基于动态异步联邦聚合算法,所述边缘服务器按照接收到机器学习模型参数的时间顺序,选出nt个用户设备作为待聚合设备。
实施例5:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1-4任一项,进一步的,待聚合设备数量nt通过动态异步联邦聚合算法确定。
实施例6:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1-5任一项,进一步的,确定待聚合设备数量nt的步骤包括:
s1)将边缘服务器作为智能体,所述智能体获取来自用户设备的反馈信息,从而建立感知状态t为聚合轮数;ΔFt为相邻两次聚合的全局损失函数差值;
其中,完成机器学习模型参数聚合所需的时间Et、完成机器学习模型参数聚合所需的能量Ht、全局损失函数值Ft如下所示:
式中,为第i个用户设备对应的损失函数值;
第i个用户设备更新学习模型参数wi(k)所需要的时间消耗的能量/>如下所示:
式中,κ、C、fi分别为设备芯片架构的有效开关电容、单条数据训练所需要的CPU轮数、第i个用户设备上每批次数据量和设备CUP频率。
第i个用户设备将机器学习模型参数wi(k)上传至边缘服务器所需要的时间消耗的能量/>如下所示:
式中,s、bi、pi、gi、N0分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。
s2)边缘服务器将感知状态st作为输入数据输入至预存储的深度神经网络中,得到具有最大奖励值rt的动作at,将动作at作为待聚合设备数量。
实施例7:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1-6任一项,进一步的,所述深度神经网络的损失函数Loss(θ)如下所示:
式中,为执行动作a的价值;/>为期望;
目标价值yj如下所示:
式中,rj为执行动作aj的奖励;sj+1为感知状态;γ为衰减因子;θ为深度神经网络参数;a′为sj+1的动作空间;
实施例8:
参见图1至图4,一种移动边缘计算网络下基于强化学习的联邦学习方法,技术内容同实施例1-7任一项,进一步的,所述深度神经网络的损失函数梯度如下所示:
式中,为奖励梯度。
实施例9:
应用实施例1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的***,所述***用于完成机器学习模型的训练,得到满足预设要求的机器学习模型;
所述***包括边缘服务器和若干用户设备;
工作时,所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;
每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;
所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断,若所有机器学习模型参数均满足收敛条件,则机器学习模型训练完成;
若存在不满足收敛条件的机器学习模型参数,则选出nt个用户设备作为待聚合设备,并对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;
所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数,更新机器学习模型,继续利用本地数据对机器学习模型进行训练。
实施例10:
一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被调用时,执行实施例1-8任一项所述方法的步骤。
实施例11:
一种移动边缘计算网络下基于强化学习的联邦学习方法,主要包括以下步骤:
1)当前时刻t,开始进行联邦学习,从网络中读取边缘基站信号范围内N个要进行联邦学习的设备。
2)加入联邦学习的每个设备在本地训练更新模型参数wi(k),具体的更新规则如下:
更新学习模型参数wi(k)所需要的时间可以通过CPU的周期来计算:
同样计算出每个设备消耗的能量:
随后将更新好的参数通过基站上传到边缘服务器中,根据信息传输模型计算出上传消耗的时间和能量:
3)根据动态异步联邦聚合算法,按收到各个设备上传模型参数的顺序,选择nt个设备上传的参数在边缘服务器中对这些模型参数根据对应设备的数据量|Di|进行加权聚和:
然后边缘服务器将更新后的模型参数发送给每个加入联邦学习的设备。同时得到全局损失函数值:
同时根据每轮参与聚合的具体设备可以计算出每一轮联邦聚合所需要的时间和能量:
4)在进行模型聚合时,基于强化学习算法DQN训练得到确定nt的策略,确定nt具体的值。
4.1)将边缘服务器作为一个智能体,设备所处的移动边缘计算网络作为环境。智能体从来自设备反馈的消息中感知状态其中包括聚合次数,能量和时间的消耗以及模型的损失函数值,然后输出相应状态下每个动作的值,即本轮参与联邦聚合的设备数量,选择一个最大价值的动作at来执行并获得奖励rt。在状态st下执行at后的实际价值为/>
4.2)使用一个深度神经网络来制定一个策略π,当输入当前状态时,输出具有最大价值的动作。当选择执行这个动作后,智能体会获得奖励:
通过最大化奖励来减小联邦学习的能量消耗。
4.3)智能体通过策略π随机在对应状态下选择动作,返回奖励。完成本轮聚合后,进入下一轮聚合,重复该步骤。
4.4)智能体收集到一定经验后,对智能体的策略网络进行训练:
其中目标价值是通过价值函数进行更新得来的:
智能体按照随街梯度下降算法来更新网络的参数:
5)根据上述强化学习的算法,动态更新联邦聚合策略,并采用该策略进行联邦聚合。
5.1)在边缘服务器中,当设备上传聚合的请求时,智能体通过上述训练更新的网络,通过预测价值函数来选择参与聚合的设备数量执行联邦聚合。
5.2)在执行动作后,更新当前联邦学习环境。
5.3)将边缘服务器将聚合后的参数广播给每个参与联邦学习的设备。
Claims (10)
1.一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,包括以下步骤:
1)确定当前加入联邦学习的所述用户设备。
所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;
2)每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;
3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断,若存在不满足收敛条件的机器学习模型参数,则进入步骤4),若所有机器学习模型参数均满足收敛条件,则机器学习模型训练完成;
4)所述边缘服务器选出nt个用户设备作为待聚合设备;
根据待聚合设备的本地数据量,所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;
5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数,更新机器学习模型,令迭代次数k=k+1,并返回步骤2),直至获得训练完成的机器学习模型。
2.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,所述机器学习模型参数wi(k)如下所示:
式中,wi(k-1)为第k-1次迭代更新的机器学习模型参数;为第k-1次迭代更新的机器学习模型参数的一阶梯度;α为学习率。
3.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,机器学习模型参数聚合值如下所示:
式中,|Di|为第i个用户设备的本地数据量;wi(kt,i)为第i个用户设备的机器学习模型参数;xt,i∈{0,1}表示设备i是否参与第t轮聚合。N为用户设备数量。
4.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,基于动态异步联邦聚合算法,所述边缘服务器按照接收到机器学习模型参数的时间顺序,选出nt个用户设备作为待聚合设备。
5.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,待聚合设备数量nt通过动态异步联邦聚合算法确定。
6.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,确定待聚合设备数量nt的步骤包括:
s1)将边缘服务器作为智能体,所述智能体获取来自用户设备的反馈信息,从而建立感知状态t为聚合轮数;ΔFt为相邻两次聚合的全局损失函数差值;/>为能量聚合值;
其中,完成机器学习模型参数聚合所需的时间Et、完成机器学习模型参数聚合所需的能量Ht、全局损失函数值Ft如下所示:
式中,为第i个用户设备对应的损失函数值;
第i个用户设备更新学习模型参数wi(k)所需要的时间消耗的能量/>如下所示:
式中,κ、C、fi分别为设备芯片架构的有效开关电容、单条数据训练所需要的CPU轮数、第i个用户设备上每批次数据量和设备CUP频率。
第i个用户设备将机器学习模型参数wi(k)上传至边缘服务器所需要的时间消耗的能量/>如下所示:
式中,s、bi、pi、gi、N0分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。
s2)边缘服务器将感知状态st作为输入数据输入至预存储的深度神经网络中,得到具有最大奖励值rt的动作at,将动作at作为待聚合设备数量。
7.根据权利要求6所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,所述深度神经网络的损失函数Loss(θ)如下所示:
式中,Q(sj,a;θ)为执行动作a的价值;为期望;
目标价值yj如下所示:
式中,rj为执行动作aj的奖励;sj+1为感知状态;γ为衰减因子;θ为深度神经网络参数;a′为sj+1的动作空间。
8.根据权利要求6所述的一种移动边缘计算网络下基于强化学习的联邦学习方法,其特征在于,所述深度神经网络的损失函数梯度如下所示:
式中,为奖励梯度。/>为执行动作a的价值。
9.应用权利要求1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的***,其特征在于,所述***用于完成机器学习模型的训练,得到满足预设要求的机器学习模型;
所述***包括边缘服务器和若干用户设备;
工作时,所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备;
每个用户设备利用本地数据对机器学习模型进行训练,获得机器学习模型参数wi(k),并通过基站上传到边缘服务器中;
所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断,若所有机器学习模型参数均满足收敛条件,则机器学习模型训练完成;
若存在不满足收敛条件的机器学习模型参数,则选出nt个用户设备作为待聚合设备,并对所有待聚合设备的机器学习模型参数进行聚合,得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备;
所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数,更新机器学习模型,继续利用本地数据对机器学习模型进行训练。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被调用时,执行权利要求1-8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580633.3A CN116843016A (zh) | 2023-05-22 | 2023-05-22 | 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580633.3A CN116843016A (zh) | 2023-05-22 | 2023-05-22 | 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116843016A true CN116843016A (zh) | 2023-10-03 |
Family
ID=88164265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310580633.3A Pending CN116843016A (zh) | 2023-05-22 | 2023-05-22 | 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116843016A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938957A (zh) * | 2024-03-22 | 2024-04-26 | 精为技术(天津)有限公司 | 基于联邦深度学习的边缘缓存优化方法 |
-
2023
- 2023-05-22 CN CN202310580633.3A patent/CN116843016A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938957A (zh) * | 2024-03-22 | 2024-04-26 | 精为技术(天津)有限公司 | 基于联邦深度学习的边缘缓存优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Toward resource-efficient federated learning in mobile edge computing | |
CN112181666B (zh) | 一种基于边缘智能的设备评估和联邦学习重要性聚合方法 | |
Han et al. | Adaptive gradient sparsification for efficient federated learning: An online learning approach | |
Chen et al. | iRAF: A deep reinforcement learning approach for collaborative mobile edge computing IoT networks | |
CN110113190A (zh) | 一种移动边缘计算场景中卸载时延优化方法 | |
CN111414252B (zh) | 一种基于深度强化学习的任务卸载方法 | |
CN111522669A (zh) | 横向联邦学习***优化方法、装置、设备及可读存储介质 | |
Liu et al. | Online computation offloading and resource scheduling in mobile-edge computing | |
Xie et al. | Adaptive online decision method for initial congestion window in 5G mobile edge computing using deep reinforcement learning | |
CN114528304A (zh) | 一种自适应客户端参数更新的联邦学习方法、***及存储介质 | |
CN113568727B (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN111629380A (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
Ali et al. | Smart computational offloading for mobile edge computing in next-generation Internet of Things networks | |
CN116541106B (zh) | 计算任务卸载方法、计算设备及存储介质 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
CN114885420A (zh) | 一种noma-mec***中的用户分组和资源分配方法及装置 | |
CN116489708B (zh) | 面向元宇宙的云边端协同的移动边缘计算任务卸载方法 | |
CN116843016A (zh) | 一种移动边缘计算网络下基于强化学习的联邦学习方法、***及介质 | |
CN113919483A (zh) | 一种无线通信网络中无线电地图的构造和定位方法及其*** | |
Mafuta et al. | Decentralized resource allocation-based multiagent deep learning in vehicular network | |
Henna et al. | Distributed and collaborative high-speed inference deep learning for mobile edge with topological dependencies | |
Wang et al. | Multi-objective joint optimization of communication-computation-caching resources in mobile edge computing | |
CN116781788A (zh) | 服务决策方法以及服务决策装置 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |