CN115357402A - 一种边缘智能优化方法和装置 - Google Patents

一种边缘智能优化方法和装置 Download PDF

Info

Publication number
CN115357402A
CN115357402A CN202211282973.XA CN202211282973A CN115357402A CN 115357402 A CN115357402 A CN 115357402A CN 202211282973 A CN202211282973 A CN 202211282973A CN 115357402 A CN115357402 A CN 115357402A
Authority
CN
China
Prior art keywords
model
training
edge
round
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211282973.XA
Other languages
English (en)
Other versions
CN115357402B (zh
Inventor
詹玉峰
王家盛
齐天宇
翟弟华
张元�
吴楚格
夏元清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211282973.XA priority Critical patent/CN115357402B/zh
Publication of CN115357402A publication Critical patent/CN115357402A/zh
Application granted granted Critical
Publication of CN115357402B publication Critical patent/CN115357402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5094Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种边缘智能优化方法和装置。本发明提供的边缘智能优化方法,基于模型参数、训练的轮数、通信时间、闲时CPU占用率和训练能耗构建环境的本轮状态,各个边缘设备根据本轮状态中的对应轮数信息参与联邦训练,采集本地模型参数、通信时间、闲时CPU利用率和训练能耗等信息,更新本轮状态,使得环境转移到下一个状态。边缘设备不断与环境进行交互,产生大量轨迹信息用于策略模型的更新,直至策略模型收敛,以根据每个设备的计算速度、训练能耗、通信时间,分配不同的联邦训练轮数,进而达到平衡计算异构和减少能耗开销的目的。

Description

一种边缘智能优化方法和装置
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于深度强化学习的边缘智能优化方法和装置。
背景技术
联邦学习是在大数据时代随着人工智能技术发展而兴起的一种由多方共同参与模型训练的机制。由于用户无需将本地数据上传到中央服务器,只需在中央服务器的协调下利用各自本地的数据训练模型,并将训练好的模型上传至中央服务器进行聚合,在打破数据孤岛的同时也保证了用户对数据的控制权,起到了隐私保护的作用,从而能够取代传统的集中式训练方法,并得到广泛的应用。
联邦训练也面临着诸多实际问题:一是设备的计算异构,二是边缘设备的能耗等资源预算有限。用户端参与联邦训练的设备,可能是智能手机、电脑、树莓派甚至是企业监控摄像头等边缘设备,这些设备在计算速度上存在显著的异质性,并且由于用户实际使用场景的复杂性,设备的前台可能运行有其他程序占用计算资源,导致用于后台联邦训练的算力发生变化。边缘设备的计算速度与联邦训练的性能紧密相关,选择不同的边缘设备参与联邦训练可能会导致训练时间产生巨大差异。传统的方法从边缘端随机选择参与设备,极易产生掉队者问题,使计算速度最慢的设备制约着每轮联邦模型的聚合时间,极大的拖慢了联邦训练的进程。因此如何根据设备的计算速度选择每轮联邦训练的参与者,并为其分配恰当的训练轮数,是解决计算异构问题的关键。边缘端参与联邦训练的设备大多有着有限的网络带宽和电池电量。如何在保证联邦训练精度的同时,还能够减少能耗等预算开销,也是联邦学习中的重要研究方向。传统的方案假设这些设备分布在通信基站附近,并且只有在接入电源时才会参与联邦训练,这极大地限制了联邦训练的应用场景。因此如何兼顾训练精度和能耗开销,节省联邦训练的成本,也是优化边缘智能的关键。
数据驱动建模的方法精确度高且计算效率高,将数据驱动思想运用在边缘智能领域,采用有效的方法分析累积的训练数据,提取相关知识并用于指导联邦训练,是边缘智能优化问题研究的重要方向。
深度强化学***的优异表现。
边缘智能的优化问题是多约束、多目标的,目前已有一些工作将深度强化学习应用于边缘智能的优化中,并表现出了巨大的潜力。这些工作大致可以分为两大类,一类是从计算异构的角度进行优化,利用强化学习选择计算速度较快的设备,可以缩短每轮联邦训练的时间,但这种方法往往需要很大的能耗开销;另一类则从节省能耗等受限资源的角度考虑,利用强化学习选择节能的设备参与方案,能够减少总预算开销,但却忽视了边缘智能的计算异构问题,往往需要很长的训练时间。目前只有少量前沿的工作综合考虑了计算异构和能耗等问题,但在计算资源的利用率上还有极大的改进空间。因此,设计一种可以兼顾计算异构和能耗开销,同时还可以充分利用边缘设备的算力,提高联邦训练的性能,对于优化边缘智能的表现具有重要意义。
发明内容
本发明的目的是提供一种能够兼顾计算异构和能耗开销的边缘智能优化方法和装置,进而可以充分利用边缘设备的算力,提高联邦训练的性能。
为实现上述目的,本发明提供了如下方案:
一种边缘智能优化方法,包括:
步骤100:获取中央模型和策略模型,并指定全局训练参数;所述中央模型和所述策略模型植入在中央服务器中;所述全局训练参数包括:边缘设备的总数量、阈值时间、批大小和训练轮数;
步骤101:基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合;
步骤102:获取本地数据样本;
步骤103:所述参与设备集合中的边缘设备接收所述中央模型和所述训练轮数,在满足所述阈值时间的条件下,利用所述本地数据样本以所述批大小更新本地模型的参数;所述本地模型植入在边缘设备中;
步骤104:采集本地信息,并基于所述本地信息构建环境的本轮状态;所述环境的本轮状态包括:本地模型的参数、通信时间、CPU利用率和训练能耗;
步骤105:更新所述环境的本轮状态,并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型,得到聚合中央模型;
步骤106:确定所述聚合中央模型的精度;
步骤107:根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值;
步骤108:根据更新后的所述环境的本轮状态,利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布;
步骤109:对所述正态分布进行采样得到新的训练轮数分配信息,并返回执行步骤103,直至超过所述阈值时间时,获取决策轨迹信息;所述决策轨迹信息包括多条决策轨迹;每一所述决策轨迹均包括:环境的本轮状态、策略模型的回报值和训练轮数;
步骤110:利用所述决策轨迹信息更新所述策略模型,并返回执行步骤100,直至更新后的策略模型收敛至最优解时,得到联邦训练的优化模型。
优选地,所述基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合,具体包括:
基于所述训练轮数为边缘设备分配对应的训练轮数;
当为边缘设备分配的训练轮数为0时,该边缘设备不参与本轮训练;当为边缘设备分配的训练轮数不为0时,该边缘设备按照分配的训练轮数参与本轮训练;
获取参与本轮训练的边缘设备生成所述参与设备集合。
优选地,在获取中央模型和策略模型之后,还包括:对所述中央模型和所述策略模型进行初始化处理。
优选地,所述确定所述聚合中央模型的精度,具体包括:
获取测试集;
采用测试集确定所述聚合中央模型的精度。
优选地,所述聚合中央模型为:
Figure 952126DEST_PATH_IMAGE001
式中,
Figure 258211DEST_PATH_IMAGE002
为第t+1轮的聚合中央模型,
Figure 743551DEST_PATH_IMAGE003
为第i个边缘设备的数据样本,
Figure 303845DEST_PATH_IMAGE004
为第i个边缘设备的数据样本的数量,D为所有边缘设备的数据样本的数量总和,
Figure 593268DEST_PATH_IMAGE005
,N表示边缘设备的总数量,
Figure 871803DEST_PATH_IMAGE006
为第t轮第i个边缘设备的本地模型的参数,Q t 为第t轮参与设备集合中边缘设备的数量。
优选地,所述策略模型的回报值为:
Figure 301778DEST_PATH_IMAGE007
式中,
Figure 513317DEST_PATH_IMAGE008
为第t轮策略模型的回报值,
Figure 501870DEST_PATH_IMAGE009
为第t轮聚合中央模型的精度,
Figure 2122DEST_PATH_IMAGE010
为第t-1轮聚合中央模型的精度,
Figure 157160DEST_PATH_IMAGE011
为第t轮第i个边缘设备的通信时间,
Figure 505095DEST_PATH_IMAGE012
为第t轮第i个边缘设备的训练能耗,
Figure 661620DEST_PATH_IMAGE013
为第一权重系数,
Figure 445906DEST_PATH_IMAGE014
为第二权重系数,
Figure 952105DEST_PATH_IMAGE015
为第三权重系数,Q t 为第t轮参与设备集合中边缘设备的数量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的边缘智能优化方法,基于模型参数、训练的轮数、通信时间、闲时CPU占用率和训练能耗构建环境的本轮状态,各个边缘设备根据本轮状态中的对应轮数信息参与联邦训练,采集本地模型参数、通信时间、闲时CPU利用率和训练能耗等信息,更新本轮状态,使得环境转移到下一个状态。边缘设备不断与环境进行交互,产生大量轨迹信息用于策略模型的更新,直至策略模型收敛,以根据每个设备的计算速度、训练能耗、通信时间,分配不同的联邦训练轮数,进而达到平衡计算异构和减少能耗开销的目的。
本发明还提供了一种边缘智能优化装置,该装置包括:中央服务器和边缘设备;
所述中央服务器与所述边缘设备进行信息交互;
所述中央服务器中植入有中央模型和策略模型;所述中央服务器用于指定全局训练参数,基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合;所述全局训练参数包括:边缘设备的总数量、阈值时间、批大小和训练轮数;
所述边缘设备中植入有本地模型;所述参与设备集合中的边缘设备接收所述中央服务器中的中央模型和所述训练轮数,在满足所述阈值时间的条件下,利用本地数据样本以所述批大小更新本地模型的参数;
所述中央服务器用于采集本地信息,并基于所述本地信息构建环境的本轮状态;所述环境的本轮状态包括:本地模型的参数、通信时间、CPU利用率和训练能耗;
所述中央服务器用于更新所述环境的本轮状态,并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型,得到聚合中央模型;
所述中央服务器用于获取测试集,并采用测试集确定所述聚合中央模型的精度;
所述中央服务器用于根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值;
所述中央服务器用于根据更新后的所述环境的本轮状态,利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布;
所述中央服务器用于对所述正态分布进行采样得到新的训练轮数分配信息,并将得到新的训练轮数分配信息发送给所述参与设备集合中的边缘设备,所述参与设备集合中的边缘设备接收所述中央模型和新的训练轮数后,在满足所述阈值时间的条件下,利用所述本地数据样本以所述批大小更新本地模型的参数,直至超过所述阈值时间时,获取决策轨迹信息;所述决策轨迹信息包括多条决策轨迹;每一所述决策轨迹均包括:环境的本轮状态、策略模型的回报值和训练轮数;
所述中央服务器用于利用所述决策轨迹信息更新所述策略模型,并将更新所述策略模型作为新的策略模型进行训练,直至更新后的策略模型收敛至最优解时,得到联邦训练的优化模型。
优选地,所述边缘设备为树莓派、智能手机、电脑或监控摄像头。
因本发明提供的边缘智能优化装置实现的技术效果与上述提供的边缘智能优化方法实现的技术效果相同,故在此不再进行赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的边缘智能优化方法的步骤图;
图2为本发明提供的边缘智能优化装置的实施原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种能够兼顾计算异构和能耗开销的边缘智能优化方法和装置,进而可以充分利用边缘设备的算力,提高联邦训练的性能。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的边缘智能优化方法,包括:
步骤100:获取中央模型和策略模型,并指定全局训练参数。所述中央模型和所述策略模型植入在中央服务器中。所述全局训练参数包括:边缘设备的总数量、阈值时间、批大小和训练轮数。
步骤101:基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合。具体的:
基于所述训练轮数为边缘设备分配对应的训练轮数。
当为边缘设备分配的训练轮数为0时,该边缘设备不参与本轮训练。当为边缘设备分配的训练轮数不为0时,该边缘设备按照分配的训练轮数参与本轮训练。
获取参与本轮训练的边缘设备生成所述参与设备集合。
步骤102:获取本地数据样本。
步骤103:所述参与设备集合中的边缘设备接收所述中央模型和所述训练轮数,在满足所述阈值时间的条件下,利用所述本地数据样本以所述批大小更新本地模型的参数。所述本地模型植入在边缘设备中。
步骤104:采集本地信息,并基于所述本地信息构建环境的本轮状态。所述环境的本轮状态包括:本地模型的参数、通信时间、CPU利用率和训练能耗。
步骤105:更新所述环境的本轮状态,并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型,得到聚合中央模型。其中,所述聚合中央模型为:
Figure 918661DEST_PATH_IMAGE001
式中,
Figure 734171DEST_PATH_IMAGE002
为第t+1轮的聚合中央模型,
Figure 959747DEST_PATH_IMAGE003
为第i个边缘设备的数据样本,
Figure 784483DEST_PATH_IMAGE004
为第i个边缘设备的数据样本的数量,D为所有边缘设备的数据样本的数量总和,
Figure 874055DEST_PATH_IMAGE005
,N表示边缘设备的总数量,
Figure 876778DEST_PATH_IMAGE006
为第t轮第i个边缘设备的本地模型的参数。
步骤106:确定所述聚合中央模型的精度。具体的:
获取测试集。
采用测试集确定所述聚合中央模型的精度。
步骤107:根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值。其中,策略模型的回报值为:
Figure 245442DEST_PATH_IMAGE007
式中,
Figure 716612DEST_PATH_IMAGE008
为第t轮策略模型的回报值,
Figure 487122DEST_PATH_IMAGE009
为第t轮聚合中央模型的精度,
Figure 706751DEST_PATH_IMAGE010
为第t-1轮聚合中央模型的精度,
Figure 641340DEST_PATH_IMAGE011
为第t轮第i个边缘设备的通信时间,
Figure 745562DEST_PATH_IMAGE012
为第t轮第i个边缘设备的训练能耗,
Figure 432896DEST_PATH_IMAGE013
为第一权重系数,
Figure 358780DEST_PATH_IMAGE014
为第二权重系数,
Figure 764354DEST_PATH_IMAGE015
为第三权重系数,Q t 为第t轮参与设备集合中边缘设备的数量。
步骤108:根据更新后的所述环境的本轮状态,利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布。
步骤109:对所述正态分布进行采样得到新的训练轮数分配信息,并返回执行步骤103,直至超过所述阈值时间时,获取决策轨迹信息。所述决策轨迹信息包括多条决策轨迹。每一所述决策轨迹均包括:环境的本轮状态、策略模型的回报值和训练轮数。
步骤110:利用所述决策轨迹信息更新所述策略模型,并返回执行步骤100,直至更新后的策略模型收敛至最优解时,得到联邦训练的优化模型。
为了进一步提高训练精确性,在步骤100获取中央模型和策略模型之后,本发明提供的边缘智能优化方法还包括:对所述中央模型和所述策略模型进行初始化处理。
本发明还提供了一种边缘智能优化装置,如图2所示,该装置包括:中央服务器和边缘设备。
所述中央服务器与所述边缘设备进行信息交互。
所述中央服务器中植入有中央模型和策略模型。所述中央服务器用于指定全局训练参数,基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合。所述全局训练参数包括:边缘设备的总数量、阈值时间、批大小和训练轮数。
所述边缘设备中植入有本地模型。所述参与设备集合中的边缘设备接收所述中央服务器中的中央模型和所述训练轮数,在满足所述阈值时间的条件下,利用本地数据样本以所述批大小更新本地模型的参数。
所述中央服务器用于采集本地信息,并基于所述本地信息构建环境的本轮状态。所述环境的本轮状态包括:本地模型的参数、通信时间、CPU利用率和训练能耗。
所述中央服务器用于更新所述环境的本轮状态,并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型,得到聚合中央模型。
所述中央服务器用于获取测试集,并采用测试集确定所述聚合中央模型的精度。
所述中央服务器用于根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值。
所述中央服务器用于根据更新后的所述环境的本轮状态,利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布。
所述中央服务器用于对所述正态分布进行采样得到新的训练轮数分配信息,并将得到新的训练轮数分配信息发送给所述参与设备集合中的边缘设备,所述参与设备集合中的边缘设备接收所述中央模型和新的训练轮数后,在满足所述阈值时间的条件下,利用所述本地数据样本以所述批大小更新本地模型的参数,直至超过所述阈值时间时,获取决策轨迹信息。所述决策轨迹信息包括多条决策轨迹。每一所述决策轨迹均包括:环境的本轮状态、策略模型的回报值和训练轮数。
所述中央服务器用于利用所述决策轨迹信息更新所述策略模型,并将更新所述策略模型作为新的策略模型进行训练,直至更新后的策略模型收敛至最优解时,得到联邦训练的优化模型。
其中,所采用的所述边缘设备可以是树莓派、智能手机、电脑或监控摄像头。
下面以采用树莓派为边缘设备为例,对上述提供的边缘智能优化方法和装置的具体实施过程进行说明。
如图2所示,本实施例提供的边缘智能优化装置分为两部分,一部分是位于图2中左侧的中央服务器,由台式电脑担任,另一部分则是右侧的边缘设备,由多个树莓派构成,图2中各个符号的表示含义如下:
N为联邦学习的边缘设备(例如树莓派)总数量。B为联邦训练所用的批大小。
Figure 672267DEST_PATH_IMAGE016
为阈值时间。E为不同树莓派训练轮数构成的向量,满足
Figure 230418DEST_PATH_IMAGE017
,其中
Figure 260691DEST_PATH_IMAGE018
表示第i个树莓派的训练轮数信息,其值为不超过阈值M的自然数。W表示模型参数矩阵,满足
Figure 668408DEST_PATH_IMAGE019
,其中
Figure 442329DEST_PATH_IMAGE020
表示第i个树莓派的模型参数。
Figure 120566DEST_PATH_IMAGE021
表示通信时间向量,满足
Figure 118478DEST_PATH_IMAGE022
,其中
Figure 16420DEST_PATH_IMAGE023
表示第i个树莓派通信所花费的时间,包括上行和下行时间的总和。U为闲时CPU利用率构成的向量,定义为
Figure 328453DEST_PATH_IMAGE024
,其中
Figure 126775DEST_PATH_IMAGE025
表示第i个树莓派在未参与联邦训练时的CPU利用率(闲时利用率)。P为训练能耗向量,满足
Figure 233272DEST_PATH_IMAGE026
,其中
Figure 615580DEST_PATH_IMAGE027
表示第i个树莓派的训练总能耗,包括计算能耗和通信能耗。v表示中央模型在测试集上的测试精度。此外,为了表示不同轮数之间的信息,引入下标t加以区分,例如
Figure 403408DEST_PATH_IMAGE028
分别表示第t轮的模型参数矩阵、第t轮第i个树莓派的能耗、第t轮中央模型的精度。
本实施例的基本思想是:在中央服务器端构建强化学习模型,在边缘设备端构建深度强化学习的环境,模型与环境不断进行交互,学习最优的训练轮数分配方案。具体来说,树莓派上一轮采集的模型参数
Figure 39926DEST_PATH_IMAGE029
、训练的轮数
Figure 130372DEST_PATH_IMAGE030
、通信时间
Figure 219551DEST_PATH_IMAGE031
、闲时CPU占用率
Figure 545490DEST_PATH_IMAGE032
和训练能耗
Figure 814011DEST_PATH_IMAGE033
被建模为环境的本轮状态
Figure 527889DEST_PATH_IMAGE034
,即
Figure 120675DEST_PATH_IMAGE035
。为设备分配的训练轮数定义为树莓派的动作
Figure 374939DEST_PATH_IMAGE036
。相邻两轮中央模型的精度
Figure 969737DEST_PATH_IMAGE037
、本轮通信时间
Figure 792200DEST_PATH_IMAGE038
以及通信能耗
Figure 855971DEST_PATH_IMAGE039
被用于组建反馈给树莓派的价值函数(即回报值)
Figure 664658DEST_PATH_IMAGE040
,满足
Figure 864695DEST_PATH_IMAGE041
。树莓派的策略模型
Figure 858059DEST_PATH_IMAGE042
将状态信息
Figure 661323DEST_PATH_IMAGE043
作为输入,输出为训练轮数
Figure 460652DEST_PATH_IMAGE044
。各个树莓派将根据
Figure 593824DEST_PATH_IMAGE045
中的对应轮数信息参与联邦训练,采集本地模型参数
Figure 85986DEST_PATH_IMAGE046
、通信时间
Figure 576879DEST_PATH_IMAGE047
、闲时CPU利用率
Figure 586423DEST_PATH_IMAGE048
和训练能耗
Figure 538549DEST_PATH_IMAGE049
等信息并上传至中央服务器,更新模型参数
Figure 404873DEST_PATH_IMAGE050
、通信时间
Figure 743582DEST_PATH_IMAGE051
、通信能耗
Figure 884713DEST_PATH_IMAGE052
以及闲时CPU占用率
Figure 694275DEST_PATH_IMAGE053
,使得环境转移到下一个状态
Figure 997081DEST_PATH_IMAGE054
。树莓派不断与环境进行交互,产生大量轨迹信息
Figure 495189DEST_PATH_IMAGE055
用于策略模型
Figure 551263DEST_PATH_IMAGE056
的更新,直至策略模型
Figure 575851DEST_PATH_IMAGE057
收敛。
本实施例提供的优化方法,具体包括以下步骤:
步骤1、初始化中央模型
Figure 95563DEST_PATH_IMAGE058
和策略模型
Figure 408864DEST_PATH_IMAGE059
,指定全局训练参数联邦学习的树莓派总数量N,联邦训练所用的批大小B,阈值时间
Figure 891798DEST_PATH_IMAGE060
和不同树莓派训练轮数构成的向量
Figure 735339DEST_PATH_IMAGE061
步骤2、根据训练轮数向量
Figure 458576DEST_PATH_IMAGE061
,为每个树莓派分配相应的训练轮数,若分配的训练轮数
Figure 164232DEST_PATH_IMAGE062
,则第i个树莓派参与本轮训练并进行
Figure 60644DEST_PATH_IMAGE063
轮迭代,若分配的训练轮数
Figure 967814DEST_PATH_IMAGE064
,则表示第i个树莓派不参与本轮联邦训练,由此可确定本轮的参与设备集合
Figure 314481DEST_PATH_IMAGE065
步骤3、在第t轮训练过程中,参与设备集合
Figure 540057DEST_PATH_IMAGE065
中树莓派接收中央模型
Figure 364794DEST_PATH_IMAGE066
和轮数信息
Figure 857961DEST_PATH_IMAGE067
,在满足阈值时间
Figure 109951DEST_PATH_IMAGE068
的条件下,利用本地数据样本
Figure 619561DEST_PATH_IMAGE069
以批大小B更新本地模型
Figure 982409DEST_PATH_IMAGE070
,并采集本地信息
Figure 752919DEST_PATH_IMAGE071
,上传至中央服务器,本地模型更新使用公式(1)。
Figure 711165DEST_PATH_IMAGE072
(1)
其中,
Figure 239229DEST_PATH_IMAGE073
,为本地数据集的抽样样本,
Figure 717353DEST_PATH_IMAGE074
为本地模型的参数,
Figure 404686DEST_PATH_IMAGE075
为该样本的损失函数值,
Figure 608265DEST_PATH_IMAGE076
为学习率,b=1,2,..,B。
步骤4、中央服务器接收树莓派上传的信息,更新
Figure 797195DEST_PATH_IMAGE077
,并利用公式(2)聚合中央模型的得到聚合中央模型
Figure 767425DEST_PATH_IMAGE078
,在测试集上评估聚合中央模型
Figure 512527DEST_PATH_IMAGE079
的精度
Figure 27953DEST_PATH_IMAGE080
,并根据公式(3)计算回报值
Figure 983139DEST_PATH_IMAGE081
,用于评估策略模型
Figure 475169DEST_PATH_IMAGE082
的好坏。
Figure 340357DEST_PATH_IMAGE083
(2)
Figure 275952DEST_PATH_IMAGE084
(3)
其中,
Figure 469167DEST_PATH_IMAGE085
表示第i个树莓派上数据样本
Figure 187725DEST_PATH_IMAGE086
的数量,
Figure 969736DEST_PATH_IMAGE087
表示所有树莓派上样本的总数,
Figure 384887DEST_PATH_IMAGE088
均为权重系数。
步骤5、强化学习树莓派根据状态
Figure 517928DEST_PATH_IMAGE089
,利用策略模型
Figure 40176DEST_PATH_IMAGE090
为每个设备生成一个正态分布,通过对每个正态分布进行采样,产生新的轮数分配信息
Figure 427426DEST_PATH_IMAGE091
重复步骤2~5多次,直至超出时间阈值
Figure 501562DEST_PATH_IMAGE092
,保存树莓派的决策轨迹
Figure 528423DEST_PATH_IMAGE093
步骤6、树莓派根据公式(4)中的算法,利用多条轨迹信息
Figure 431526DEST_PATH_IMAGE094
更新策略模型
Figure 984867DEST_PATH_IMAGE095
Figure 183899DEST_PATH_IMAGE096
(4)
Figure 698057DEST_PATH_IMAGE097
Figure 952320DEST_PATH_IMAGE098
其中,
Figure 969955DEST_PATH_IMAGE099
表示更新后的策略模型
Figure 106932DEST_PATH_IMAGE100
的参数,
Figure 436282DEST_PATH_IMAGE101
表示策略模型
Figure 713810DEST_PATH_IMAGE102
的参数,
Figure 117110DEST_PATH_IMAGE103
分别表示轨迹的长度和数量,l=1,2,...,Lm=1,2,...,n,
Figure 172791DEST_PATH_IMAGE104
表示折扣因子,x表示第t轮的轨迹长度,
Figure 769863DEST_PATH_IMAGE105
分别表示第j条轨迹上第t轮的状态、动作和回报,
Figure 569192DEST_PATH_IMAGE106
表示对应的累积折扣回报,基线
Figure 826998DEST_PATH_IMAGE107
表示第t轮时j条轨迹的平均折扣回报,
Figure 335471DEST_PATH_IMAGE108
表示赋值运算,
Figure 373834DEST_PATH_IMAGE109
为梯度算子。
重复进行上述所有步骤,直至树莓派的策略模型收敛至最优解,得到联邦训练的优化模型。
基于上述描述,相对于现有技术,本发明提供的边缘智能优化方法和装置还具有以下优点:
1、本发明使用深度强化学习的方法来解决多目标多约束的优化问题。深度强化学习可以与边缘智能自动交互,可以自动学习并生成最优方案,无需复杂的数学建模过程,为优化联邦训练过程提供了新思路和新途径。
2、本发明通过为计算速度不同的设备分配不同的训练轮数,巧妙的平衡了各个设备间的计算异构问题,同时也能充分利用设备的算力,提高全局模型的训练速度,为联邦学习部署在实际环境中做出了新的尝试。
3、本发明可以节省边缘设备的能耗开销,而并不影响模型的训练速度和精度,可以提高联邦训练的经济效益,保障联邦训练的可持续性,从而进一步满足了边缘智能多目标优化的需要。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种边缘智能优化方法,其特征在于,包括:
步骤100:获取中央模型和策略模型,并指定全局训练参数;所述中央模型和所述策略模型植入在中央服务器中;所述全局训练参数包括:边缘设备的总数量、阈值时间、批大小和训练轮数;
步骤101:基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合;
步骤102:获取本地数据样本;
步骤103:所述参与设备集合中的边缘设备接收所述中央模型和所述训练轮数,在满足所述阈值时间的条件下,利用所述本地数据样本以所述批大小更新本地模型的参数;所述本地模型植入在边缘设备中;
步骤104:采集本地信息,并基于所述本地信息构建环境的本轮状态;所述环境的本轮状态包括:本地模型的参数、通信时间、CPU利用率和训练能耗;
步骤105:更新所述环境的本轮状态,并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型,得到聚合中央模型;
步骤106:确定所述聚合中央模型的精度;
步骤107:根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值;
步骤108:根据更新后的所述环境的本轮状态,利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布;
步骤109:对所述正态分布进行采样得到新的训练轮数分配信息,并返回执行步骤103,直至超过所述阈值时间时,获取决策轨迹信息;所述决策轨迹信息包括多条决策轨迹;每一所述决策轨迹均包括:环境的本轮状态、策略模型的回报值和训练轮数;
步骤110:利用所述决策轨迹信息更新所述策略模型,并返回执行步骤100,直至更新后的策略模型收敛至最优解时,得到联邦训练的优化模型。
2.根据权利要求1所述的边缘智能优化方法,其特征在于,所述基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合,具体包括:
基于所述训练轮数为边缘设备分配对应的训练轮数;
当为边缘设备分配的训练轮数为0时,该边缘设备不参与本轮训练;当为边缘设备分配的训练轮数不为0时,该边缘设备按照分配的训练轮数参与本轮训练;
获取参与本轮训练的边缘设备生成所述参与设备集合。
3.根据权利要求1所述的边缘智能优化方法,其特征在于,在获取中央模型和策略模型之后,还包括:对所述中央模型和所述策略模型进行初始化处理。
4.根据权利要求1所述的边缘智能优化方法,其特征在于,所述确定所述聚合中央模型的精度,具体包括:
获取测试集;
采用测试集确定所述聚合中央模型的精度。
5.根据权利要求1所述的边缘智能优化方法,其特征在于,所述聚合中央模型为:
Figure 866235DEST_PATH_IMAGE001
式中,
Figure 40864DEST_PATH_IMAGE002
为第t+1轮的聚合中央模型,
Figure 907189DEST_PATH_IMAGE003
为第i个边缘设备的数据样本,
Figure 652422DEST_PATH_IMAGE004
为第i个边缘设备的数据样本的数量,D为所有边缘设备的数据样本的数量总和,
Figure 262395DEST_PATH_IMAGE005
,N表示边缘设备的总数量,
Figure 291531DEST_PATH_IMAGE006
为第t轮第i个边缘设备的本地模型的参数,Q t 为第t轮参与设备集合中边缘设备的数量。
6.根据权利要求1所述的边缘智能优化方法,其特征在于,所述策略模型的回报值为:
Figure 640342DEST_PATH_IMAGE007
式中,
Figure 122139DEST_PATH_IMAGE008
为第t轮策略模型的回报值,
Figure 535802DEST_PATH_IMAGE009
为第t轮聚合中央模型的精度,
Figure 153866DEST_PATH_IMAGE010
为第t-1轮聚合中央模型的精度,
Figure 378305DEST_PATH_IMAGE011
为第t轮第i个边缘设备的通信时间,
Figure 347398DEST_PATH_IMAGE012
为第t轮第i个边缘设备的训练能耗,
Figure 299173DEST_PATH_IMAGE013
为第一权重系数,
Figure 369414DEST_PATH_IMAGE014
为第二权重系数,
Figure 14022DEST_PATH_IMAGE015
为第三权重系数,Q t 为第t轮参与设备集合中边缘设备的数量。
7.一种边缘智能优化装置,其特征在于,包括:中央服务器和边缘设备;
所述中央服务器与所述边缘设备进行信息交互;
所述中央服务器中植入有中央模型和策略模型;所述中央服务器用于指定全局训练参数,基于所述训练轮数确定参与本轮训练的边缘设备,得到参与设备集合;所述全局训练参数包括:边缘设备的总数量、阈值时间、批大小和训练轮数;
所述边缘设备中植入有本地模型;所述参与设备集合中的边缘设备接收所述中央服务器中的中央模型和所述训练轮数,在满足所述阈值时间的条件下,利用本地数据样本以所述批大小更新本地模型的参数;
所述中央服务器用于采集本地信息,并基于所述本地信息构建环境的本轮状态;所述环境的本轮状态包括:本地模型的参数、通信时间、CPU利用率和训练能耗;
所述中央服务器用于更新所述环境的本轮状态,并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型,得到聚合中央模型;
所述中央服务器用于获取测试集,并采用测试集确定所述聚合中央模型的精度;
所述中央服务器用于根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值;
所述中央服务器用于根据更新后的所述环境的本轮状态,利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布;
所述中央服务器用于对所述正态分布进行采样得到新的训练轮数分配信息,并将得到新的训练轮数分配信息发送给所述参与设备集合中的边缘设备,所述参与设备集合中的边缘设备接收所述中央模型和新的训练轮数后,在满足所述阈值时间的条件下,利用所述本地数据样本以所述批大小更新本地模型的参数,直至超过所述阈值时间时,获取决策轨迹信息;所述决策轨迹信息包括多条决策轨迹;每一所述决策轨迹均包括:环境的本轮状态、策略模型的回报值和训练轮数;
所述中央服务器用于利用所述决策轨迹信息更新所述策略模型,并将更新所述策略模型作为新的策略模型进行训练,直至更新后的策略模型收敛至最优解时,得到联邦训练的优化模型。
8.根据权利要求7所述的边缘智能优化装置,其特征在于,所述边缘设备为树莓派、智能手机、电脑或监控摄像头。
CN202211282973.XA 2022-10-20 2022-10-20 一种边缘智能优化方法和装置 Active CN115357402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211282973.XA CN115357402B (zh) 2022-10-20 2022-10-20 一种边缘智能优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211282973.XA CN115357402B (zh) 2022-10-20 2022-10-20 一种边缘智能优化方法和装置

Publications (2)

Publication Number Publication Date
CN115357402A true CN115357402A (zh) 2022-11-18
CN115357402B CN115357402B (zh) 2023-01-24

Family

ID=84008718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211282973.XA Active CN115357402B (zh) 2022-10-20 2022-10-20 一种边缘智能优化方法和装置

Country Status (1)

Country Link
CN (1) CN115357402B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887748A (zh) * 2021-12-07 2022-01-04 浙江师范大学 在线联邦学习任务分配方法、装置、联邦学习方法及***
CN114168328A (zh) * 2021-12-06 2022-03-11 北京邮电大学 一种基于联邦学习的移动边缘节点计算任务调度方法及其***
CN114528304A (zh) * 2022-02-18 2022-05-24 安徽工业大学 一种自适应客户端参数更新的联邦学习方法、***及存储介质
CN114546608A (zh) * 2022-01-06 2022-05-27 上海交通大学 一种基于边缘计算的任务调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168328A (zh) * 2021-12-06 2022-03-11 北京邮电大学 一种基于联邦学习的移动边缘节点计算任务调度方法及其***
CN113887748A (zh) * 2021-12-07 2022-01-04 浙江师范大学 在线联邦学习任务分配方法、装置、联邦学习方法及***
CN114546608A (zh) * 2022-01-06 2022-05-27 上海交通大学 一种基于边缘计算的任务调度方法
CN114528304A (zh) * 2022-02-18 2022-05-24 安徽工业大学 一种自适应客户端参数更新的联邦学习方法、***及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIASHENG WANG 等: "Allo: Optimizing Federated Learning via Guided Epoch Allocation", 《STATE INTELLECTUAL PROPERTY OFFICE OF CHINA》 *
NANLIANG SHAN 等: ""DRL + FL": An intelligent resource allocation model based on deep reinforcement learning for Mobile Edge Computing", 《COMPUTER COMMUNICATIONS》 *
YUFENG ZHAN 等: "Experience-Driven Computational Resource Allocation of Federated Learning by Deep Reinforcement Learning", 《2020 IEEE INTERNATIONAL PARALLEL AND DISTRIBUTED PROCESSING SYMPOSIUM (IPDPS)》 *
芦效峰 等: "一种面向边缘计算的高效异步联邦学习机制", 《计算机研究与发展》 *

Also Published As

Publication number Publication date
CN115357402B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN113191484B (zh) 基于深度强化学习的联邦学习客户端智能选取方法及***
CN108594858B (zh) 马尔科夫运动目标的无人机搜索方法及装置
CN113435472A (zh) 车载算力网络用户需求预测方法、***、设备、介质
CN113467952B (zh) 一种分布式联邦学习协同计算方法及***
CN103971160A (zh) 基于复杂网络的粒子群优化方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
Rkhami et al. On the use of graph neural networks for virtual network embedding
CN114386570A (zh) 一种基于多分支神经网络模型的异构联邦学习训练方法
Cui et al. Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN117376355B (zh) 基于超图的b5g海量物联网资源分配方法及***
Wang et al. Deepaalo: Auto-adjusting demotion thresholds for information-agnostic coflow scheduling
Gong et al. Slicing-based resource optimization in multi-access edge network using ensemble learning aided DDPG algorithm
CN115357402B (zh) 一种边缘智能优化方法和装置
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同***及方法
Lou et al. Cooperation emergence of manufacturing services in cloud manufacturing with agent-based modeling and simulating
CN115118591B (zh) 一种基于联盟博弈的簇联邦学习方法
CN116501483A (zh) 基于多智能体强化学习的车辆边缘计算任务调度方法
CN115883371A (zh) 边缘-云协同***中基于学习优化方法的虚拟网络功能放置方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN117539640B (zh) 一种面向异构推理任务的边端协同***及资源分配方法
Lajeunesse et al. A cooperative optimal mining model for bitcoin
Ma Multi-Task Offloading via Graph Neural Networks in Heterogeneous Multi-access Edge Computing
Chen et al. Container cluster placement in edge computing based on reinforcement learning incorporating graph convolutional networks scheme
CN117541025B (zh) 一种用于密集输电线路巡检的边缘计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant