CN115357402A

CN115357402A - 一种边缘智能优化方法和装置

Info

Publication number: CN115357402A
Application number: CN202211282973.XA
Authority: CN
Inventors: 詹玉峰; 王家盛; 齐天宇; 翟弟华; 张元�; 吴楚格; 夏元清
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2022-11-18
Anticipated expiration: 2042-10-20
Also published as: CN115357402B

Abstract

本发明涉及一种边缘智能优化方法和装置。本发明提供的边缘智能优化方法，基于模型参数、训练的轮数、通信时间、闲时CPU占用率和训练能耗构建环境的本轮状态，各个边缘设备根据本轮状态中的对应轮数信息参与联邦训练，采集本地模型参数、通信时间、闲时CPU利用率和训练能耗等信息，更新本轮状态，使得环境转移到下一个状态。边缘设备不断与环境进行交互，产生大量轨迹信息用于策略模型的更新，直至策略模型收敛，以根据每个设备的计算速度、训练能耗、通信时间，分配不同的联邦训练轮数，进而达到平衡计算异构和减少能耗开销的目的。

Description

一种边缘智能优化方法和装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于深度强化学习的边缘智能优化方法和装置。

背景技术

联邦学习是在大数据时代随着人工智能技术发展而兴起的一种由多方共同参与模型训练的机制。由于用户无需将本地数据上传到中央服务器，只需在中央服务器的协调下利用各自本地的数据训练模型，并将训练好的模型上传至中央服务器进行聚合，在打破数据孤岛的同时也保证了用户对数据的控制权，起到了隐私保护的作用，从而能够取代传统的集中式训练方法，并得到广泛的应用。

联邦训练也面临着诸多实际问题：一是设备的计算异构，二是边缘设备的能耗等资源预算有限。用户端参与联邦训练的设备，可能是智能手机、电脑、树莓派甚至是企业监控摄像头等边缘设备，这些设备在计算速度上存在显著的异质性，并且由于用户实际使用场景的复杂性，设备的前台可能运行有其他程序占用计算资源，导致用于后台联邦训练的算力发生变化。边缘设备的计算速度与联邦训练的性能紧密相关，选择不同的边缘设备参与联邦训练可能会导致训练时间产生巨大差异。传统的方法从边缘端随机选择参与设备，极易产生掉队者问题，使计算速度最慢的设备制约着每轮联邦模型的聚合时间，极大的拖慢了联邦训练的进程。因此如何根据设备的计算速度选择每轮联邦训练的参与者，并为其分配恰当的训练轮数，是解决计算异构问题的关键。边缘端参与联邦训练的设备大多有着有限的网络带宽和电池电量。如何在保证联邦训练精度的同时，还能够减少能耗等预算开销，也是联邦学习中的重要研究方向。传统的方案假设这些设备分布在通信基站附近，并且只有在接入电源时才会参与联邦训练，这极大地限制了联邦训练的应用场景。因此如何兼顾训练精度和能耗开销，节省联邦训练的成本，也是优化边缘智能的关键。

数据驱动建模的方法精确度高且计算效率高，将数据驱动思想运用在边缘智能领域，采用有效的方法分析累积的训练数据，提取相关知识并用于指导联邦训练，是边缘智能优化问题研究的重要方向。

深度强化学***的优异表现。

边缘智能的优化问题是多约束、多目标的，目前已有一些工作将深度强化学习应用于边缘智能的优化中，并表现出了巨大的潜力。这些工作大致可以分为两大类，一类是从计算异构的角度进行优化，利用强化学习选择计算速度较快的设备，可以缩短每轮联邦训练的时间，但这种方法往往需要很大的能耗开销；另一类则从节省能耗等受限资源的角度考虑，利用强化学习选择节能的设备参与方案，能够减少总预算开销，但却忽视了边缘智能的计算异构问题，往往需要很长的训练时间。目前只有少量前沿的工作综合考虑了计算异构和能耗等问题，但在计算资源的利用率上还有极大的改进空间。因此，设计一种可以兼顾计算异构和能耗开销，同时还可以充分利用边缘设备的算力，提高联邦训练的性能，对于优化边缘智能的表现具有重要意义。

发明内容

本发明的目的是提供一种能够兼顾计算异构和能耗开销的边缘智能优化方法和装置，进而可以充分利用边缘设备的算力，提高联邦训练的性能。

为实现上述目的，本发明提供了如下方案：

一种边缘智能优化方法，包括：

步骤100：获取中央模型和策略模型，并指定全局训练参数；所述中央模型和所述策略模型植入在中央服务器中；所述全局训练参数包括：边缘设备的总数量、阈值时间、批大小和训练轮数；

步骤101：基于所述训练轮数确定参与本轮训练的边缘设备，得到参与设备集合；

步骤102：获取本地数据样本；

步骤103：所述参与设备集合中的边缘设备接收所述中央模型和所述训练轮数，在满足所述阈值时间的条件下，利用所述本地数据样本以所述批大小更新本地模型的参数；所述本地模型植入在边缘设备中；

步骤104：采集本地信息，并基于所述本地信息构建环境的本轮状态；所述环境的本轮状态包括：本地模型的参数、通信时间、CPU利用率和训练能耗；

步骤105：更新所述环境的本轮状态，并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型，得到聚合中央模型；

步骤106：确定所述聚合中央模型的精度；

步骤107：根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值；

步骤108：根据更新后的所述环境的本轮状态，利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布；

步骤109：对所述正态分布进行采样得到新的训练轮数分配信息，并返回执行步骤103，直至超过所述阈值时间时，获取决策轨迹信息；所述决策轨迹信息包括多条决策轨迹；每一所述决策轨迹均包括：环境的本轮状态、策略模型的回报值和训练轮数；

步骤110：利用所述决策轨迹信息更新所述策略模型，并返回执行步骤100，直至更新后的策略模型收敛至最优解时，得到联邦训练的优化模型。

优选地，所述基于所述训练轮数确定参与本轮训练的边缘设备，得到参与设备集合，具体包括：

基于所述训练轮数为边缘设备分配对应的训练轮数；

当为边缘设备分配的训练轮数为0时，该边缘设备不参与本轮训练；当为边缘设备分配的训练轮数不为0时，该边缘设备按照分配的训练轮数参与本轮训练；

获取参与本轮训练的边缘设备生成所述参与设备集合。

优选地，在获取中央模型和策略模型之后，还包括：对所述中央模型和所述策略模型进行初始化处理。

优选地，所述确定所述聚合中央模型的精度，具体包括：

获取测试集；

采用测试集确定所述聚合中央模型的精度。

优选地，所述聚合中央模型为：

；

式中，

为第t+1轮的聚合中央模型，

为第i个边缘设备的数据样本，

为第i个边缘设备的数据样本的数量，D为所有边缘设备的数据样本的数量总和，

，N表示边缘设备的总数量，

为第t轮第i个边缘设备的本地模型的参数，Q _t为第t轮参与设备集合中边缘设备的数量。

优选地，所述策略模型的回报值为：

；

式中，

为第t轮策略模型的回报值，

为第t轮聚合中央模型的精度，

为第t-1轮聚合中央模型的精度，

为第t轮第i个边缘设备的通信时间，

为第t轮第i个边缘设备的训练能耗，

为第一权重系数，

为第二权重系数，

为第三权重系数，Q _t为第t轮参与设备集合中边缘设备的数量。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的边缘智能优化方法，基于模型参数、训练的轮数、通信时间、闲时CPU占用率和训练能耗构建环境的本轮状态，各个边缘设备根据本轮状态中的对应轮数信息参与联邦训练，采集本地模型参数、通信时间、闲时CPU利用率和训练能耗等信息，更新本轮状态，使得环境转移到下一个状态。边缘设备不断与环境进行交互，产生大量轨迹信息用于策略模型的更新，直至策略模型收敛，以根据每个设备的计算速度、训练能耗、通信时间，分配不同的联邦训练轮数，进而达到平衡计算异构和减少能耗开销的目的。

本发明还提供了一种边缘智能优化装置，该装置包括：中央服务器和边缘设备；

所述中央服务器与所述边缘设备进行信息交互；

所述中央服务器中植入有中央模型和策略模型；所述中央服务器用于指定全局训练参数，基于所述训练轮数确定参与本轮训练的边缘设备，得到参与设备集合；所述全局训练参数包括：边缘设备的总数量、阈值时间、批大小和训练轮数；

所述边缘设备中植入有本地模型；所述参与设备集合中的边缘设备接收所述中央服务器中的中央模型和所述训练轮数，在满足所述阈值时间的条件下，利用本地数据样本以所述批大小更新本地模型的参数；

所述中央服务器用于采集本地信息，并基于所述本地信息构建环境的本轮状态；所述环境的本轮状态包括：本地模型的参数、通信时间、CPU利用率和训练能耗；

所述中央服务器用于更新所述环境的本轮状态，并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型，得到聚合中央模型；

所述中央服务器用于获取测试集，并采用测试集确定所述聚合中央模型的精度；

所述中央服务器用于根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值；

所述中央服务器用于根据更新后的所述环境的本轮状态，利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布；

所述中央服务器用于对所述正态分布进行采样得到新的训练轮数分配信息，并将得到新的训练轮数分配信息发送给所述参与设备集合中的边缘设备，所述参与设备集合中的边缘设备接收所述中央模型和新的训练轮数后，在满足所述阈值时间的条件下，利用所述本地数据样本以所述批大小更新本地模型的参数，直至超过所述阈值时间时，获取决策轨迹信息；所述决策轨迹信息包括多条决策轨迹；每一所述决策轨迹均包括：环境的本轮状态、策略模型的回报值和训练轮数；

所述中央服务器用于利用所述决策轨迹信息更新所述策略模型，并将更新所述策略模型作为新的策略模型进行训练，直至更新后的策略模型收敛至最优解时，得到联邦训练的优化模型。

优选地，所述边缘设备为树莓派、智能手机、电脑或监控摄像头。

因本发明提供的边缘智能优化装置实现的技术效果与上述提供的边缘智能优化方法实现的技术效果相同，故在此不再进行赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的边缘智能优化方法的步骤图；

图2为本发明提供的边缘智能优化装置的实施原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的边缘智能优化方法，包括：

步骤100：获取中央模型和策略模型，并指定全局训练参数。所述中央模型和所述策略模型植入在中央服务器中。所述全局训练参数包括：边缘设备的总数量、阈值时间、批大小和训练轮数。

步骤101：基于所述训练轮数确定参与本轮训练的边缘设备，得到参与设备集合。具体的：

基于所述训练轮数为边缘设备分配对应的训练轮数。

当为边缘设备分配的训练轮数为0时，该边缘设备不参与本轮训练。当为边缘设备分配的训练轮数不为0时，该边缘设备按照分配的训练轮数参与本轮训练。

获取参与本轮训练的边缘设备生成所述参与设备集合。

步骤102：获取本地数据样本。

步骤103：所述参与设备集合中的边缘设备接收所述中央模型和所述训练轮数，在满足所述阈值时间的条件下，利用所述本地数据样本以所述批大小更新本地模型的参数。所述本地模型植入在边缘设备中。

步骤104：采集本地信息，并基于所述本地信息构建环境的本轮状态。所述环境的本轮状态包括：本地模型的参数、通信时间、CPU利用率和训练能耗。

步骤105：更新所述环境的本轮状态，并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型，得到聚合中央模型。其中，所述聚合中央模型为：

；

式中，

为第t+1轮的聚合中央模型，

为第i个边缘设备的数据样本，

，N表示边缘设备的总数量，

为第t轮第i个边缘设备的本地模型的参数。

步骤106：确定所述聚合中央模型的精度。具体的：

获取测试集。

采用测试集确定所述聚合中央模型的精度。

步骤107：根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值。其中，策略模型的回报值为：

；

式中，

为第t轮策略模型的回报值，

为第t轮聚合中央模型的精度，

为第t-1轮聚合中央模型的精度，

为第t轮第i个边缘设备的通信时间，

为第t轮第i个边缘设备的训练能耗，

为第一权重系数，

为第二权重系数，

步骤108：根据更新后的所述环境的本轮状态，利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布。

步骤109：对所述正态分布进行采样得到新的训练轮数分配信息，并返回执行步骤103，直至超过所述阈值时间时，获取决策轨迹信息。所述决策轨迹信息包括多条决策轨迹。每一所述决策轨迹均包括：环境的本轮状态、策略模型的回报值和训练轮数。

为了进一步提高训练精确性，在步骤100获取中央模型和策略模型之后，本发明提供的边缘智能优化方法还包括：对所述中央模型和所述策略模型进行初始化处理。

本发明还提供了一种边缘智能优化装置，如图2所示，该装置包括：中央服务器和边缘设备。

所述中央服务器与所述边缘设备进行信息交互。

所述中央服务器中植入有中央模型和策略模型。所述中央服务器用于指定全局训练参数，基于所述训练轮数确定参与本轮训练的边缘设备，得到参与设备集合。所述全局训练参数包括：边缘设备的总数量、阈值时间、批大小和训练轮数。

所述边缘设备中植入有本地模型。所述参与设备集合中的边缘设备接收所述中央服务器中的中央模型和所述训练轮数，在满足所述阈值时间的条件下，利用本地数据样本以所述批大小更新本地模型的参数。

所述中央服务器用于采集本地信息，并基于所述本地信息构建环境的本轮状态。所述环境的本轮状态包括：本地模型的参数、通信时间、CPU利用率和训练能耗。

所述中央服务器用于更新所述环境的本轮状态，并基于更新后的环境的本轮状态中本地模型的参数和所述本地数据样本聚合所述中央模型，得到聚合中央模型。

所述中央服务器用于获取测试集，并采用测试集确定所述聚合中央模型的精度。

所述中央服务器用于根据所述聚合中央模型的精度、更新后的所述环境的本轮状态中的通信时间和更新后的所述环境的本轮状态中的训练能耗确定所述策略模型的回报值。

所述中央服务器用于根据更新后的所述环境的本轮状态，利用所述策略模型为每一参与本轮训练的边缘设备生成一个正态分布。

所述中央服务器用于对所述正态分布进行采样得到新的训练轮数分配信息，并将得到新的训练轮数分配信息发送给所述参与设备集合中的边缘设备，所述参与设备集合中的边缘设备接收所述中央模型和新的训练轮数后，在满足所述阈值时间的条件下，利用所述本地数据样本以所述批大小更新本地模型的参数，直至超过所述阈值时间时，获取决策轨迹信息。所述决策轨迹信息包括多条决策轨迹。每一所述决策轨迹均包括：环境的本轮状态、策略模型的回报值和训练轮数。

其中，所采用的所述边缘设备可以是树莓派、智能手机、电脑或监控摄像头。

下面以采用树莓派为边缘设备为例，对上述提供的边缘智能优化方法和装置的具体实施过程进行说明。

如图2所示，本实施例提供的边缘智能优化装置分为两部分，一部分是位于图2中左侧的中央服务器，由台式电脑担任，另一部分则是右侧的边缘设备，由多个树莓派构成，图2中各个符号的表示含义如下：

N为联邦学习的边缘设备（例如树莓派）总数量。B为联邦训练所用的批大小。

为阈值时间。E为不同树莓派训练轮数构成的向量，满足

，其中

表示第i个树莓派的训练轮数信息，其值为不超过阈值M的自然数。W表示模型参数矩阵，满足

，其中

表示第i个树莓派的模型参数。

表示通信时间向量，满足

，其中

表示第i个树莓派通信所花费的时间，包括上行和下行时间的总和。U为闲时CPU利用率构成的向量，定义为

，其中

表示第i个树莓派在未参与联邦训练时的CPU利用率（闲时利用率）。P为训练能耗向量，满足

，其中

表示第i个树莓派的训练总能耗，包括计算能耗和通信能耗。v表示中央模型在测试集上的测试精度。此外，为了表示不同轮数之间的信息，引入下标t加以区分，例如

分别表示第t轮的模型参数矩阵、第t轮第i个树莓派的能耗、第t轮中央模型的精度。

本实施例的基本思想是：在中央服务器端构建强化学习模型，在边缘设备端构建深度强化学习的环境，模型与环境不断进行交互，学习最优的训练轮数分配方案。具体来说，树莓派上一轮采集的模型参数

、训练的轮数

、通信时间

、闲时CPU占用率

和训练能耗

被建模为环境的本轮状态

，即

。为设备分配的训练轮数定义为树莓派的动作

。相邻两轮中央模型的精度

、本轮通信时间

以及通信能耗

被用于组建反馈给树莓派的价值函数（即回报值）

，满足

。树莓派的策略模型

将状态信息

作为输入，输出为训练轮数

。各个树莓派将根据

中的对应轮数信息参与联邦训练，采集本地模型参数

、通信时间

、闲时CPU利用率

和训练能耗

等信息并上传至中央服务器，更新模型参数

、通信时间

、通信能耗

以及闲时CPU占用率

，使得环境转移到下一个状态

。树莓派不断与环境进行交互，产生大量轨迹信息

用于策略模型

的更新，直至策略模型

收敛。

本实施例提供的优化方法，具体包括以下步骤：

步骤1、初始化中央模型

和策略模型

，指定全局训练参数联邦学习的树莓派总数量N，联邦训练所用的批大小B，阈值时间

和不同树莓派训练轮数构成的向量

。

步骤2、根据训练轮数向量

，为每个树莓派分配相应的训练轮数，若分配的训练轮数

，则第i个树莓派参与本轮训练并进行

轮迭代，若分配的训练轮数

，则表示第i个树莓派不参与本轮联邦训练，由此可确定本轮的参与设备集合

。

步骤3、在第t轮训练过程中，参与设备集合

中树莓派接收中央模型

和轮数信息

，在满足阈值时间

的条件下，利用本地数据样本

以批大小B更新本地模型

，并采集本地信息

，上传至中央服务器，本地模型更新使用公式（1）。

（1）

其中，

，为本地数据集的抽样样本，

为本地模型的参数，

为该样本的损失函数值，

为学习率，b=1,2,..,B。

步骤4、中央服务器接收树莓派上传的信息，更新

，并利用公式（2）聚合中央模型的得到聚合中央模型

，在测试集上评估聚合中央模型

的精度

，并根据公式（3）计算回报值

，用于评估策略模型

的好坏。

（2）

（3）

其中，

表示第i个树莓派上数据样本

的数量，

表示所有树莓派上样本的总数，

均为权重系数。

步骤5、强化学习树莓派根据状态

，利用策略模型

为每个设备生成一个正态分布，通过对每个正态分布进行采样，产生新的轮数分配信息

。

重复步骤2~5多次，直至超出时间阈值

，保存树莓派的决策轨迹

。

步骤6、树莓派根据公式（4）中的算法，利用多条轨迹信息

更新策略模型

。

（4）

其中，

表示更新后的策略模型

的参数，

表示策略模型

的参数，

分别表示轨迹的长度和数量，l=1,2,...,L，m=1,2,...,n，

表示折扣因子，x表示第t轮的轨迹长度，

分别表示第j条轨迹上第t轮的状态、动作和回报，

表示对应的累积折扣回报，基线

表示第t轮时j条轨迹的平均折扣回报，

表示赋值运算，

为梯度算子。

重复进行上述所有步骤，直至树莓派的策略模型收敛至最优解，得到联邦训练的优化模型。

基于上述描述，相对于现有技术，本发明提供的边缘智能优化方法和装置还具有以下优点：

1、本发明使用深度强化学习的方法来解决多目标多约束的优化问题。深度强化学习可以与边缘智能自动交互，可以自动学习并生成最优方案，无需复杂的数学建模过程，为优化联邦训练过程提供了新思路和新途径。

2、本发明通过为计算速度不同的设备分配不同的训练轮数，巧妙的平衡了各个设备间的计算异构问题，同时也能充分利用设备的算力，提高全局模型的训练速度，为联邦学习部署在实际环境中做出了新的尝试。

3、本发明可以节省边缘设备的能耗开销，而并不影响模型的训练速度和精度，可以提高联邦训练的经济效益，保障联邦训练的可持续性，从而进一步满足了边缘智能多目标优化的需要。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种边缘智能优化方法，其特征在于，包括：

步骤102：获取本地数据样本；

步骤106：确定所述聚合中央模型的精度；

2.根据权利要求1所述的边缘智能优化方法，其特征在于，所述基于所述训练轮数确定参与本轮训练的边缘设备，得到参与设备集合，具体包括：

基于所述训练轮数为边缘设备分配对应的训练轮数；

获取参与本轮训练的边缘设备生成所述参与设备集合。

3.根据权利要求1所述的边缘智能优化方法，其特征在于，在获取中央模型和策略模型之后，还包括：对所述中央模型和所述策略模型进行初始化处理。

4.根据权利要求1所述的边缘智能优化方法，其特征在于，所述确定所述聚合中央模型的精度，具体包括：

获取测试集；

采用测试集确定所述聚合中央模型的精度。

5.根据权利要求1所述的边缘智能优化方法，其特征在于，所述聚合中央模型为：

；

式中，

为第t+1轮的聚合中央模型，

为第i个边缘设备的数据样本，

，N表示边缘设备的总数量，

6.根据权利要求1所述的边缘智能优化方法，其特征在于，所述策略模型的回报值为：

；

式中，

为第t轮策略模型的回报值，

为第t轮聚合中央模型的精度，

为第t-1轮聚合中央模型的精度，

为第t轮第i个边缘设备的通信时间，

为第t轮第i个边缘设备的训练能耗，

为第一权重系数，

为第二权重系数，

7.一种边缘智能优化装置，其特征在于，包括：中央服务器和边缘设备；

所述中央服务器与所述边缘设备进行信息交互；

8.根据权利要求7所述的边缘智能优化装置，其特征在于，所述边缘设备为树莓派、智能手机、电脑或监控摄像头。