CN116016538A

CN116016538A - 面向动态环境的边端协同推理任务卸载优化方法与***

Info

Publication number: CN116016538A
Application number: CN202310303751.XA
Authority: CN
Inventors: 郭永安; 周金粮; 王宇翱; 钱琪杰; 周沂
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-04-25

Abstract

本发明公开了面向动态环境的边端协同推理任务卸载优化方法与***。所述方法运行在物理终端、边缘集群、云服务器三个层次内，其中云服务器负责模型训练，并将模型下发至边缘集群；物理终端产生计算任务并向边缘集群提出计算请求；在边缘集群内，本方法会综合考虑高度动态的网络带宽和设备负载情况，通过将边端协同推理工作中涉及到的推理时延和传输时延转换为与计算任务复杂度、设备负载、张量数据和网络带宽等相关联的最优化问题，并分步决策出模型的多个最佳分割位置以优化通信和计算权衡，最终在保证模型准确率的前提下，最小化协同推理时延的同时提升边缘服务器的计算资源利用率。

Description

面向动态环境的边端协同推理任务卸载优化方法与***

技术领域

本发明属于边缘侧协同计算领域，具体涉及面向动态环境的边端协同推理任务卸载优化方法与***。

背景技术

为了满足低时延、高精度的CNNs（Convolutional Neural Networks, 卷积神经网络）推理需求，新兴的边端协同推理计算范式成为研究重点。然而，边端协同推理同样面临着两个需要解决的关键挑战：①如何根据设备负载进行推理任务分配，②在动态网络带宽条件下，如何决策出模型的最佳分割位置以平衡计算和通信开销。为了应对以上挑战，目前的研究工作主要集中在三个方面：模型架构优化、模型分割优化和硬件加速。其中模型架构优化通过采用模型裁剪技术和多分支CNN训练技术以减少计算开销；在模型分割方面，Neurosurgeon和Edgent尝试通过将CNN只分割成两部分以减少通信开销；硬件加速方面的研究工作主要围绕硬件加速平台CUDA展开。上述工作倾向于仅在CNN中寻找一个最佳分割点来优化协同推理时延，忽视了高度动态的网络带带宽和设备负载情况下多边缘服务器参与带来的推理加速。

发明内容

本发明的目的在于：通过将边端协同推理工作中涉及到的推理时延和传输时延转换为与计算任务复杂度、设备负载、张量数据和网络带宽等相关联的最优化问题并求解，在高度动态的网络带宽和设备负载环境中分步决策出CNN的多个最佳分割位置，实现多边缘服务器参与的低时延协同推理。为实现上述目的，本发明提供如下技术方案：

面向动态环境的边端协同推理任务卸载优化方法，包括如下步骤:

S1、将已训练好的CNN模型划分为 N层：，，， N层CNN含有个张量数据：和，其中，张量数据经过CNN的层计算后产生张量数据；

S2、离线学习阶段：采集边缘服务器自身负载情况，并计算待处理的CNN的层的计算复杂度，以边缘服务器自身负载情况、以及待处理的CNN的层的计算复杂度为输入，以已知的边缘服务器计算CNN模型层产生的实际分层计算时延为输出，构建并训练分层计算时延预测模型；

S3、初始化设置；

S4、物理终端将图像数据处理为分辨率相同、数据量大小相等的图像特征数据，即张量数据，并将发送给与其在同一局域网内的边缘服务器；

S5、边缘服务器判断即将处理张量数据的层是否为池化层，是则该池化层将张量数据处理为张量数据，然后执行步骤S8；否则执行步骤S6;

S6、边缘服务器采集边缘服务器、之间的网络带宽，计算理论数据传输时延，执行步骤S7;

S7、将实际的边缘服务器自身负载情况，以及计算得到的实际CNN的层的计算复杂度输入至步骤S2获得的分层计算时延预测模型，得到理论分层计算时延；边缘服务器动态比较理论分层计算时延是否小于等于理论分层计算时延与理论数据传输时延之和，是则由边缘服务器完成CNN的层的计算，并生成张量数据；否则边缘服务器借助无线网传输张量数据到边缘服务器，由边缘服务器完成CNN的层的计算，并生成张量数据；执行步骤S8；

S8、边缘服务器和代号互换，即和代号互换；

S9、判断 i是否等于 N，是则将张量数据发送给发出任务请求的物理终端；否则令，然后返回执行步骤S5。

进一步地前述的步骤S2中，CNN的层的计算复杂度包括卷积层的计算复杂度：

以及全连层的计算复杂度，分别如下式：

，

其中，、、依次表示输入CNN的层的张量数据的高度、宽度、通道数，表示输入CNN的层的卷积核的边长，表示输出CNN的层的张量数据的通道数；、分别表示输入CNN的层的张量数据的维数、输出CNN的层的张量数据的维数。

进一步地前述的步骤S2包括如下子步骤：

S201、采集当前边缘服务器的浮点计算能力、CPU使用率、GPU显存使用率、其他个边缘服务器的浮点计算能力、边缘服务器的CPU使用率、边缘服务器的GPU显存使用率；

S202、以边缘服务器的浮点计算能力、CPU使用率、GPU显存使用率和待处理的CNN的层的计算复杂度为输入，以已知的边缘服务器计算CNN模型层产生的实际分层计算时延为输出，构建分层计算时延预测模型，如下式：

。

进一步地前述的步骤S6中边缘服务器采集边缘服务器、之间的网络带宽，计算理论数据传输时延，如下式：

，

其中，为边缘服务器与边缘服务器间的网络带宽。

本发明另一方面提出面向动态环境的边端协同推理任务卸载优化***，其特征在于，包括：云服务器、与云服务器通信的至少两个边缘服务器，各边缘服务器的通信范围内至少设有一个物理终端，物理终端与边缘服务器的通信距离小于边缘服务器与云服务器的距离，云服务器通信范围内的任意一个边缘服务器，边缘服务器通信范围内与其物理距离小于预设距离的其他个边缘服务器，记为：，，，且这个边缘服务器也在云服务器的通信范围内，此个边缘服务器同边缘服务器一起组成边缘集群；

所述云服务器包括：模型训练模块、卷积神经网络，通信模块；

所述边缘服务器包括：态势感知中心、卷积神经网络、策略生成中心、通信模块；

所述物理终端包括通信模块；

所述模型训练模块用于训练卷积神经网络，所述卷积神经网络是服务于智能应用程序的层CNN；基于各个边缘服务器的离线样本数据存储模块采集模块采集到的信息，所述模型训练模块用于训练分层计算时延预测模型，并将训练好的模型发送给各个边缘服务器；所述通信模块用于云服务器、边缘服务器和物理终之间数据发送、接收；

所述态势感知中心包括工作负载感知模块、网络遥测模块；

所述工作负载感知模块用于采集边缘服务器浮点计算能力、CPU使用率、GPU显存使用率、其他个边缘服务器的浮点计算能力、边缘服务器的CPU使用率、边缘服务器的GPU显存使用率；

所述网络遥测模块用于动态采集边缘服务器与边缘服务器间的网络带宽；

所述策略生成中心包括离线样本数据存储模块、分层计算时延预测模块、传输时延计算模块、和决策信息生成模块；

所述离线样本数据存储模块，用于记录、采集任一存储边缘服务器在自身浮点计算能力、CPU使用率为、GPU显存使用率为，处理计算复杂度为的CNN的层产生的实际分层计算时延；

所述分层计算时延预测模块，内部存储分层计算时延预测模型，用于将实际的边缘服务器自身负载情况，以及计算得到的实际CNN的层的计算复杂度输入至分层计算时延预测模型，得到理论分层计算时延；

所述传输时延计算模块，用于边缘服务器采集边缘服务器、之间的网络带宽，计算理论数据传输时延；

所述卷积神经网络是服务于智能应用程序的 N层CNN；

所述策略信息生成模块，用于动态比较理论分层计算时延是否小于等于理论分层计算时延与理论数据传输时延之和，是则由边缘服务器完成CNN的层的计算，否则边缘服务器借助无线网传输张量数据到边缘服务器，由边缘服务器完成CNN的层的计算，直至 N个CNN层全部被计算完毕，获得张量数据；

所述通信模块用于云服务器、边缘服务器和物理终之间数据发送、接收。

相较于现有技术，本发明的有益效果如下：

1、本发明通过将边端协同推理工作中涉及到的推理时延和传输时延转换为与计算任务复杂度、设备负载、张量数据和网络带宽等相关联的最优化问题并求解，以实现边端协同加速推理。

2、本发明为应对高度动态的网络带宽和设备负载情况，分步决策出CNN的多个最佳分割位置以优化通信和计算权衡，其中边缘服务器计算资源利用率将在分层卸载策略的分步制定中得到提升。

3、以边缘集群为主导的CNN协同推理工作，将计算工作放在离物理终端更近的边缘侧，可有效保证计算数据的安全性和降低网络带宽的占用率。

附图说明

图1为本发明的CNN推理任务分层卸载原理图。

图2为本发明的技术原理图。

图3本发明的工作流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

如图3所示，本发明的流程图，面向动态环境的边端协同推理任务卸载优化方法，包括如下步骤：

S1、将已训练好的CNN模型划分为 N层：，，， N层CNN含有个张量数据：和，其中，张量数据经过CNN的层计算后产生张量数据

S2、离线学习阶段：采集边缘服务器自身负载情况，并计算待处理的CNN的层的计算复杂度，以边缘服务器自身负载情况、以及待处理的CNN的层的计算复杂度为输入，以已知的边缘服务器计算CNN模型层产生的实际分层计算时延为输出，构建并训练分层计算时延预测模型。具体包括以下步骤S201至步骤S202:

。

S3、初始化设置；

S6、边缘服务器采集边缘服务器、之间的网络带宽，计算理论数据传输时延，如下式：

，

其中，为边缘服务器与边缘服务器间的网络带宽。然后执行步骤S7。

S8、边缘服务器和代号互换，即和代号互换；

如图1所示，CNN模型划分为 N层：，，， N层CNN含有个张量数据：和，其中，张量数据经过CNN的层计算后产生张量数据。

CNN推理产生的时延消耗主要由计算各个CNN的层产生的分层计算时延组成。CNN的层可分为三类：卷积层、全连接层和池化层，其中卷积层的计算复杂度最高，全连接层次之，池化层运算最简单，可以忽略。各个CNN的层的计算复杂度用下式来表示：

如果CNN的层为卷积层，那么它的计算复杂度用表示；如果CNN的层为全连接层，那么它的计算复杂度用表示。为简化表达，本发明使用表征任一CNN的层的计算复杂度。式中，、、依次代表输入CNN的层的张量数据的高度、宽度、通道数，代表输入CNN的层的卷积核的边长，代表输出CNN的层的张量数据的通道数，、分别代表输CNN的层的张量数据的维数、输出CNN的层的张量数据的维数。

CNN推理任务卸载的含义：当一个计算节点处理完CNN的层后，生成张量数据，在有利的网络带宽和设备负载条件下，可选择由当前计算节点借助无线网传输张量数据给选定的其他计算节点，由选定的其他计算节点对下一个CNN的层进行处理，直至张量数据生成，CNN推理结束；即将一个完整的CNN推理任务分成若干份，由多个计算节点协同完成计算。

如图2所示，面向动态环境的边端协同推理任务卸载优化***，包括：云服务器、与云服务器通信的至少两个边缘服务器，各边缘服务器的通信范围内至少设有一个物理终端，物理终端与边缘服务器的通信距离小于边缘服务器与云服务器的距离，云服务器通信范围内的任意一个边缘服务器，边缘服务器通信范围内与其物理距离小于预设距离的其他个边缘服务器，记为：，，，且这个边缘服务器也在云服务器的通信范围内，此个边缘服务器同边缘服务器一起组成边缘集群；

云服务器包括：模型训练模块、卷积神经网络，通信模块；

边缘服务器包括：态势感知中心、卷积神经网络、策略生成中心、通信模块；

物理终端包括通信模块；

模型训练模块用于训练卷积神经网络，卷积神经网络是服务于智能应用程序的 N层CNN；基于各个边缘服务器的离线样本数据存储模块采集模块采集到的信息，模型训练模块用于训练分层计算时延预测模型，并将训练好的模型发送给各个边缘服务器；所述通信模块用于云服务器、边缘服务器和物理终之间数据发送、接收；

态势感知中心包括工作负载感知模块、网络遥测模块；

所述工作负载感知模块用于采集边缘服务器浮点计算能力、CPU使用率、GPU显存使用率、其他个边缘服务器的浮点计算能力、边缘服务器的CPU使用率、边缘服务器的GPU显存使用率。

所述卷积神经网络是服务于智能应用程序的层CNN；

所述策略信息生成模块，用于动态比较理论分层计算时延是否小于等于理论分层计算时延与理论数据传输时延之和，是则由边缘服务器完成CNN的层的计算，否则边缘服务器借助无线网传输张量数据到边缘服务器，由边缘服务器完成CNN的层的计算，直至个CNN层全部被计算完毕，获得张量数据；

虽然本发明已以较佳实施例阐述如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.面向动态环境的边端协同推理任务卸载优化方法，其特征在于，包括如下步骤:

S1、将已训练好的CNN模型划分为N层：，，，N层CNN含有个张量数据：和，其中，张量数据经过CNN的层计算后产生张量数据；

S3、初始化设置；

S8、边缘服务器和代号互换，即和代号互换；

S9、判断i是否等于N，是则将张量数据发送给发出任务请求的物理终端；否则令，然后返回执行步骤S5。

2.根据权利要求1所述的面向动态环境的边端协同推理任务卸载优化方法，其特征在于，步骤S2中，CNN的层的计算复杂度包括卷积层的计算复杂度：

以及全连层的计算复杂度，分别如下式：

，

；

3.根据权利要求2所述的面向动态环境的边端协同推理任务卸载优化方法，其特征在于，步骤S2包括如下子步骤：

S202、以边缘服务器的浮点计算能力、CPU使用率、GPU显存使用率和待处理的CNN的层的计算复杂度为输入，以已知的边缘服务器计算CNN模型层产生的实际分层计算时延为输出，构建分层计算时延预测模型，如下式：。

4.根据权利要求3所述的面向动态环境的边端协同推理任务卸载优化方法，其特征在于，步骤S6中边缘服务器采集边缘服务器、之间的网络带宽，计算理论数据传输时延，如下式：

，

其中，为边缘服务器与边缘服务器间的网络带宽。

5.面向动态环境的边端协同推理任务卸载优化***，其特征在于，包括：云服务器、与云服务器通信的至少两个边缘服务器，各边缘服务器的通信范围内至少设有一个物理终端，物理终端与边缘服务器的通信距离小于边缘服务器与云服务器的距离，云服务器通信范围内的任意一个边缘服务器，边缘服务器通信范围内与其物理距离小于预设距离的其他个边缘服务器，记为：，，，且这个边缘服务器也在云服务器的通信范围内，此个边缘服务器同边缘服务器一起组成边缘集群；

所述物理终端包括通信模块；

所述模型训练模块用于训练卷积神经网络，所述卷积神经网络是服务于智能应用程序的N层CNN；基于各个边缘服务器的离线样本数据存储模块采集模块采集到的信息，所述模型训练模块用于训练分层计算时延预测模型，并将训练好的模型发送给各个边缘服务器；所述通信模块用于云服务器、边缘服务器和物理终之间数据发送、接收；

所述态势感知中心包括工作负载感知模块、网络遥测模块；

所述卷积神经网络是服务于智能应用程序的层CNN；