CN114422349A

CN114422349A - 基于云边端协同的深度学习模型训练和推理架构部署方法

Info

Publication number: CN114422349A
Application number: CN202210323840.6A
Authority: CN
Inventors: 郭永安; 周金粮; 王宇翱; 钱琪杰; 孙洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-04-29
Anticipated expiration: 2042-03-30
Also published as: CN114422349B

Abstract

本发明公开了基于云边端协同的深度学习模型训练和推理架构部署方法，基于云服务器、边缘服务器、物理终端，边缘服务器搭载训练模块、推理模块、态势感知中心；态势感知中心包括用于感知边缘服务器的计算资源、与边缘服务器间的带宽占用情况和物理距离计算的边缘服务器计算能力感知模块，以及用于感知边缘服务器与云服务器间的带宽占用情况、物理距离计算以及感知云服务器的计算资源的云服务器计算能力感知模块，训练模块和推理模块进行资源成本计算以决定架构部署。本发明充分调动了网络边缘侧的计算能力，同时为边缘侧赋予了智能决策能力，为边缘操作***在边缘侧的成功部署和对海量、复杂任务的时效计算给出了解决办法。

Description

基于云边端协同的深度学习模型训练和推理架构部署方法

技术领域

本发明涉及物联网操作***技术领域，具体涉及基于云边端协同的深度学习模型训练和推理架构部署方法。

背景技术

区别于传统的嵌入式***、物联网操作***等，边缘操作***旨在向下管理异构的计算资源，向上处理海量的异构数据及应用负载。同时针对云集中式计算模型导致的不可预测时延、带宽资源消耗高、隐私泄露等问题，边缘操作***通过将计算能力下沉到网络边缘侧，将计算任务同样卸载到网络边缘侧，实现低延迟、高能效的数据处理，再加以AI算法的能力驱动，进而在边缘侧实现海量数据的智能处理。

受限于边缘侧有限的计算资源，只能为部分AI算法提供能力支撑，无法保障AI算法在操作***层面的执行效率，当前的边缘操作***仍以云集中式计算模型为计算范式，仅仅赋予边缘侧低级的数据筛选能力，没有充分考虑物理终端、边缘服务器和云服务器的协作能力。

鉴于此，本发明提出一种面向边缘操作***的运算加速方法，将AI模型的训练、推理和部署同以边缘服务器为主体的“物理终端-边缘服务器-云服务器”协作机制充分结合，实现海量、复杂任务的时效计算。

发明内容

本发明的目的：在于提供基于云边端协同的深度学习模型训练和推理架构部署方法，充分结合“物理终端-边缘服务器-云服务器”协作机制，实现海量、复杂任务的时效计算。

为实现以上功能，本发明设计基于云边端协同的深度学习模型训练和推理架构部署方法，预设区域内设有一个云服务器，云服务器的通信范围内至少设有两个边缘服务器，各边缘服务器的通信范围内至少设有一个物理终端，各边缘服务器与其通信范围内的各物理终端之间的距离小于边缘服务器与云服务器之间的距离；其中，各边缘服务器搭载训练模块、推理模块、态势感知中心。

其中，态势感知中心包括边缘服务器计算能力感知模块、云服务器计算能力感知模块，针对云服务器的通信范围内任意一个边缘服务器i，边缘服务器i的边缘服务器计算能力感知模块用于获取在边缘服务器i通信范围内与其距离小于预设距离的各边缘服务器

的计算资源使用情况

、带宽占用情况

、物理距离

，以及边缘服务器i自身计算资源闲置率

，其中m为边缘服务器i通信范围内与其距离小于预设距离的各边缘服务器的编号，

，n为边缘服务器i通信范围内与其距离小于预设距离的边缘服务器总数；云服务器计算能力感知模块用于获取边缘服务器i所在的预设区域的云服务器的计算资源使用情况

、带宽占用情况

、物理距离

。

边缘服务器i中的边缘服务器计算能力感知模块以预设周期获取自身计算资源闲置率

，当边缘服务器i的自身计算资源闲置率

大于或等于预设上限值时，按如下步骤 S1-步骤S5获得使计算资源成本最小的资源成本模型，并依据该资源成本模型选择和部署对应的架构，完成深度学习模型的训练。

S1: 边缘服务器i通知其通信范围内的各物理终端收集计算数据，并对计算数据进行初步筛选，将初步筛选后的计算数据上传至边缘服务器i。

S2: 边缘服务器i针对收到的计算数据进行再次筛选，确定经过再次筛选后的计算数据的数据量d，同时基于边缘服务器计算能力感知模块、云服务器计算能力感知模块，计算边缘服务器i的自身计算资源闲置率

、边缘服务器i所在的预设区域的云服务器的计算资源使用情况

、边缘服务器i通信范围内与其距离小于预设距离的各边缘服务器的计算资源使用情况

、带宽占用情况

、物理距离

、边缘服务器i所在的预设区域的云服务器的带宽占用情况

、物理距离

。

S3:将步骤S2所获取的

传送至边缘服务器i的训练模块，基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第一资源成本模型如下式：

其中，第一资源成本模型对应边边协同训练架构，边边协同训练架构包括边缘服务器i、边缘服务器i通信范围内与其距离小于预设距离的边缘服务器

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第二资源成本模型如下式：

其中，第二资源成本模型对应边云协同训练架构，边云协同训练架构包括云服务器、边缘服务器i、边缘服务器i通信范围内与其距离小于预设距离的边缘服务器

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第三资源成本模型如下式：

其中，第三资源成本模型对应云训练架构，云训练架构包括云服务器；

式中：

表示近端策略优化算法计算。

S4:基于步骤S3中所获得的各资源成本模型的计算资源成本

，边缘服务器i的训练模块对计算资源成本

进行比较，选择计算资源成本最小的资源成本模型所对应的架构进行部署，并进行深度学习模型训练。

S5:基于经过边缘服务器i筛选后的各计算数据的参与训练，获得深度学习模型，将该深度学习模型存储至云服务器、以及边缘服务器i中，完成架构选择和部署。

作为本发明的一种优选技术方案：步骤S4中训练模块对各资源成本模型的计算资源成本

进行比较，若出现计算资源成本相同的情况，则以边边协同训练架构、边云协同训练架构、云训练架构优先级顺序进行选取。

作为本发明的一种优选技术方案：当物理终端向其通信范围内的边缘服务器i发出计算请求，并上传计算任务时，按如下步骤S11-步骤S14完成架构选择和部署：

S11:物理终端将位置信息发送至边缘服务器i，并对计算数据进行初步筛选，物理终端将经过筛选的计算数据传送至边缘服务器i。

S12:边缘服务器i接收来自物理终端的计算数据并进行再次筛选，确定再次筛选后的数据量d，边缘服务器i的边缘服务器计算能力感知模块、云服务器计算能力感知模块计算

，其中D为存储在边缘服务器i中的深度学习模型的数据量。

S13:将步骤S12所获得的

传送至边缘服务器i的推理模块，基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第四资源成本模型如下式：

其中，第四资源成本模型对应边边协同推理架构，边边协同推理架构包括边缘服务器i、边缘服务器i通信范围内与其距离小于预设距离的边缘服务器

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第五资源成本模型如下式：

其中，第五资源成本模型对应边云协同推理架构，边云协同推理架构包括云服务器、边缘服务器i、边缘服务器i通信范围内与其距离小于预设距离的边缘服务器

；

式中，

表示近端策略优化算法计算。

S14:边缘服务器i的推理模块计算各资源成本模型的计算资源成本

，并对计算资源成本

进行比较，选取计算资源成本最小的资源成本模型，并以该资源成本模型所对应的架构进行部署，根据边缘服务器i选定的架构，云服务器选择将部分或全部深度学习模型卸载到边缘服务器i上，同时缓存一份深度学习模型于当前边缘服务器i的推理模块中，若计算资源成本

相同，则按边边协同推理架构、边云协同推理架构优先级顺序进行选取。

作为本发明的一种优选技术方案：针对位置移动至边缘服务器i通信范围以外的物理终端，当物理终端向其通信范围内的边缘服务器发出计算请求，并上传计算任务时，按如下步骤S21-步骤S24完成架构选择和部署。

S21:物理终端将位置信息发送至其所属通信范围内的边缘服务器

，并对计算数据进行初步筛选，将经过筛选的计算数据传送至其所属通信范围内的边缘服务器

。

S22:边缘服务器

接收来自物理终端的计算数据并进行再次筛选，确定再次筛选后的数据量d，边缘服务器

的边缘服务器计算能力感知模块、云服务器计算能力感知模块计算

。

S23:将步骤S22所获得的

传送至边缘服务器

的推理模块，同时边缘服务器

向云服务器发出请求，并获取存储在云服务器中的资源成本模型的数据量D，基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第六资源成本模型如下式：

其中，第六资源成本模型对应边边协同推理架构，边边协同推理架构包括边缘服务器i、边缘服务器i通信范围内与其距离小于预设距离的边缘服务器

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第七资源成本模型如下式：

其中，第七资源成本模型对应边云协同推理架构，边云协同推理架构包括云服务器、边缘服务器i、边缘服务器i通信范围内与其距离小于预设距离的边缘服务器

；式中，

表示近端策略优化算法计算。

S24:边缘服务器

的推理模块计算各资源成本模型的计算资源成本

，并对计算资源成本

进行比较，选取计算资源成本最小的资源成本模型，并以该资源成本模型所对应的架构进行部署，根据边缘服务器

选定的架构，云服务器选择将部分或全部深度学习模型卸载到边缘服务器

上，同时缓存一份深度学习模型于当前边缘服务器

的推理模块中，若计算资源成本

有益效果：相对于现有技术，本发明的优点包括：

1.给出了多种深度学习模型的训练和推理模型架构，同时给出了以包含带宽占用量、计算资源占用量、物理距离、计算数据量和模型数据量在内的资源成本模型来决定训练和推理模型的架构选择和部署方法，以实现海量、复杂任务的时效计算。

2.多种训练和推理模型架构充分调动网络边缘侧的计算能力，同时为边缘侧赋予智能决策能力，为边缘操作***在边缘侧的成功部署和对边缘侧的进一步开发提供计算范式。

3.计算数据在物理终端和边缘服务器上进行两次数据筛选的方法，可进一步减轻边缘侧的计算压力。

4.本发明提供的训练模型更新方法可利用边缘服务器对自身计算资源的自感知来自动实现，无须工作人员手工更新，智能化程度更高。

附图说明

图1是根据本发明实施例提供的技术原理图；

图2是根据本发明实施例提供的训练模型部署的流程图；

图3是根据本发明实施例提供的训练模型架构图；

图4是根据本发明实施例提供的推理模型部署的流程图；

图5是根据本发明实施例提供的推理模型架构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。参照图1，本发明实施例提供的基于云边端协同的深度学习模型训练和推理架构部署方法，预设区域内设有一个云服务器，云服务器的通信范围内至少设有两个边缘服务器，各边缘服务器分管其所属的通信范围，各边缘服务器的通信范围内至少设有一个物理终端，物理终端发出的服务请求由该通信范围内的边缘服务器负责应答；各边缘服务器与其通信范围内的各物理终端之间的距离小于边缘服务器与云服务器之间的距离；边缘操作***运行在以上云服务器、边缘服务器和物理终端上，其中，各边缘服务器搭载训练模块、推理模块、态势感知中心。

的计算资源使用情况

、带宽占用情况

、物理距离

，以及边缘服务器i自身计算资源闲置率

、带宽占用情况

、物理距离

。

，当边缘服务器i的自身计算资源闲置率

大于或等于预设上限值时，在一个实施例中，当边缘服务器i的自身计算资源闲置率

大于或等于百分之y时，参照图2，按如下步骤S1-步骤S5获得使计算资源成本最小的资源成本模型，并依据该资源成本模型选择和部署对应的架构，完成深度学习模型的训练。

、带宽占用情况

、物理距离

、边缘服务器i所在的预设区域的云服务器的带宽占用情况

、物理距离

。

S3:参照图3，将步骤S2所获取的

传送至边缘服务器i的训练模块，基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第一资源成本模型如下式：

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第二资源成本模型如下式：

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第三资源成本模型如下式：

其中，第三资源成本模型对应云训练架构，云训练架构包括云服务器；式中：

表示近端策略优化算法计算。

S4:基于步骤S3中所获得的各资源成本模型的计算资源成本

，边缘服务器i的训练模块对计算资源成本

步骤S4中训练模块对各资源成本模型的计算资源成本

本发明实施例提供的基于云边端协同的深度学习模型训练和推理架构部署方法，当物理终端向其通信范围内的边缘服务器i发出计算请求，并上传计算任务时，参照图4，按如下步骤S11-步骤S14完成架构选择和部署。

，其中D为存储在边缘服务器i中的深度学习模型的数据量。

S13:参照图5，将步骤S12所获得的

传送至边缘服务器i的推理模块，基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第四资源成本模型如下式：

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第五资源成本模型如下式：

；式中，

表示近端策略优化算法计算。

，并对计算资源成本

本发明实施例提供的基于云边端协同的深度学习模型训练和推理架构部署方法，若物理终端的空间位置发生较大移动，则针对位置移动至边缘服务器i通信范围以外的物理终端，当物理终端向其通信范围内的边缘服务器发出计算请求，并上传计算任务时，按如下步骤S21-步骤S24完成架构选择和部署。

。

S22:边缘服务器

。

S23:参照图5，将步骤S22所获得的

传送至边缘服务器

的推理模块，同时边缘服务器

为输入，以所对应的计算资源成本

为输出，构建第六资源成本模型如下式：

。

基于近端策略优化算法，以

为输入，以所对应的计算资源成本

为输出，构建第七资源成本模型如下式：

；式中，

表示近端策略优化算法计算。

S24:边缘服务器的推理模块计算各资源成本模型的计算资源成本

，并对计算资源成本

上，同时缓存一份深度学习模型于当前边缘服务器

的推理模块中，若计算资源成本

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于云边端协同的深度学习模型训练和推理架构部署方法，其特征在于，预设区域内设有一个云服务器，云服务器的通信范围内至少设有两个边缘服务器，各边缘服务器的通信范围内至少设有一个物理终端，各边缘服务器与其通信范围内的各物理终端之间的距离小于边缘服务器与云服务器之间的距离；其中，各边缘服务器搭载训练模块、推理模块、态势感知中心；