CN113762479A

CN113762479A - 一种神经网络优化方法和装置

Info

Publication number: CN113762479A
Application number: CN202111060216.3A
Authority: CN
Inventors: 徐友庆; 高成; 关晨; 孟祥峰
Original assignee: Shenzhen Park Sheng Intelligent Technology Co ltd
Current assignee: Shenzhen Park Sheng Intelligent Technology Co ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-07

Abstract

本发明公开了一种神经网络优化方法和装置。其中，所述方法包括：基于多分支的可融合残差结构进行模型训练，并提取训练后的模型参数；利用融合算子对训练后的可融合残差结构型进行结构转换，以得到单分支残差结构；将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。本发明通过设计实现了可融合残差模块，对残差模块进行结构替换，充分利用了多分支结构和单分支结构的优点，提高网络部署运行时的内存效率和并行度，节省网络资源消耗，加快网络推理速度；采用重参数化的方法进行参数压缩，减少了因裁剪参数和连接带来的精度下降问题。

Description

一种神经网络优化方法和装置

技术领域

本发明实施例涉及神经网络技术领域，尤其涉及一种神经网络优化方法和装置。

背景技术

近年来，随着深度学习的快速发展，深度学习已在许多任务取得了优异的性能表现，使其越来越多的应用在众多生活与工业领域。目前部署深度神经网络模型分为Online在线部署和Offline离线部署两种方式。在大多实际工业生产环境下通常使用Offline部署，它本地处理数据而不经过网络，安全性与实时性能够得到保障。但是对于计算资源有限的嵌入式端侧设备来说，深度神经网络对计算力的海量需求是不可接受的。同时，对于使用电池的嵌入式移动设备来说，繁重的计算会很快耗尽其有限的电池电量。

要解决深度神经网络在嵌入式设备的部署困境，仅仅靠传统的方法已经出现瓶颈。简单的增加嵌入式设备的DRAM内存容量和加强CPU运算能力，并不能匹配神经网络的发展速度。并且在许多工业场景下，对嵌入式设备有严格的体积和功耗限制，这对神经网络在嵌入式设备上的部署提出了巨大挑战。要解决神经网络在嵌入式设备上的部署内存和功耗的限制要求，因此，一个满足嵌入式有限硬件资源的一个可行的神经网络部署方案就诞生了，即神经网络模型压缩。

然而，传统的神经网络模型压缩方法在对训练后网络模型裁剪掉冗余的连接和参数，从而减少参数量。由于这些压缩方法并不会改变网络的整体架构，只是裁掉多余的连接和参数，这样会让模型损失部分精度；此外，传统的神经网络架构并不能同时利用多分支结构和单分支结构的优势，导致神经网络推理效能低。

发明内容

本发明提供一种神经网络优化方法和装置，以实现有效的减少模型参数并提高神经网络的推理效能。

第一方面，本发明实施例提供了一种神经网络优化方法，包括：

基于多分支的可融合残差结构进行模型训练，并提取训练后的模型参数；

利用融合算子对训练后的可融合残差结构型进行结构转换，以得到单分支残差结构；

将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。

可选的，所述可融合残差结构由残差结构去掉两个连续卷积核之间的relu层得到。

可选的，所述可融合残差结构中的卷积核结构包括：一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。

可选的，利用融合算子对训练后的可融合残差结构型进行结构转换，包括：

遍历神经网络中所有的可融合残差结构；

将所述可融合残差结构中的卷积核输入带入到批归一化层的公式中，以得到融合了批归一化层的卷积核。

所述可融合残差结构中每个卷积核将其前一个卷积核层的输出作为输入，并将输出反馈到其后一个卷积核，以实现卷积核和卷积核合并。

第二方面，本发明实施例还提供了一种神经网络优化装置，包括：

训练模块，用于基于多分支的可融合残差结构进行模型训练，并提取训练后的模型参数；

融合模块，用于利用融合算子对训练后的可融合残差结构型进行结构转换，以得到单分支残差结构；

部署推理模块，用于将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。

本发明针对多分支网络的内存低效和低并行度结构，提出可融合的残差模块，采用重参数化技术，针对类ResNet网络，通过替换可融合残差模块，对残差模块进行结构替换，在部署时将残差结构融合为一个卷积，避免了网络的多分支结构带来了额外的内存消耗，同时减少了网络深度，提高网络部署运行时的内存效率和并行度，节省网络资源消耗，加快网络推理速度；同时提出多种等效卷积结构和异性卷积结构，增强可融合残差模块的性能。

附图说明

图1为本发明实施例提供的一种神经网络优化方法的流程图；

图2为本发明实施例提供的可融合残差结构示意图；

图3是本发明实施例提供的1乘1卷积核的等价扩充示意图；

图4是本发明实施例提供的一种神经网络优化装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例

图1为本发明实施例提供的一种神经网络优化方法的流程图，具体包括如下步骤：

S110、基于多分支的可融合残差结构进行模型训练，并提取训练后的模型参数。

参见图2，图2为本发明实施例提供的可融合残差结构示意图。本实施例中的可融合残差结构通过去掉两个连续卷积层之间的relu层，去除掉卷积层之间的非线性关系，从而使其能够融合。进一步的，上述可融合残差结构采用131结构，即一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。

本实施例中，在3乘3的卷积核处，通过加宽通道数以减少因去除掉relu层所带来的精度下降问题。

S120、利用融合算子对训练后的可融合残差结构型进行结构转换，以得到单分支残差结构。

具体的，采用融合算子对训练后的模型参数进行结构转换主要包括：卷积核和批归一化层合并、卷积核和卷积核合并以及卷积核水平合并三部分。

(1)卷积核和批归一化层合并

本实施例中，通过遍历神经网络中所有的可融合残差结构，并将所述可融合残差结构中的卷积核输入带入到批归一化层的公式中，以得到融合了批归一化层的卷积核。

具体的，卷积核的公式为：

Conv(X)＝WX+b

其中，X为输入图像矩阵，W为参数矩阵，b为偏置矩阵。

将卷积核的输出带入到批归一化层的公式中得到如下表达式：

其中，其中mean和var分别是输入矩阵X的均值和方差，γ和β分别是归一化层中的缩放因子和偏置。

令：

其中，W_fused是融合后的参数矩阵，B_fsued是融合后的偏置矩阵。

则得到如下表达式，这其实就是一个融合了批归一化后的卷积核表达式。

Conv_fused(X)＝BN(Conv(X))

＝W_fusedX+B_fused

其中，Conv_fused是批归一化和卷积核融合后的卷积核表达式，由W_fused和B_fsued组成。

(2)卷积核和卷积核合并

本实施例中，将batchnorm层融合成卷积核层后，图2中的每个卷积核层直接相连，这意味着每个卷积核层将其前一个卷积核层的输出作为输入，并将输出反馈到其后一个卷积核层，以实现卷积核和卷积核的合并。

具体的表达式如下：

Conv₂(Conv₁(X))＝W₂(W₁X+b₁)+b₂

＝W₂W₁X+W₂b₁+b₂

＝(W₂W₁)X+(W₂b₁+b₂)

令：

W_fused＝(W₂W₁)b_fused＝(W₂b₁+b₂)

则得到如下表达式，这其实就是一个融合两个连续卷积核的等价表达式。

Conv_fused＝W_fusedX+b_fused

(3)卷积核水平合并

对于带有下采样的可融合残差结构，还需将跳层上的1乘1卷积核讲行水平合并。具体的，要水平合并，首先需要将直连上的1乘1卷积核等价扩充到3乘3卷积核，使其大小匹配，详见图3。1乘1卷积核可以看作是3乘3卷积核的特例，也就是说它可以用3乘3卷积核来表示。如图3所示，1乘1卷积核通过在1乘1卷积核周围填充零来扩展到3乘3卷积核。然后，通过将3乘3卷积核添加到扩展的3乘3卷积核的中心点上，可以将水平的3乘3卷积核合并为一个3乘3卷积核。

S130、将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。

示例性的，目标任务可以为在嵌入式设备上自动化评估矿化泡沫等级。针对此类场景，在云端训练时将可融合的ResNe网络保留精度，在部署时将其转换为单分支结构后部署在嵌入式设备端，能够明显提升推理速度，降低单次推理时延。

目标任务还可以为防范和侦测软件定义网络中的恶意流量。针对此类场景，应用可融合的ResNet网络能够有效的提升ResNet网络的推理速度，从而减少每次扫描网络流量的间隔，提升软件定义网络整体安全性。

进一步的，本发明实施例还提供了对应的实验验证结果，具体包括以下内容:

1、实验设置

实验训练时使用Pytorch进行训练，简单数据增强后的Cifar10、Cifar100数据集，训练120个周期，学习率变化为带5个epoch的预热的余弦退火函数，训练批量尺寸(batchsize)为256。实验测试时使用Pytorch作为测试的软件环境，服务器显卡为NVIDIAV100，嵌入式设备为NVIDIATX2，速度单位为示例/秒。在实验对比中，将所提出针对残差结构的分支融合方法应用于ResNet上，并与原始的ResNet在运行速度、模型精度以及内存消耗量上进行了比较。

OS	Ubuntu 16.04 Xenial
		CPU	2*Intel Xeon E5-2620 v4@32x3GHz
GPU	2*Nvidia Tesla V100
		RAM	256GB DDR4

表1训练服务器配置表

本实施例中的实验的训练服务器使用Intel Xeon E5服务器，配有2张NVIDIAV100显卡，其具体配置如表1所示。

表2 NVDIA TX2配置表

在部署时还在嵌入式平台上进行测试，使用Nvidia TX2作为部署环境，其搭载四核

MPCore,8GB 256位LPDDR4内存，操作***为Ubuntu 18.04。其具体配置如表2所示。

2、实验结果

模型	V100速度(FPS)	TX速度(FPS)	部署参数量(MB)
				ResNet18	1644.34	159.54	45
ResNet18*	3038.67	300.22	21
				ResNet34	1641.48	158.51	84
ResNet34	3031.32	298.60	39
				ResNet50	474.71	48.23	98
ResNet50*	2054.89	189.00	40
				ResNet101	277.84	28.86	171
ResNet101*	1200.04	112.75	78
				ResNet152	192.23	20.30	231
ResNet152*	834.63	79.34	110

表3在V100和TX2上的部署速度对比

表3为在服务器端与嵌入式端实际部署时的推理速度对比。本次测试将分支融合部署的ResNet18、ResNet34、ResNet50、ResNet101、ResNet152与其原始模型进行对比，推理时批量尺寸(batchsize)为64，实验表明，同精度的残差融合部署的模型在速度方面显著优于原有模型。可融合残差模块相对于BasicBlock(浅层ResNet)加速比为1.84左右，相对于Bottleneck(深层ResNet)加速比为4左右，同时参数量较原有ResNet少了一半左右。

表4 CIFAR10与CIFAR100上训练结果对比

表4为在Cifar10和Cifar100上的训练结果，本次测试将分支融合部署的ResNet18、ResNet34、ResNet50、ResNet101与其原始模型进行对比，同时加入VGG网络进行对比，通过连接可融合扩展模块恢复去掉非线性层的模型性能损失。其中ResNet50-之类带”-”号的模型是直接使用可融合残差模块替换对应ResNet生成的网络，可以看到，直接去掉残差模块中的非线性Relu层，相比于原网络会导致网路性能下降1％-2％的精度，ResNet50*之类带”*”号的模型是对可融合残差模块添加了多路扩展分支，用以提升模型性能。实验表明，经过可融合扩展模块，本实施例中的可融合残差模块与原ResNet网络精度基本一致。

3、实验结果分析

考虑到模型训练时和部署时的注重点不同，借助重参数化的思想，本实施例针对网络推理时的硬件运行效率，提出针对残差结构提出可融合的残差模块，优化部署时残差网络模型推理效率和内存效率。通过去除残差结构中的非线性层，在部署前融合多分支结构,去除模型分支结构同时减少模型层数，提高部署时内存效率和运行效率。首先，讨论了到线性网络结构和多分支网络结构各自的优点和局限性，其次通过微调ResNet网络结构，解耦网络的训练和部署，在训练时使用多分支残差网络结构，在部署时将其转化为线性网络结构，同时利用了单分支网络和多分支网络的优点而规避它们的缺点。最终获得相比于ResNet网络，在参数少一半的情况下，模型精度相当，加速比为1.8～4.4。

继续参见图4，图4为本发明实施例提供的一种神经网络优化装置，该装置包括：

训练模块210，用于基于多分支的可融合残差结构进行模型训练，并提取训练后的模型参数；

融合模块220，用于利用融合算子对训练后的可融合残差结构型进行结构转换，以得到单分支残差结构；

部署推理模块230，用于将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。

其中，所述融合模块220具体用于：遍历神经网络中所有的可融合残差结构；

其中，所述融合模块220具体用于：所述可融合残差结构中每个卷积核将其前一个卷积核层的输出作为输入，并将输出反馈到其后一个卷积核，以实现卷积核和卷积核合并。

其中，所述融合模块220具体用于：对于带有下采样的可融合残差结构，将直连上的1乘1卷积核展开为3乘3卷积核；

将展开后的3乘3卷积核的中心点添加到3乘3卷积核上，完成水平合并。

本发明实施例所提供的一种神经网络优化装置可执行本发明任意实施例所提供的一种神经网络优化方法，具备执行方法相应的功能模块和有益效果，不再进行赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种神经网络优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述可融合残差结构由残差结构去掉两个连续卷积核之间的relu层得到。

3.根据权利要求1所述的方法，所述可融合残差结构中的卷积核结构包括：一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。

4.根据权利要求1所述的方法，其特征在于，利用融合算子对训练后的可融合残差结构型进行结构转换，包括：

遍历神经网络中所有的可融合残差结构；

5.根据权利要求1所述的方法，其特征在于，利用融合算子对训练后的可融合残差结构型进行结构转换，包括：

6.根据权利要求2所述的方法，其特征在于，利用融合算子对训练后的可融合残差结构型进行结构转换，包括：

对于带有下采样的可融合残差结构，将直连上的1乘1卷积核展开为3乘3卷积核；

将展开后的3乘3卷积核的中心点添加到所述3乘3卷积核上，完成水平合并。

7.一种神经网络优化装置，其特征在于，包括：