CN115049055A

CN115049055A - 基于动态双可训练界限的超分神经网络的量化方法

Info

Publication number: CN115049055A
Application number: CN202210761410.2A
Authority: CN
Inventors: 纪荣嵘; 钟云山; 林明宝
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-13
Anticipated expiration: 2042-06-29
Also published as: CN115049055B

Abstract

基于动态双可训练界限的超分神经网络的量化方法，涉及人工神经网络的压缩与加速。1)统计超分神经网络每一层激活值的最大值分布和最小值分布；2)选择最大值分布方差和最小值分布方差之和最大的P％层，对其激活值应用具有可训练上界和下界的、具有动态门控制器的量化器，其他层的激活值应用有可训练上界和下界的量化器；3)对网络权重应用非对称的上界和下界的量化器；4)使用量化器量化神经网络，初始化动态门控制器的权重，使用L1损失、结构转移损失训练量化网络，直至达到预定的训练轮数；5)训练结束保留量化网络权重，即得量化后的量化网络。

Description

基于动态双可训练界限的超分神经网络的量化方法

技术领域

本发明涉及人工神经网络的压缩与加速，尤其是涉及一种基于动态双可训练界限的超分神经网络的量化方法。

背景技术

单图像超分辨率(SISR)是low-level计算机视觉领域中一个经典而又富有挑战性的研究课题。它的目标是从给定的低分辨率(LR)图像构造高分辨率(HR)图像。近年来伴随着深度卷积神经网络(DCNN)的革命，这导致了在SISR任务中的许多最新进展。回顾在SISR中DCNN的发展，破纪录的性能往往伴随着模型复杂性的急剧增加。SRCNN(Dong C,Loy CC,He K,et al.Learning a deep convolutional network for image super-resolution[C]//European conference on computer vision.Springer,Cham,2014:184-199.)是第一个将DCNN集成到SR的工作，它只有三个卷积层，总共有57K个参数。然后，EDSR(Lim B,SonS,Kim H,et al.Enhanced deep residual networks for single image super-resolution[C]//Proceedings of the IEEE conference on computer vision andpattern recognition workshops.2017:136-144.)构造了一个参数为1.5M的64层CNN。RDN(Zhang Y,Tian Y,Kong Y,et al.Residual dense network for image super-resolution[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:2472-2481.)配备了残余致密块，引入151个卷积层，参数为22M。此外，它需要大约5896G浮点运算(FLOPs)才能生成一幅1920x1080的图像(放大系数x4)。一方面，基于DCNN的SR模型的高内存占用和计算成本阻碍它们在许多资源匮乏的平台上的部署，如智能手机、可穿戴设备、嵌入式设备等。另一方面，SR在这些设备上尤其流行，用户拍摄后必须提高照片分辨率。因此，基于DCNN的SR模型的压缩已经得到了学术界和工业界的广泛关注。

通过离散DCNN内的全精度权重和激活，网络量化已成为最有前途的技术之一。它不仅减少低精度表示的内存存储，还减少更高效整数运算的计算成本。因此，为基于DCNN的SR模型挖掘专门的量化方法近年来在研究界引起越来越多的关注。例如，PAMS(Li H,YanC,Lin S,et al.Pams:Quantized super-resolution via parameterized max scale[C]//European Conference on Computer Vision.Springer,Cham,2020:564-580.)设计一个具有可学习剪裁的分层量化器，以处理大范围的激活，但在超低精度设置(例如2位和3位)中会出现严重的性能下降。最近的一项研究DAQ(Hong C,Kim H,Baik S,et al.DAQ:Channel-Wise Distribution-Aware Quantization for Deep Image Super-ResolutionNetworks[C]//Proceedings of the IEEE/CVF Winter Conference on Applications ofComputer Vision.2022:2675-2684.)采用一种基于通道分布的量化方案。尽管取得这些进展，但性能改进的代价是标准化和非标准化特征映射带来的巨大开销，以及昂贵的单通道量化器。

因此，在进行超低精度量化时，现有的研究要么陷入严重的额外成本，要么陷入严重的性能下降。

发明内容

本发明的目的是针对当前超分神经网络在执行低比特位量化时，提出一种基于动态双可训练界限的超分神经网络的量化方法，只需要应用本发明设计的分层量化器，可直接从头训练得到量化网络，同时性能更高。

本发明包括以下步骤：

1)统计超分神经网络每一层激活值的最大值分布和最小值分布；

2)选择最大值分布方差和最小值分布方差之和最大的P％层，对其激活值应用具有可训练上界和下界、具有动态门控制器的量化器，其他层的激活值应用有可训练上界和下界的量化器；

3)对网络权重应用非对称的上界和下界的量化器；

4)使用量化器量化神经网络，初始化动态门控制器的权重，使用L1损失、结构转移损失训练量化网络，直至达到预定的训练轮数；

5)训练结束保留量化网络权重，即得量化后的量化网络。

在步骤1)中，所述统计超分神经网络每一层激活值的最大值分布和最小值分布，使用预训练好的超分神经网络前向训练集合的图片，记录每一层激活值的最大值和最小值；预训练好的超分神经网络指的是已经在目标数据集上训练好的网络模型。

在步骤2)中，所述选择最大值分布方差和最小值分布方差之和最大的P％层，对其激活值应用具有可训练上界和下界、具有动态门控制器的量化器，其他层的激活值应用有可训练上界和下界的量化器的具体方法为：使用步骤1)得到的每一层最大值分布，统计该分布的方差，记为

为第l层的最大值分布的方差，使用步骤1)得到的每一层最小值分布，统计该分布的方差，记为

为第l层的最小值分布的方差；加和第l层最大值分布方差和最小值分布方差，记为

选择DI^l值最大的P％的层应用具有可训练上界和下界的、具有动态门控制器的量化器，其他层应用有可训练上界和下界的量化器；

其中，具有可训练上界和下界的量化器设计如下：

其中，α_l，α_u分别表示可训练上界和下界；F表示网络的激活值；round表示把其输入舍入到最近的整数；

是缩放因子，用于把一个全精度数和整数的相互转换，b表示量化位宽；

所述动态门控制器设计如下：

β_l，β_u＝2*Sigmoid(Conv2(BN(Conv1(AvgPooling(F)))))

其中，AvgPooling表示平均池化，把输入的特征图F从C*H*W池化成C*1*1，随后Conv1是一个1*1卷积，输出通道数是32，BN表示Batchnormalization层，Conv2是一个1*1卷积，输出通道数是2，最后再通过一个Sigmoid函数，并乘以2；得到β_l，β_u两个调整系数，其取值范围是[0，2]，分别将β_l，β_u乘以l，u来动态地基于输入特征图F调整其的可训练上界和下界；此时，具有可训练上界和下界的、具有动态门控制器的量化器为：

其中，α′_l＝α_l*β_l，α′_u＝α_u*β_u；注意α_u，α_l可训练；对于激活值，使用逐层量化的方式。

在步骤3)中，所述非对称的上界和下界的量化器定义如下：

其中，w_l，w_u分别取权重的(100-M)分位数和M分位数；F表示网络的激活值；round表示把其输入舍入到最近的整数；

是缩放因子，用于把一个全精度数和整数的相互转换，b表示量化位宽；对于权重，使用逐层的量化方式。

在步骤4)中，所述使用量化器量化神经网络，初始化动态门控制器的权重，使用L1损失、结构转移损失训练量化网络，直至达到预定的训练轮数，包括：

所述L1损失：

所述结构转移损失：

其中，F′_s，F′_T分别是全精度网络和量化网络激活值结构特征，如下计算：

其中，F∈R^C*H*w是高级特征模块的输出；

总的损失函数：

L＝L₁+1000L_SKT

本发明可应用于在图像超分领域上的卷积神经网络，与现有技术相比，本发明具有以下突出优点：

通过大量的实验验证，本发明提出的基于动态双可训练界限的超分神经网络的量化方法不仅实现简单，计算量和参数额外开销小，且大大提高性能，同时性能超过各种主流的量化方法，尤其是在当所有层被量化为非常低的比特位时。

附图说明

图1为本发明的动态门控制器。

图2为本发明的算法框架图。

具体实施方式

本发明的目的是针对当前超分神经网络在执行低比特位量化时性能下降的问题，提出一种基于动态双可训练界限的超分神经网络的量化方法，只需要应用本发明设计的分层量化器，可直接从头训练得到量化网络，同时性能更高。涉及人工神经网络的压缩与加速。

本发明实施例算法框架图如图2所示。

1.符号说明

F(W¹，W²，...，W^L)表示一个L层的全精度卷积神经网络(CNN)，其中，Wⁱ表示第i个卷积层，该层的卷积核个数为outⁱ，该层的卷积核权重可以表示为：

其中，W_j ⁱ表示第i个卷积层的第j个卷积核，每个卷积核W_j ⁱ为，

其中，inⁱ，widthⁱ，heightⁱ分别是第i层的输入通道数、卷积核的宽和高。给定第i个卷积层的输入a^i-1(即上一层的输出)，则第i个卷积层的卷积结果可以表示为：

其中，

是j卷积结果的第j个通道，集合所有通道可以得到Oⁱ，

表示卷积运算。随后，将卷积结果通过激活函数，得到该层的最终输出激活值：

Aⁱ＝σ(Oⁱ)

σ表示激活函数。

量化算法的目标是得到一个可以用低比特位进行运算的神经网络，此时卷积运算表示为：

其中，

表示量化后的第i层第j个卷积核和第i层的输入的第j个通道。此时，量化算法能够获得一个L层的低精度卷积神经网络

其中，

表示已经被量化的第i个卷积层。

为了获得量化网络，对预训练的全精度网络进行量化。量化方式如下：

其中，l，u表示裁剪上下界。m表示全精度输入，可以是网络权重W或者激活值A。round表示把其输入舍入到最近的整数。

是缩放因子，用于把一个全精度数和整数的相互转换，b表示量化位宽。对于权重，使用了逐通道的量化方式，即每个输出通道都有单独的裁剪上下界和缩放因子。对于激活值，使用了逐层量化的方式，即每层共享同样的一个裁剪上下界和缩放因子。获得了量化值q后，可以用缩放因子将其反量化回

随后进行运算。对于两个量化后的值的卷积运算，可以使用：

其中，s₁，s₂可以预先计算保存，而q₁，q₂都是低精度值，因此可以只用低精度的卷积运算来代替原本的全精度运算。

2.动态双可训练界限的超分神经网络分析

现有的超分神经网络的量化方法都为激活值使用了对称量化器，在执行低比特位量化时性能会有显著下降。为了提高量化网络的性能，本发明一种基于动态双可训练界限的超分神经网络的量化方法。双可训练界限可以同时适应对称(设置α_l＝-α_u)和非对称的激活值，为了进一步适应动态变化的激活值，本发明还提出了动态门控制器，来基于输入动态调整裁剪阈值。在执行低比特位量化时，只需要应用本发明设计的分层量化器，可直接从头训练得到量化网络，同时性能更高。

3.训练说明

本发明包括以下步骤：

2)选择最大值分布方差和最小值分布方差之和最大的P％层，对其激活值应用具有可训练上界和下界的、具有动态门控制器的量化器，其他层的激活值应用有可训练上界和下界的量化器；

3)对网络权重应用非对称的上界和下界的量化器；

5)训练结束保留量化网络权重，即得量化后的量化网络。

在步骤1)中，统计超分神经网络每一层激活值的最大值分布和最小值分布，使用预训练好的超分神经网络前向训练集合的图片，记录每一层激活值的最大值和最小值。预训练好的超分神经网络指的是已经在目标数据集上训练好的网络模型。

在步骤2)中，选择最大值分布方差和最小值分布方差之和最大的P％的层，应用具有可训练上界和下界的、具有动态门控制器的量化器，其他层应用有可训练上界和下界的量化器。使用步骤1)得到的每一层最大值分布，统计该分布的方差，记为

为第1层的最大值分布的方差，使用步骤1)得到的每一层最小值分布，统计该分布的方差，记为

为第1层的最小值分布的方差。加和第l层最大值分布方差和最小值分布方差，记为

选择DI^l值最大的P％的层应用具有可训练上界和下界的、具有动态门控制器的量化器，其他层应用有可训练上界和下界的量化器。

其中，有可训练上界和下界的量化器设计如下：

其中，α_l，α_u分别表示可训练上界和下界。F表示网络的激活值。round表示把其输入舍入到最近的整数。

是缩放因子，用于把一个全精度数和整数的相互转换，b表示量化位宽。

动态门控制器设计如下：

β_l，β_u＝2*Sigmoid(Conv2(BN(Conv1(AvgPooling(F)))))

其中，AvgPooling表示平均池化，把输入的特征图F从C*H*W池化成C*1*1，随后Conv1是一个1*1卷积，输出通道数是32，BN表示Batchnormalization层，Conv2是一个1*1卷积，输出通道数是2，最后再通过一个Sigmoid函数，并乘以2。流程图参考图1。

最终得到β_l，β_u两个调整系数，其取值范围是[0，2]，分别将β_l，β_u乘以l，u来动态地基于输入特征图F调整其的可训练上界和下界。此时，具有可训练上界和下界的、具有动态门控制器的量化器为：

其中，α′_l＝α_l*β_l，α′_u＝α_u*β_u。注意α_u，α_l可训练。对于激活值，使用逐层量化的方式。

在步骤3)中，对网络权重应用非对称的上界和下界的量化器，非对称的上界和下界的量化器定义如下：

其中，w_l，w_u分别取权重的(100-M)分位数和M分位数。F表示网络的激活值。round表示把其输入舍入到最近的整数。

是缩放因子，用于把一个全精度数和整数的相互转换，b表示量化位宽。对于权重，使用逐层的量化方式。

4)使用量化器量化神经网络，初始化动态门控制器的权重，使用L1损失、结构转移损失训练量化网络，直至达到预定的训练轮数。

对权重和激活值都量化后，总的算法流程如图2所示。

L1损失：

结构转移损失:

其中，F′_s,F′_T分别是全精度网络和量化网络激活值结构特征，可以如下计算：

其中，F∈R^C*H*w是高级特征模块的输出。

总的损失函数：

L＝L₁+1000L_SKT

5)训练结束保留量化网络权重，即得量化后的量化网络。

4.实现细节

所有模型都在DIV2K的训练集上进行训练，包括800幅图像(Timofte R,AgustssonE,Van Gool L,et al.Ntire 2017challenge on single image super-resolution:Methods and results[C]//Proceedings of the IEEE conference on computer visionand pattern recognition workshops.2017:114-125.)，并在四个标准基准上进行测试，包括(Bevilacqua M,Roumy A,Guillemot C,et al.Low-complexity single-imagesuper-resolution based on nonnegative neighbor embedding[J].2012.)、Set14(Ledig C,Theis L,Huszár F,et al.Photo-realistic single image super-resolutionusing a generative adversarial network[C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.2017:4681-4690.)、BSD100(Martin D,Fowlkes C,Tal D,et al.A database of human segmented natural images and itsapplication to evaluating segmentation algorithms and measuring ecologicalstatistics[C]//Proceedings Eighth IEEE International Conference on ComputerVision.ICCV 2001.IEEE,2001,2:416-423.)和Urban100(Huang J B,Singh A,AhujaN.Single image super-resolution from transformed self-exemplars[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:5197-5206.)。评估x2和x4的两个放大因子。

量化SR模型包括EDSR(Lim B,Son S,Kim H,et al.Enhanced deep residualnetworks for single image super-resolution[C]//Proceedings of the IEEEconference on computer vision and pattern recognition workshops.2017:136-144.)、RDN(Zhang Y,Tian Y,Kong Y,et al.Residual dense network for image super-resolution[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:2472-2481.)和SRResNet(Ledig C,Theis L,Huszár F,etal.Photo-realistic single image super-resolution using a generativeadversarial network[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2017:4681-4690.)。将其量化为4位、3位和2位，并与SOTA竞争对手DoReFa(Zhou S,Wu Y,Ni Z,et al.Dorefa-net:Training low bitwidthconvolutional neural networks with low bitwidth gradients[J].arXiv preprintarXiv:1606.06160,2016.)、Tensorflow Lite(TF Lite)(Jacob B,Kligys S,Chen B,etal.Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2018:2704-2713.)、PACT(Choi J,Wang Z,Venkataramani S,et al.Pact:Parameterized clipping activation for quantizedneural networks[J].arXiv preprint arXiv:1805.06085,2018.)和PAMS(Li H,Yan C,Lin S,et al.Pams:Quantized super-resolution via parameterized max scale[C]//European Conference on Computer Vision.Springer,Cham,2020:564-580.)进行比较。

Y通道上的PSNR和SSIM(Wang Z,Bovik A C,Sheikh H R,et al.Image qualityassessment:from error visibility to structural similarity[J].IEEEtransactions on image processing,2004,13(4):600-612.)被作为评价指标。对于量化模型，量化高层特征提取模块的权重和激活。低级特征提取和重建模块设置为全精度。批量大小设置为16，优化器为Adam(Kingma D P,Ba J.Adam:A method for stochasticoptimization[J].arXiv preprint arXiv:1412.6980,2014.)，其中，β₁＝0.9$，β₂＝0.999$和∈＝10^-8。将初始学***均RGB对训练图像进行预处理。在训练过程中，采用随机水平翻转和垂直旋转来增加数据。所有实验都是用Pytorch(Paszke A,Gross S,Massa F,etal.Pytorch:An imperative style,high-performance deep learning library[J].Advances in neural information processing systems,2019,32.)实现的。

5.应用领域

本发明可以应用于超分卷积神经网络，以实现对超分卷积神经网络的压缩和加速。

表1、表2和表3分别显示EDSR、RDN和SRResNet在不同数据集上的定量结果。可以看出，在这些具有不同比特宽度的量化SR模型上，本发明(DDTB)始终优于所有比较方法。

表1

表2

表3

对于EDSR，在4位的情况下，本发明大大优于PAMS。例如，对于4位EDSRx4，本发明在Urban100上获得0.37dB的PSNR增益。在执行超低位量化时，可以观察到更显著的改进。例如，当量化EDSRx4到2位时，本发明在Set5、Set14、BSD100和Urban100上获得了0.94dB、0.66dB、0.36dB和0.70dB的性能增益。

对于RDN，将模型量化为4位时，本发明略优于现有的PACT。在超低比特率方面，优越的性能尤为明显。具体来说，对于2位RDNx4，本发明在Set5、Set14、BSD100和Urban100上的性能增益分别为0.64dB、0.45dB、0.26dB和0.51dB。

SRResNet的结果还表明，本发明在超低精度下的性能提升更为显著。对于2位SRResNetx4，本发明在Set5、Set14、BSD100和Urban100上的性能分别提高了0.65dB、0.47dB、0.30dB和0.69dB，而对于2位SRResNetx2，性能增益分别为1.15dB、0.79dB、0.67dB和1.80dB。

上述实施例仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.基于动态双可训练界限的超分神经网络的量化方法，其特征在于包括以下步骤：

3)对网络权重应用非对称的上界和下界的量化器；

5)训练结束保留量化网络权重，即得量化后的量化网络。

2.如权利要求1所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于在步骤1)中，所述统计超分神经网络每一层激活值的最大值分布和最小值分布，使用预训练好的超分神经网络前向训练集合的图片，记录每一层激活值的最大值和最小值；预训练好的超分神经网络指已经在目标数据集上训练好的网络模型。

3.如权利要求1所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于在步骤2)中，所述选择最大值分布方差和最小值分布方差之和最大的P％层，对其激活值应用具有可训练上界和下界、具有动态门控制器的量化器，其他层的激活值应用有可训练上界和下界的量化器的具体方法为：使用步骤1)得到的每一层最大值分布，统计该分布的方差，记为

选择DI^l值最大的P％的层应用具有可训练上界和下界的量化器和具有动态门控制器的量化器，其他层应用有可训练上界和下界的量化器。

4.如权利要求3所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于所述具有可训练上界和下界的量化器设计如下：

其中，α_l,α_u分别表示可训练上界和下界；F表示网络的激活值；round表示把其输入舍入到最近的整数；

5.如权利要求3所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于所述动态门控制器设计如下：

β_l，β_u＝2*Sigmoid(Conv2(BW(Conv1(AvgPooling(F)))))

其中，AvgPooling表示平均池化，把输入的特征图F从C*H*W池化成C*1*1，随后Conv1是一个1*1卷积，输出通道数是32，BN表示Batchnormalization层，Conv2是一个1*1卷积，输出通道数是2，最后再通过一个Sigmoid函数，并乘以2；得到β_l,β_u两个调整系数，其取值范围是[0，2]，分别将β_l,β_u乘以l,u来动态地基于输入特征图F调整其的可训练上界和下界。

6.如权利要求1所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于在步骤2)中，具有可训练上界和下界、具有动态门控制器的量化器为：

其中，α′_l＝α_l*β_l,α′_u＝α_u*β_u；注意α_u,α_l可训练；对于激活值，使用逐层量化的方式。

7.如权利要求1所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于在步骤3)中，所述非对称的上界和下界的量化器定义如下：

其中，w_l,w_u分别取权重的(100-M)分位数和M分位数；F表示网络的激活值；round表示把其输入舍入到最近的整数；

8.如权利要求1所述基于动态双可训练界限的超分神经网络的量化方法，其特征在于在步骤4)中，所述使用量化器量化神经网络，初始化动态门控制器的权重，使用L1损失、结构转移损失训练量化网络，直至达到预定的训练轮数，其中：

所述L1损失：

所述结构转移损失：

其中，F∈R^C*H*w是高级特征模块的输出；

总的损失函数：

L＝L₁+1000L_SKT。