CN117392406A

CN117392406A - 一种单阶段实时目标检测模型低位宽混合精度量化方法

Info

Publication number: CN117392406A
Application number: CN202311469836.1A
Authority: CN
Inventors: 吕建成; 刘鑫宇; 汤臣薇; 杨嘉铭; 余镇冬; 周文强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-01-12

Abstract

本发明公开了一种单阶段实时目标检测模型低位宽混合精度量化方法，涉及深度学习模型压缩技术领域，包括以下步骤：获取用于构建训练集的场景图像，并利用标注软件对场景图像进行标注，获得训练集和测试集；基于YOLOv5网络构建含量化节点的网络模型；基于训练集和测试集，利用渐进式量化策略对网络模型进行分段训练和微调，获得混合精度量化模型；对混合精度量化模型进行优化处理，获得能够部署于边缘检测设备的轻量级模型，完成单阶段实时目标检测模型低位宽混合精度的量化。本发明解决了现有模型量化方法的压缩程度无法满足部分业务场景低存储、低功耗的需求、受限的计算资源，以及无法保证量化后模型性能的问题。

Description

一种单阶段实时目标检测模型低位宽混合精度量化方法

技术领域

本发明涉及深度学习模型压缩技术领域，特别是涉及一种单阶段实时目标检测模型低位宽混合精度量化方法。

背景技术

目标检测是一个在计算机视觉领域被广泛研究，实际工业场景中被广泛应用的技术。通常，目标检测方法可以分为两种类型:以Region-Convolution Neural Network(RCNN)为代表的双阶段目标检测算法和以You Only Look Once(YOLO)系列为代表的单阶段目标检测算法，而YOLO算法将目标分类和定位回归的双重功能集成为一种单阶段的网络架构，减少了计算延迟，提高了实时检测性能，进而在众多工业场景下受到青睐。

由于网络模型所含参数量多，计算量大，而部分用于边缘计算的设备如现场可编程门阵列FPGA等，以及一些应用边缘计算的场景如无人车、无人机以及移动设备等，对模型存储消耗，模型推理速度，模型推理功耗，模型推理内存占用等方面有相应的限制，不能满足较大规模的模型的部署。

为应对该挑战，模型量化技术受到广泛关注，通过将模型中浮点数表示的权重与激活输入映射到相应的定点数，显著加速了模型的计算与访存，同时根据量化位宽的选择对模型体积实现了成比例的压缩。目前模型量化技术包括低比特训练后量化、低比特量化感知训练与二值化神经网络。低比特训练后量化通过将训练好的全精度模型参数通过量化函数映射到低位宽定点数(通常为8比特)，再采用少量校准数据集调整数值范围得到量化模型。低比特量化感知训练通过在网络结构中***伪量化节点模拟量化过程精度损失，并在微调后对参数进行对应位宽的量化得到量化模型。二值化神经网络则是将网络的权重与激活值量化为1/-1两种数值，利用1比特数据间的XNOR型位运算等价1/-1间的卷积运算以加速网络推理。

然而现有模型量化方法的压缩程度无法满足部分业务场景低存储、低功耗的需求、受限的计算资源，以及无法保证量化后模型的性能。

发明内容

针对现有技术中的上述不足，本发明提供的一种单阶段实时目标检测模型低位宽混合精度量化方法解决了现有模型量化方法的压缩程度无法满足部分业务场景低存储、低功耗的需求、受限的计算资源，以及无法保证量化后模型性能的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种单阶段实时目标检测模型低位宽混合精度量化方法，包括以下步骤：

S1：根据单阶段实时目标检测模型，获取用于构建训练集的场景图像，并利用标注软件对场景图像进行标注，获得训练集和测试集；

S2：基于YOLOv5网络构建含量化节点的网络模型；

S3：基于训练集和测试集，利用渐进式量化策略对网络模型进行分段训练和微调，获得混合精度量化模型；

S4：对混合精度量化模型进行优化处理，获得能够部署于边缘检测设备的轻量级模型，完成单阶段实时目标检测模型低位宽混合精度的量化。

上述方案的有益效果是：本发明针对网络的Backbone和Neck采用不同的低位宽量化方法，并设计了适配的可端到端训练的模型结构，同时使用渐进式训练策略，相比一步式量化微调方法，本方案将整个混合精度量化过程分解为三个阶段，按全精度预训练模型，1比特Backbone网络，4比特Head网络的顺序执行模型量化。本方案解决了现有模型量化方法的压缩程度无法满足部分业务场景低存储、低功耗的需求、受限的计算资源，以及无法保证量化后模型性能的问题。

进一步地，S1中包括以下分步骤：

S1-1：根据单阶段实时目标检测模型适用的检测场景，获取对应的场景图像；

S1-2：对获取的场景图像进行预处理后并进行标注；

S1-3：对标注的图像进行几何增强处理和马赛克数据增强处理；

S1-4：将增强后的图像划分为训练集和测试集。

上述进一步方案的有益效果是：通过获取场景图像并对其进行一系列处理，保证数据的准确性，提高模型训练的精度。

进一步地，S2中网络模型包括Backbone部分和Head部分，所述Backbone部分采用CSPDarknet结构，所述Head部分引入FPN结构。

上述进一步方案的有益效果是：在YOLOv5网络的基础上，使用CSPDarknet作为Backbone，具有跨阶段连接设计以提高特征提取效率与性能，Head引入FPN(FeaturePyramid Network)结构用于融合不同层级的特征图以提高检测性能。

进一步地，Backbone部分中将卷积模块设计为1比特量化卷积模块，设计方法包括以下分步骤：

A1：对输入特征图进行逐通道的偏移，并对权重进行标准化操作，所述偏移公式为：

x＝x_(B*C*W*H)+b_(1*C*1*1)

其中，x为偏移后的特征图，x_(B*C*W*H)为输入特征图，b_(1*C*1*1)为偏移值，B为批量，C为通道数，W为特征图宽度，H为特征高度；

所述标准化操作公式为：

其中，w为权重，Mean(·)为权重均值，Std(·)为权重标准差；

A2：利用符号函数对偏移和标准化操作后的激活值与权重进行1比特量化，并基于量化结果进行梯度估计与梯度裁剪，所述梯度裁剪公式为：

其中，g_x为第一浮点数梯度，为第一定点数梯度，g_w为第二浮点数梯度，/>为第二定点数梯度，max(·)为最大值，min(·)为最小值；

A3：将量化后的激活值绝对值大于1的梯度裁剪为0，并将量化后的权重绝对值大于1和小于-1的梯度分别裁剪为1和-1；

A4：基于裁剪结果，利用1比特权重与激活值进行XNOR和popcount型卷积计算，当此次卷积的卷积核尺寸为1时，在BatchNorm层后加入量化前的残差连接，并使用PReLU函数作为激活层，完成1比特量化卷积模块的设计。

上述进一步方案的有益效果是：通过上述技术方案，在激活值量化前对输入特征图进行逐通道的偏移，在权重值量化前对权重进行标准化操作，同时利用符号函数对激活值和权重进行1比特量化，并对符号函数进行梯度估计与梯度裁剪，完成1比特量化卷积模块的设计。

进一步地，Head部分中将卷积模块设计为4比特量化卷积模块，设计方法包括以下分步骤：

B1：利用尺寸参数对数值进行缩放处理，以对齐不同位宽的骨干网络和头部网络间的数据流和梯度流，公式为：

其中，h_x为第三浮点数梯度，s为尺寸参数，Q_N为量化位宽决定的数值上界，Q_P为量化位宽决定的数值下界；

B2：基于缩放处理，对权重和激活值进行4比特量化；

B3：基于量化结果，利用4比特的权重与激活值做定点数卷积，在BatchNorm层后使用SiLU函数作为激活层，完成4比特量化卷积模块的设计。

上述进一步方案的有益效果是：通过上述技术方案，在对激活值和权重进行量化前，先乘一个可学***滑性。

进一步地，S2中网络模型还包括量化检测模块，所述量化检测模块的损失函数Loss为：

Loss＝L_conf+L_rect+L_class

其中，L_conf为区分前后景的置信度损失函数，L_rect为目标定位回归损失函数，L_class为检测模块分类损失函数；

其中，α_co为置信度损失函数的含平衡正负样本的平衡因子，p(c_co)为网络输出的置信度概率，γ_co为置信度损失函数的含平衡难易样本的平衡因子，log(·)为对数，y_co为置信度标签；

其中，IOU为预测框与真实框的交并比值，d为预测框与真实检测框的中心点距离，D为预测框与真实检测框的最远端点距离，v为衡量预测框与真实框的宽高比例因子，B_pred为检测模块生成的预测框面积，B_ground为真实检测框的面积，∩为交集，∪为并集，w^gt为真实框宽度，h^gt为真实框高度，w^p为预测框宽度，h^p为预测框高度；

其中，α_cl为分类损失函数的含平衡正负样本的平衡因子，p(c_cl)为网络输出的类别概率，γ_cl为分类损失函数的含平衡难易样本的平衡因子，y_cl为类别标签。

上述进一步方案的有益效果是：量化卷积模块的损失包括区分前后景的置信度损失函数、目标定位回归损失函数和分类损失函数，通过使用上述损失函数对模型进行计算，进一步提高模型的准确性。

进一步地，S3中包括以下分步骤：

S3-1：关闭所有量化卷积模块，并利用划分好的训练集与测试集训练网络模型；

S3-2：将训练好的网络模型作为下一阶段的预训练模型，开启Backbone1比特量化模块，并使用相同的数据集微调Backbone；

S3-3：将微调完的Backbone的网络模型作为下一阶段的预训练模型，开启Head 4比特量化模块，并使用相同的数据集微调Head，获得具有1比特Backbone和4比特Head的混合精度量化模型。

上述进一步方案的有益效果是：通过对网络模型进行训练和微调，能最大化模型收敛速度，减小量化带来的信息损失引起的模型性能退化以及训练过程的不平滑。

进一步地，S4中包括以下分步骤：

S4-1：将混合精度量化模型转换为ONNX模型文件，将模型参数保存为对应位宽的量化后定点数，去除网络Neck部分并计算特征图中的伪量化节点；

S4-2：基于特征图中的伪量化节点，根据网络Neck的各层特征图激活值信息，准备包含各层激活值边界、尺度及偏移的量化配置文件进行模型优化，获得能够部署于边缘检测设备的轻量级模型。

上述进一步方案的有益效果是：基于上述技术方案，最终获得通过使用场景所对应的部署框架转化得到所需的可部署模型。

附图说明

图1为一种单阶段实时目标检测模型低位宽混合精度量化方法流程图。

图2为YOLOv5网络结构图。

图3为混合精度量化框图。

图4为渐进式量化策略框图。

图5为渐进式量化策略对模型端到端平滑训练有效性的曲线图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，一种单阶段实时目标检测模型低位宽混合精度量化方法，包括以下步骤：

S2：基于YOLOv5网络构建含量化节点的网络模型；

S1中包括以下分步骤：

S1-2：对获取的场景图像进行预处理后并进行标注；

S1-4：将增强后的图像划分为训练集和测试集。

S2中网络模型包括Backbone(骨干网络)部分和Head(头部网络)部分，所述Backbone部分采用CSPDarknet结构，所述Head部分引入FPN结构，如图2所示。

如图3所示，Backbone部分中将卷积模块设计为1比特量化卷积模块，设计方法包括以下分步骤：

x＝x_(B*C*W*H)+b_(1*C*1*1)

所述标准化操作公式为：

其中，w为权重，Mean(·)为权重均值，Std(·)为权重标准差；

Head部分中将卷积模块设计为4比特量化卷积模块，设计方法包括以下分步骤：

B2：基于缩放处理，对权重和激活值进行4比特量化；

S2中网络模型还包括量化检测模块，所述量化检测模块的损失函数Loss为：

Loss＝L_conf+L_rect+L_class

S3中包括以下分步骤：

本实施例中，如图4所示，将整个量化网络的训练流程划分为三个阶段。在阶段一关闭所有量化模块，利用划分好的训练集与测试集训练高性能的全精度网络模型；在阶段二利用训练好的全精度网络模型作为预训练模型，开启Backbone1比特量化模块，使用相同的数据集进一步微调Backbone；在阶段三利用微调完Backbone的网络模型作为预训练模型，开启Head 4比特量化模块，使用相同的数据集进一步微调Head，最终得到具有1比特Backbone和4比特Head的混合精度量化模型。通过上述步骤执行模型的训练与微调，能最大化模型收敛速度，减小量化带来的信息损失引起的模型性能退化以及训练过程不平滑。

对于渐进式训练策略，在一阶段全精度训练时，应使用较大的学***滑。

对于不同宽度与深度的网络模型，此处深度指YOLOv5网络的总层数，宽度指各层特征图通道数，在执行量化后微调时，深度与宽度较小的网络对量化的信息损失更加敏感，应针对模型深度宽度的减小适当降低学习率。

S4中包括以下分步骤：

在本发明的一个实施例中，本发明的实验采用的数据集为微软团队开源的COCO(Common Objects in Context)2017数据集，共80个类，118,287张训练图像和5000张验证图像。

本发明所提出的方法采用了类平均准确率mAP(mean Average precis)、模型大小、计算复杂度三个指标对整体性能做评估如下表所示。计算复杂度OPs定义为：

OPs＝BitOPs+BOPs+FLOPs

其中，BitOPs为低位宽定点数操作数量，如Neck中的4比特卷积，BOPs为二值计算操作总数，FLOPs为浮点数操作总数。

本发明提出的低位宽混合精度量化方法的性能结果如表1所示。从表中可以看出，对比现有的高位宽的轻量级单阶段目标检测网络，本发明提出的混合精度量化网络在损失少量精度的情况下大幅压缩了计算量与模型大小。对比现有的低位宽的轻量级目标检测网络，本发明提出的混合精度量化网络在计算量与模型大小不显著增加的前提下大幅提高了模型精度。

表1轻量级目标检测网络效果对比

关于渐进式量化策略对模型端到端平滑训练的有效性如图5所示。从图中可以看出，相比一次性对Backbone与Neck做量化微调，使用渐进式量化策略的训练过程收敛速度更快，过程更加平滑。

关于网络Head部分4比特量化位宽的选择依据如表2所示。用相比全精度网络的准确率损失mAP_loss和模型大小Model_size计算所得的比率Ratio来评估模型性能。Ratio的计算方式为：

其中，Model_size1为全精度模型大小，Model_size2为量化后模型大小，

表2不同位宽Head性能对比

可以看出相较于更低位宽的Head，4比特量化在性能与压缩率上达到了更好的平衡。

本发明提出的低位宽混合精度量化方案，在明显压缩网络模型大小与计算量的前提下，依然保有较高的检测性能；提出的渐近式量化策略，相比全局式量化策略，明显提升了模型端到端训练的平滑性，加快了训练过程的收敛；对于1比特Backbone的量化，仅在通道数对齐的1*1卷积处使用残差连接，大幅减少了传统二值化神经网络在使用残差连接过程中，为对齐残差连接两端特征图通道数所引入的浮点数卷积，进而减少最终模型大小与计算量；对于4比特Head的量化，相比常规的量化函数，额外计算了可学***滑性。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在发明的保护范围内。

Claims

1.一种单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，包括以下步骤：

S2：基于YOLOv5网络构建含量化节点的网络模型；

2.根据权利要求1所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述S1中包括以下分步骤：

S1-2：对获取的场景图像进行预处理后并进行标注；

S1-4：将增强后的图像划分为训练集和测试集。

3.根据权利要求1所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述S2中网络模型包括Backbone部分和Head部分，所述Backbone部分采用CSPDarknet结构，所述Head部分引入FPN结构。

4.根据权利要求3所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述Backbone部分中将卷积模块设计为1比特量化卷积模块，设计方法包括以下分步骤：

x＝x_(B*C*W*H)+b_(1*C*1*1)

所述标准化操作公式为：

其中，w为权重，Mean(·)为权重均值，Std(·)为权重标准差；

5.根据权利要求4所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述Head部分中将卷积模块设计为4比特量化卷积模块，设计方法包括以下分步骤：

B2：基于缩放处理，对权重和激活值进行4比特量化；

6.根据权利要求3所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述S2中网络模型还包括量化检测模块，所述量化检测模块的损失函数Loss为：

Loss＝L_conf+L_rect+L_class

7.根据权利要求5所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述S3中包括以下分步骤：

8.根据权利要求1所述的单阶段实时目标检测模型低位宽混合精度量化方法，其特征在于，所述S4中包括以下分步骤：