CN115731447A

CN115731447A - 基于注意力机制蒸馏的解压缩图像目标检测方法及***

Info

Publication number: CN115731447A
Application number: CN202211420783.XA
Authority: CN
Inventors: 廖飞龙; 刘冰倩; 林爽; 翁宇游; 莫文昊; 安康; 辛宇晨; 郑州; 黄建业; 杨彦; 李扬笛; 武欣欣
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Priority date: 2022-11-13
Filing date: 2022-11-13
Publication date: 2023-03-03

Abstract

本发明涉及一种基于注意力机制蒸馏的解压缩图像目标检测方法，包括以下步骤：步骤S1:获取高质量图像数据集，并将高质量图像数据集通过压缩解压获取对应的解压缩低质量图像数据集;步骤S2:构建目标检测教师网络和目标检测学生网络；步骤S3:基于高质量图像数据集对目标检测教师网络进行训练；步骤S4:基于训练后的目标检测教师网络，加入基于注意力的蒸馏损失训练目标检测学生网络；步骤S5:基于训练后的学生网络对解压缩后的图像进行目标检测。本发明实现从解压缩图像中提取更高质量的图像特征，有效提升了低质量图像的目标检测性能。

Description

基于注意力机制蒸馏的解压缩图像目标检测方法及***

技术领域

本发明涉及图像目标检测领域，具体涉及一种基于注意力机制蒸馏的解压缩图像目标检测方法及***。

背景技术

作为自动驾驶、智能监控等领域的关键技术，目标检测算法是当今计算机视觉领域中最热门的研究方向之一。近年来，随着深度学习的快速发展，基于深度学习的目标检测方法取得了显著的性能。这些目标检测网络在高质量的干净图像上训练，然而，在一些实际应用场景下，高质量的干净图像难以获得(带宽限制，高质量图像难以传输)，大多图像都是经过解压缩后的图像，图像的压缩必然带来一定图像质量的下降。甚至在一些特定场合中，如野外监控检测，大量的数据需要检测，而由于设备以及带宽的限制，需要采用较大的压缩率对数据进行压缩，在压缩率较大时，解压后的图像质量急剧下降，这使得目标检测网络在针对此类解压缩低质量图像进行检测时，往往出现严重的漏检，错检情况，在实际应用场景下几乎失效。

发明内容

有鉴于此，本发明的目的在于提供一种基于注意力机制蒸馏的解压缩图像目标检测方法及***，实现从解压缩图像中提取更高质量的图像特征，有效提升了低质量图像的目标检测性能。

为实现上述目的，本发明采用如下技术方案：

一种基于注意力机制蒸馏的解压缩图像目标检测方法，包括以下步骤：

步骤S1:获取高质量图像数据集，并将高质量图像数据集通过压缩解压获取对应的解压缩低质量图像数据集；

步骤S2:构建目标检测教师网络和目标检测学生网络；

步骤S3:基于高质量图像数据集对目标检测教师网络进行训练；

步骤S4:基于训练后的目标检测教师网络，加入基于注意力的蒸馏损失训练目标检测学生网络；

步骤S5:基于训练后的学生网络对低质量图像进行目标检测。

进一步的，所述目标检测教师网络基于YOLOv3或YOLOv5s构建，在训练过程中固定主干网络并移除检测头。

进一步的，所述目标检测学生网络基于YOLOv3或YOLOv5s，在YOLOv3或YOLOv5s不同尺度每一分支检测头前添加注意力学习模块。

进一步的，所述注意力学***均池层。

进一步的，所述步骤S4具体为：

将高质量图像数据集作为训练后的目标检测教师网络的输入，对应的解压缩低质量图像数据集作为目标检测学生网络的输入，固定目标检测教师网络的参数后，将目标检测教师网络提取的高质量特征z_t和目标检测学生网络提取的低质量特征z_s计算蒸馏损失，加上目标检测网络自身的检测损失对学生网络进行训练。

进一步的，基于知识蒸馏技术促使解压缩图像退化特征接近高质量图像特征表达为如下式子：

其中，t和s分别表示教师网络和学生网络，f表示参数为θ的主干网络，z_t＝f_t(x；θ_t)表示从高质量图像x中提取的高质量特征，

表示从解压缩图像

提取的退化特征；d表示特征空间中的某个距离或散度度量。

进一步的，所述检测损失表示为：

其中，ω表示尺寸为1×C×H×w的注意图，后一项是由于稀疏性而产生的正则化项；并设置R(ω)＝||ω||₁；

检测损失L_det分为三个部分组成：

其中各式子中的λ表示三个部分不同的权重大小；S²表示检测网络输出的特征图大小；B表示每个格子分配的检测框数量；

表示当下标为i，j的检测框中有物体时候为1，其余为0；p_i(c)为物体为c类物体的概率大小；

检测损失可简略表示为：

L_det＝L_box+L_cls+L_obj

则最终训练学生网络的损失为：

L＝L_det+λ*L_dis。

一种基于注意力机制蒸馏的解压缩图像目标检测装置，包括：

数据获取模块，用于获取高质量图像数据集，并将高质量图像数据集通过压缩解压获取对应的解压缩低质量图像数据集；

模型构建模块，用于构建目标检测教师网络和目标检测学生网络；

模型训练模块，将于基于高质量图像数据集对目标检测教师网络进行训练，基于训练后的目标检测教师网络，加入基于注意力的蒸馏损失训练目标检测学生网络；

检测模块，基于训练后的学生网络对低质量图像进行目标检测。

一种基于注意力机制蒸馏的解压缩图像目标检测***，包括处理器、存储器以及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序时，具体执行如上所述的解压缩图像目标检测方法中的步骤。

一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如上所述的方法。

本发明与现有技术相比具有以下有益效果：

本发明通过提出的基于自注意力机制的知识蒸馏技术，能够关注图像特征中重要区域，促使网络实现从解压缩图像中提取更高质量的图像特征，提升现有的基于深度学习的目标检测方法在低质量图像(解压缩图像)上检测精度、增强其泛化性、推广性。

附图说明

图1是本发明总体架构；

图2是本发明一实施例中高质量图片和解压缩图片检测结果及提取的特征和差异图，其中(a)高质量图像的检测结果，(b)低质量解压缩图像的检测结果，(c)高质量图像提取的特征，(d)低质量解压缩图像提取的特征，(e)高质量特征和低质量特征的差异；

图3是本发明一实施例中yolov3-tiny结构图；

图4是本发明一实施例中yolov5s结构图；

图5是本发明一实施例中不同算法提取的特征图，其中(a)为从高质量图像中提取的特征，(b)为从低质量解压缩图像提取的特征，(c)为Aug算法增强训练后从检测器中提取的特征，(d)为l2范数蒸馏后从模型中恢复的特征。(e)为本发明还原的功能，第一行是特征的可视化结果，第二行是高质量特征与相应恢复特征之间的差异图；

图6是本发明一实施例中不同算法的检测可视化结果，其中(a)高质量图像检测结果，(b)低质量解压缩图像检测结果，(c)l2范数蒸馏方法在低质量解压缩图像上的检测结果和(d)本发明的检测结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

参考图1-5，本实施例提供一种基于注意力机制蒸馏的解压缩图像目标检测方法，包括以下步骤：

步骤S2:构建目标检测教师网络和目标检测学生网络；

步骤S5:基于训练后的学生网络对低质量图像进行目标检测。

在本实施例中，数据集选用COCO2017作为高质量图像数据集，该图像数据集由118287张训练图片和5000张测试图片构成。

在本实施例中，请参照图1，采用了YOLO系列单阶段探测器，教师网络的输入为高质量图像，学生网络的结构与教师相同，但以解压缩图像作为输入。如图1所示，YOLOv3由两部分组成，主干网用于提取特征，检测头用于分类和包围盒回归。在本实施例中，教师的主干来提取高质量的特征，因此在训练期间固定主干网络并移除头部。对于学生模型，保留了主干和头部，并使用预训练的参数对其进行初始化，以更好地收敛。成对图像，即高质量图像和相应的解压缩图像，分别输入到教师和学生网络中。

在本实施例中，提出了一种注意感知特征提取方法，将学习到的注意图作为l2范数的权重。由于不同区域的蒸馏权重不同，本发明的方法使得从解压缩图像中提取的退化特征更好地与相应的高质量特征对齐。

知识蒸馏技术促使解压缩图像退化特征接近高质量图像特征可表达为如下式子：

表示从解压缩图像

提取的退化特征。d表示特征空间中的某个距离(或散度)度量。

对于目标检测任务，特征图的不同区域的重要性并不相同。类似地，如图2(c)、(d)和(e)所示，通过可视化特征，结果表明高质量特征和退化特征之间的差异映射。因此，不适合把每个区域的重要性视为相同的一个常数。

本发明通过学习注意力图及权重(表示为ω)来表示特征图中不同区域的重要性，并将其应用于蒸馏损失。假设图像特征的重要性定义为z_s和z_t之间的差异大小，即特征中某个区域(如图2(e)所示的边缘和纹理区域)的差异越大，则其在特征提取过程中越重要，ω的值应越大。

本发明通过在学生模型中添加了一个注意力学习模块分支来学习注意图ω(如图1所示)，并且提出的注意感知特征提取损失可以表示为：

其中，ω表示尺寸为1×C×H×w的注意图，后一项是由于稀疏性而产生的正则化项

设置R(ω)＝||ω||₁。

最终训练学生网络的损失为：

L＝L_det+λ*L_dis

学习到的注意力图ω的值衡量了特征重建的难度/重要性。如果z_t和z_s之间存在较大的差距，则学生网络倾向于学习更大的权重ω以减少损失。反过来，一旦ω增加，损失函数中的第二项也将增加，这会促使模型优化减少z_t和z_s之间的差异，这使得学生模型更加关注特征图中的困难/重要区域。因此，学生网络可以在教师网络和注意图的指导下更好地增强特征，提高检测的准确性。

其中注意力学***均池层。

优选的，N为3，则注意力学习模块的网络结构如下：

输入层→第一反卷积层(上采样)→第一激活函数层→第二卷积层→第二激活函数层→第三卷积层→第三激活函数层→第四卷积层→第四激活函数层→第五卷积层→第五激活函数层→第六卷积层→第六激活函数层→第七卷积层→第七激活函数层→第八卷积层→第八激活函数层→第九卷积层→第九激活函数层→第十卷积层→第十激活函数层→第一平均池化层(下采样)→第十一卷积层→第十一激活函数层→第十二卷积层→第十二激活函数层→第十三卷积层→输出层

实施例1：

本实施例，以yolov3-tiny为检测器的实验量化结果如表1所示，以yolov5s为检测器的实验量化结果如表2所示。各类对比实验方法按照上述顺序从上至下。

表1 yolov3-tiny对比实验结果

表2 yolov5s对比实验结果

从以上实验结果可以发现，本发明提出了一种新的基于注意力机制的蒸馏损失函数来训练目标检测网络，该网络主要针对低质量解压缩图像进行目标检测。通过在目标检测网络的蒸馏损失中引入注意力机制，可以同时学习高分质量特征图像特征图不同区域的重要性，促使网络更注重学习物体边缘等更加重要的区域。此外，本发明的方法不仅效果优于现有最优方法Aug，还更易推广至其他目标检测任务中。另外，参考图5，本发明首次证明了这种基于注意力机制的蒸馏损失比MSE蒸馏损失能够更好的恢复特征，同时具有更好的检测效果。在两种常用的目标检测网络上的实验结果表明，本发明提出的基于注意力机制的蒸馏损失能够在解压缩图像目标检测任务上取得更好的检测结果。部分目标检测可视化结果如图6所示。

实施例二

基于同样的发明构思，本申请还提供了一种基于注意力机制蒸馏的解压缩图像目标检测装置，包括：

实施例三

基于同样的发明构思，本申请还提供了一种基于注意力机制蒸馏的解压缩图像目标检测***，包括处理器、存储器以及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序时，具体执行如上述的解压缩图像目标检测方法中的步骤。

实施例四

基于同样的发明构思，本申请还提供了一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如上述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，包括以下步骤：

步骤S2:构建目标检测教师网络和目标检测学生网络；

步骤S5:基于训练后的学生网络对低质量图像进行目标检测。

2.根据权利要求1所述的基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，所述目标检测教师网络基于YOLOv3或YOLOv5s构建，在训练过程中固定主干网络并移除检测头。

3.根据权利要求1所述的基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，所述目标检测学生网络基于YOLOv3或YOLOv5s，在YOLOv3或YOLOv5s不同尺度每一分支检测头前添加注意力学习模块。

4.根据权利要求3所述的基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，所述注意力学***均池层。

5.根据权利要求1所述的基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，所述步骤S4具体为：

将高质量图像数据集作为训练后的目标检测教师网络的输入，对应的解压缩低质量图像数据集作为目标检测学生网络的输入，固定目标检测教师网络的参数后，将目标检测教师网络提取的高质量特征z_t和目标检测学生网络提取的低质量特征z_s计算蒸馏损失L_dis，其表示如下：

其中，z_t表示从高质量图像x中提取的高质量特征，z_s表示从解压缩图像

提取的退化特征；ω表示尺寸为1×C×H×w的注意图，后一项是由于稀疏性而产生的正则化项；并设置R(ω)＝||ω||₁；在蒸馏损失的基础上加上目标检测网络自身的检测损失对学生网络进行训练。

6.根据权利要求5所述的基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，基于知识蒸馏技术促使解压缩图像退化特征接近高质量图像特征表达为如下式子：

其中，θ_s表示学生网络的参数，t和s分别表示教师网络和学生网络，f表示参数为θ的主干网络，z_t＝f_t(x；θ_t)表示从高质量图像x中提取的高质量特征，

表示从解压缩图像

提取的退化特征；d表示特征空间中的某个距离或散度度量。

7.根据权利要求6所述的基于注意力机制蒸馏的解压缩图像目标检测方法，其特征在于，所述蒸馏损失表示为：

检测损失L_det分为三个部分组成：

检测损失可简略表示为：

L_det＝L_box+L_cls+L_obj

则最终训练学生网络的损失为：

L＝L_det+λ*L_dis。

8.一种基于注意力机制蒸馏的解压缩图像目标检测装置，其特征在于，包括：

9.一种基于注意力机制蒸馏的解压缩图像目标检测***，其特征在于，包括处理器、存储器以及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序时，具体执行如权利要求1-7任一项所述的解压缩图像目标检测方法中的步骤。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的方法。