CN114882234A

CN114882234A - 多尺度轻量级密集连目标检测网络的构建方法

Info

Publication number: CN114882234A
Application number: CN202210465247.5A
Authority: CN
Inventors: 宋霄罡; ***; 梁莉
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-09

Abstract

本发明公开了多尺度轻量级密集连目标检测网络的构建方法，数据预处理；构建多尺度轻量级目标检测神经网络；利用处理的结果对构建的神经网络进行训练和测试；本发明利用PASCAL VOC 2012数据集验证了网络的可靠性，最终网络的mAP几乎与YoloV4只下降了1.5％，相较于YoloV3提升了5％，采用本发明训练出的网络模型参数量压缩到11.61M，缩减为YoloV4的1/6；总计算量Total Flops减少到1.13G，缩小为原来的1/26；总内存占用减少到135.46M，缩减为YoloV4的1/5，实时速度提升了32倍，提升了目标检测方法在计算资源有限的嵌入式设备和移动设备的部署增加了可能性。

Description

多尺度轻量级密集连目标检测网络的构建方法

技术领域

本发明属于计算机视觉及人工智能技术领域，涉及多尺度轻量级密集连目标检测网络的构建方法。

背景技术

目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体)，确定它们的类别和位置，是计算机视觉领域的核心问题之一。近年来，卷积神经网络在图像识别、目标检测、语义分割等方面都取得了十分优异的性能，然而传统的CNN通常需要大量的参数和浮点运算来维持性能，虽然他们都有着极高的精确度，但是对于计算资源的要求也相对较高。这样的卷积神经网络并不适合部署在计算资源有限的嵌入式设备或移动设备上，极大地限制了目标检测方法在复杂环境的部署和应用。因此，对目标检测网络进行轻量化是增加目标检测方法对于各类部署环境泛化能力的必要步骤。

本发明针对传统深度学***台上进行部署等问题，设计了适合在嵌入式平台进行部署的多尺度轻量级目标检测网络，围绕目标检测网络轻量化与去冗余展开研究，包括数据预处理、轻量化特征提取结构、轻量化特征融合模结构、目标分类。通过四项关键技术的实现轻量化目标检测网络，弥补现有目标检测方法网络模型计算复杂度高、无法在计算资源有限的嵌入式平台和移动平台部署的问题，对实现视频监控、医学图像处理、人脸识别、遥感影像、目标实时跟踪等技术的实现具有重要意义。

发明内容

本发明的目的是提供多尺度轻量级密集连目标检测网络的构建方法，构建的目标检测网络解决现有目标检测与分类方法网络模型参数量庞大、计算复杂度高、难以在计算资源有限的嵌入式设备和移动设备上部署的问题。

本发明所采用的技术方案是，多尺度轻量级密集连目标检测网络的构建方法，将目标检测网络的主干部分划分为两个阶段，浅层阶段利用多尺度结构同时获取粗尺度和细尺度的特征信息，深层阶段通过轻量级密集连接模块实现特征重用与去冗余，在特征融合阶段通过深度可分离卷积与多尺度输入实现网络轻量化，具体按以下步骤实施：

步骤1，数据预处理；

步骤2，构建多尺度轻量级目标检测神经网络；

步骤3，利用经步骤1处理的结果对步骤2构建的神经网络进行训练和测试。

本发明的特点还在于：

其中步骤1中数据预处理具体按以下步骤实施：

步骤1.1，采用PASCAL VOC2012的90％图像作为训练+验证数据集，10％作为测试数据集，训练数+验证据集中90％训练数据集，10％作为训练时验证数据集，并对训练数据图像进行数据扩充；

步骤1.2，对数据集进行相应的马赛克数据增强；

步骤1.3，根据标签信息和数据集信息获取训练目标的真实框的坐标和类别信息；

其中步骤2中多尺度轻量级目标检测神经网络具体按以下步骤实施：

步骤2.1，构建多尺度轻量级特征提取模块MSM；

步骤2.2，构建轻量级密集连接模块FD-CDM；

步骤2.3，构建快速降采样主干网络；

步骤2.4，构建轻量级特征融合模块；

步骤2.5，构建分类预测模块；

其中步骤2.1中构建多尺度轻量级特征提取模块MSM具体按以下步骤实施：

步骤2.1.1，将输入的特征张量保存为三个相同的张量x，y，z，用作三个尺度的开端；

步骤2.1.2，对x尺度不进行任何操作，使其保有原始特征信息，作为残差边进行特征补充表示为

步骤2.1.3，用3x3的深度卷积、BatchNorm2d、ReLU6操作与1x1的逐点卷积、BatchNorm2d、ReLU6操作构成一个完整的深度可分离卷积，在y尺度上用两个深度可分离卷积模块获取细尺度的特征信息

步骤2.1.4，使用空洞率为5和3的深度可分离空洞卷积，构成空洞卷积组，在z尺度上运用空洞卷积组获取粗尺度的特征信息

步骤2.1.5，将

进行纵向堆叠，然后利用通道注意力机制对堆叠信息进行筛选；

其中步骤2.2中构建特征重用的轻量级密集连接模块FD-CDM具体按以下步骤实施：

步骤2.2.1，构建由3x3组卷积组成的GC模块，该模块会将输入层的不同特征图进行分组，然后采用不同的卷积核生成中间特征；

步骤2.2.2，构建由1x1卷积组成的LGC模块，该模块利用1x1的卷积进行通道信息的学习，筛选出重要度更高的通道信息；

步骤2.2.3，构建特征重激活SFR模块，该模块的作用是对输入特征的不同通道添加索引层，通过索引层选择需要留下的特征层；

步骤2.2.4，先使用LGC模块个GC模块对输入特征进行特征提取和精炼，然后将特征保存为s和t两个张量，t特征张量进入SFR模块进行筛选，s张量继续进行传递，并将两个分支的结果进行拼接，实现对密集连接的筛选；

其中步骤2.3中构建快速降采样的轻量级主干网络具体按以下步骤实施：

步骤2.3.1，使用2个MSM模块进行浅层粗尺度特征信息提取；

步骤2.3.2，使用3个FD-CDM模块进行深层特征信息提取，获取足够精炼的数据服务于高水平的目标检测任务；

步骤2.3.3，使用2.3.1和2.3.2所提的模块组成主干网络，并使用快速降采样思想加强网络特征提取；

如图5所示，其中步骤2.4中构建轻量级特征融合模块具体按以下步骤实施：

步骤2.4.1，对于PANet进行轻量化处理，用深度可分离卷积代替了90％的普通卷积，使得特征融合部分的参数量减少为原来的1/9；

步骤2.4.2，加强对PANet的输入，组合六个尺度的特征，使特征融合部分获得了更充分的特征信息；

其中步骤2.5中构建分类预测模块对目标进行分类具体按以下步骤实施：

步骤2.5.1，利用3x3卷积和1x1卷积构建网络的预测头；

步骤2.5.2，对于特征融合部分的多尺度输出，分别设计对应的预测头；

其中步骤3中利用步骤1的结果对步骤2构建的神经网络进行训练和测试具体按以下步骤实施：

步骤3.1，获取数据集训练集的标签；

步骤3.2，获取训练验证集的标签；

步骤3.3，将网络训练分为冻结训练和解冻训练两个阶段，冻结训练是指冻结网络的主干部分，只训练特征融合和预测部分，解冻训练时则进行整个网络模型的训练，在冻结训练部分初始学***稳时停止训练，获得网络模型；

步骤3.4，将测试集图像每一帧传入网络模型，对像图像进行识别和检测，并进行平均精度均值mAP的计算。

本发明的有益效果是：

本发明的方法中数据预处理工作不参与模型训练，本发明的主干网络进行特征提取，并利用SFR(特征重激活)模块选择性的对密集连接中的特征信息进行筛选和去除冗余，大幅减少计算量，然后通过通道注意力模块进一步筛选特征，使网络以极少的参数量完成目标检测这类高水平任务；

本发明的多尺度轻量级密集连接目标检测网络模型参数量仅有11.6M，完全可以满足各种移动设备或其他嵌入式设备的目标检测要求，本发明还采用多尺度特征提取设计，充分利用图像中各种尺度的特征提升网络对不同场景的泛化能力；

本发明利用PASCAL VOC 2012数据集验证了网络的可靠性，网络最终的平均精度均值mAP相较于YoloV3提升5％，与YoloV4相比下降1.5％，网络参数量压缩到11.61M，缩减为YoloV4的1/6，总计算量Total Flops减少到1.13G，缩小为原来的1/26，总内存占用降为135.46M，缩减为YoloV4的1/5，实时速度提升了32倍，在移动端或资源有限的嵌入式设备上移植性增强。

附图说明

图1是本发明的多尺度轻量级密集连目标检测网络的构建方法所使用的马赛克数据增强示意图；

图2是本发明多尺度轻量级密集连目标检测网络的构建方法中多阶段轻量级主干网络结构示意图；

图3是本发明多尺度轻量级密集连目标检测网络的构建方法中多尺度特征提取模块结构示意图；

图4是本发明多尺度轻量级密集连目标检测网络的构建方法中轻量级密集连接模块结构图；

图5是本发明多尺度轻量级密集连目标检测网络的构建方法中轻量级特征融合模块；

图6是本发明多尺度轻量级密集连目标检测网络的构建方法的整体网络结构；

图7是本发明多尺度轻量级密集连目标检测网络的构建方法构建的网络模型进行网络检测的效果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明是设计一种多阶段的主干网络，如图6所示，提供多尺度轻量级密集连目标检测网络的构建方法，在主干网络浅层使用多尺度模块同时提取粗尺度和细尺度特征，在主干网络深层使用密集连接模块进行特征重用和去冗余，具体按以下步骤实施：

步骤1，进行数据预处理，丰富数据集的信息，本发明对数据集进行划分，选择出了训练集，训练验证集，测试集三个部分，并在训练前获取到数据集对应的标签信息；具体按以下步骤实施：

步骤1.1，采用PASCAL VOC2012的90％图像作为训练+验证数据集，10％作为测试数据集，训练数+验证据集中90％训练数据集，10％作为训练时验证数据集，并对训练数据图像使用随机水平翻转、随机旋转、随机剪裁等方式进行数据扩充，图像翻转首先将训练集按照预先设定的batch输入进网络，然后随机random数据集为每张图片在[0.7，1.3]范围内任意选择一种尺寸比例进行缩放，然后按照0.5的概率大小对全部图片做左右变换的翻转处理，再将图片调整色彩，最后将训练图片的大小统一裁剪为设定大小，这样使得训练样本的图像尺寸和形状更丰富，更加具有随机性，可以从一定程度上避免过拟合；

步骤1.2，对数据集进行相应的马赛克数据增强；马赛克数据增强首先从数据集中去除一个batch的数据，每次从中随机取出4张图片，进行随机位置的裁剪拼接，合成新的图片，具体过程如图1所示，重复batch size次，最后得到batch size个经过了马赛克数据增强后图片的一个batch的新数据，再传输给神经网络进行训练；

步骤2，构建轻量级目标检测神经网络，通过多尺度特征模块与密集连接模块获取多尺度信息并进行特征重用与去冗余，通过轻量化的特征融合模块完成特征整合，最后用普通卷积进行目标的分类；

主干网络中包括多尺度特征提取模块和轻量级密集连接模块，特征融合部分通过多尺度输入与深度可分离卷积降低参数，分类预测模块包括了3x3卷积和1x1卷积；

步骤2中包括构建多尺度模块、轻量级密集连接模块、快速降采样主干网络、轻量级特征融合模块、分类预测模块五部分，具体按以下步骤实施：

步骤2.1，多尺度特征提取模块MSM具体按以下步骤实施：

步骤2.1.2，用x尺度保留原始特征信息，作为残差边进行特征补充表示为

步骤2.1.3，用3x3的深度卷积、BatchNorm2d、ReLU6操作与1x1的逐点卷积、BatchNorm2d、ReLU6操作构成一个完整的深度可分离卷积；在y尺度上用两个深度可分离卷积模块获取细尺度的特征信息

步骤2.1.5，将

进行纵向堆叠，然后利用通道注意力机制进行信息筛选，多尺度轻量级特征提取模块MSM结构如图3所示；

多尺度提取模块用以提升网络在浅层的特征提取能力，在多尺度特征提取模块中我们使用三个不同尺度；第一个尺度保留原始特征信息；第二个尺度用两组深度可分离卷积进行细尺度的特征提取；第三个尺度使用空洞率分别为5和3的深度可分离空洞卷积组进行粗尺度的特征提取；在完成三个尺度的特征提取后，对其进行堆叠合并，组成具有全局空间信息的特征，并利用通道注意力模块进行全局信息整合，有效地进行特征的筛选同时还能剔除相关性较低的冗余特征。

如图4所示，步骤2.2中轻量级密集连接模块具体按以下步骤实施：

步骤2.2.1，构建由3x3组卷积组成的GC(Group Convolution)模块，该模块会将输入层的不同特征图进行分组，然后采用不同的卷积核生成中间特征；

步骤2.2.2，构建由3x3卷积组成的LGC(Learning Group Convolution)模块，然后用1x1的卷积进行通道信息的学习，筛选出重要度更高的通道信息；

步骤2.2.4，使用LGC模块个GC模块对输入特征进行特征提取，并将特征保存为s和t两个张量，t张量进入特征重激活SFR模块进行筛选，s张量继续向后传递，然后两个分支的结果进行拼接，实现密集连接的筛选；

为使网络轻量且高效，本发明认为在网络学习过程中没有必要重新激活所有的浅层特征。轻量级密集连接网络使用特征重激活模块SFR，通过对输入特征的学习筛选出在网络中前期被认为是过时的特征进行重新激活，弥补了密集连接中存在的长距离连接而导致的特征低效的缺陷。此外，轻量级密集连接模块中的SFR模块可以在测试时转换为有效的组卷积，并不会造成太多的延迟成本。轻量级密集连接不仅能有降低计算成本及计算延迟，还能去除密集连接中的冗余特征，使网络更加轻量化；

如图2所示，其中用于构建主干网络的步骤2.3，通过2.1.1所提的模块和2.1.2的模块组成主干网络，其具体实施步骤如下：

步骤2.3.1，使用2个MSM模块提取浅层粗尺度特征信息；

步骤2.3.2，使用3个FD-CDM模块提取深层特征信息；

步骤2.3.3，用2.3.1和2.3.2所提的模块组成主干网络，并使用快速降采样思想进行维度变化；

其中步骤2.4构建轻量级特征融合模块具体按以下步骤实施：

步骤2.4.1，对于PANet进行轻量化处理，通过深度可分离卷积将参数量减少为原来的1/9；

步骤2.4.2，输入六个尺度信息到特征融合模块；

本发明通过多尺度结构与通道注意力机制获取浅层特征；为使网络逼近效果越好，本发明在特征提取网络深层阶段使用轻量级密集连接结构对特征进行抽象和筛选；

其中步骤2.5中构建预测具体按以下步骤实施：

步骤2.5.1，利用3x3卷积和1x1卷积构建网络的预测头；

步骤2.5.2，对于特征融合部分的多尺度输出，分别使用对应通道数的预测头；

步骤3中网络训练与测试的具体过程为将训练数据输入网络进行训练得到网络模型，将测试图像输入网络，得到目标检测结果，并计算当前数据集下网络的mAP：

步骤3.1，获取数据集训练集的标签；

步骤3.2，获取训练验证集的标签；

步骤3.3，将网络训练分为冻结训练和解冻训练两个阶段，冻结训练只训练特征融合和预测部分，解冻训练时则进行整个网络模型的训练，在冻结训练时初始学***稳时停止训练，获得网络模型；

步骤3.4，将测试集图像每一帧传入网络模型，对像图像进行识别和检测，并进行平均精度均值mAP的计算；

当输入尺寸为416x416时，模型参数量为11.6M，模型大小为40M，可以满足实时性要求；在预测精度上，本发明所提的目标检测网络mAP已经超越多数轻量级目标检测网络，与YoloV4网络相差在2％以内；本发明兼顾精度与速度，可以实现高精度实时目标检测，达到了在嵌入式设备上部署的条件；检测效果如图7所示，可以看出本发明所提的目标检测网络对于图像中的目标具有良好的识别率且精度很高；本发明与其他目标检测网络资源占用对比如表1。

表1.网络资源占用对比

从表1中可以看出本发明的所占用的内存资源比YoloV4网络小5倍，总计算量比Yolov4小26倍，在CPUi5-9300H上的实时推理速度是Yolov4的32倍，与其他目标检测网络性能对比如表2。

表2网络整体性能参数

从表2可以看出本发明的精度超越了Yolov3系列和其它轻量化Yolov4系列，在VOC数据集上当交并比为0.5时平均精度均值只比Yolov4低了1.5％。