CN115861772A

CN115861772A - 基于RetinaNet的多尺度单阶段目标检测方法

Info

Publication number: CN115861772A
Application number: CN202310148143.6A
Authority: CN
Inventors: 陈滨; 刘海宇; 邵艳利; 魏丹; 王兴起
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-03-28

Abstract

本发明公开了基于RetinaNet的多尺度单阶段目标检测方法。该方法将卷积块注意力模块添加到ResNet主干网络的残差模块中，使用改进后的ResNet网络进行多尺度特征提取。然后采用双向路径融合的特征金字塔，对提取到的不同尺度的特征信息进行融合，可以增大浅层特征层的语义信息占比，提高小目标包含的语义权重，同时增大采样过程中的感受野，加强多个尺度间的特征联系。最后将融合后的特征图使用完全交并比损失函数对检测目标进行筛选。本发明能够消除训练时的检测正负样本不均衡的问题，提高了小目标的检测率，检测结果可以用于完成人脸识别、物体分类等下游识别任务。

Description

基于RetinaNet的多尺度单阶段目标检测方法

技术领域

本发明属于图像处理技术领域，涉及多尺度特征融合的图像检测方法，具体涉及一种基于RetinaNet模型的多尺度单阶段目标检测方法。

背景技术

目标检测的任务是确定某张给定图像中是否存在给定类别的目标实例，比如人、车、自行车、狗和猫；如果存在，就返回每个目标实例的空间位置和覆盖范围，常见的方式是返回一个边界框。作为图像理解和计算机视觉的基石，目标检测是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。

早期目标检测方法都是采用人工设计的方式，首先输入图片，再经过背景提取分离出无关背景信息，接着对去除了背景的图像进行预处理，然后通过特征提取找到一些目标信息，通过阈值判定来找到感兴趣的目标，输出目标分类和位置并将背景更新，重复进行上述过程直到所有图像处理结束。传统方式的特征往往很难设计，而且对于一些条件可能不适应或者不具有鲁棒性，设计特征效率也很低。另外使用滑动窗口提取目标框，流程也非常耗时。在深度学习进入图像检测领域之后，卷积网络自主学习的方式完全代替了人工设计。

深度学习目标检测可以分为两个方向，单阶段目标检测算法和两阶段目标检测算法。单阶段目标检测算法通过主干网络直接给出物体的类别概率和位置坐标值，经过一次检测即可得出检测结果，代表算法有SSD、DSSD和RetinaNet。不同于传统方法中尽可能多的框选候选图像，两阶段目标检测算法在第一阶段生成稀疏的候选图像位置，在第二阶段利用卷积神经网络对候选图像分类，代表算法Faster R-CNN和Mask R-CNN。单阶段目标检测算法相对于两阶段目标检测算法，具有较快的实时检测速度和较低的计算复杂度。相较于人工设计的传统目标检测方法，使用了深度学习的目标检测算法在检测的种类和准确率上都有了显著的提升，但也存在着训练困难和错误识别等问题。

目前主流单阶段目标检测卷积网络通常采用RetinaNet作为主干网络，使用Focal损失函数消除类别不平衡和挖掘难分样本，运用特征金字塔网络（Feature PyramidNetwork，FPN）提取特征信息，并将每层特征信息都进行目标位置回归和类别分类，在检测精度和速度上取得一定的平衡。但提取的底层特征层缺少语义信息，深层特征缺乏位置信息，各个特征层间互不共享参数，特征层融合困难以及边界框回归计算不准确。

发明内容

本发明针对现有技术中单阶段目标检测方法存在的不足，提出了基于RetinaNet的多尺度单阶段目标检测方法，将卷积块注意力模块（CBAM）添加到ResNet主干网络中的残差模块中，抑制检测图片中的无关噪音，提高物体的检测精度。同时将特征金字塔的融合方式改为双向路径融合，增加特征层重要语义的权重，提高了小目标的检测效果，并使用完全交并比损失函数消除了正负样本不均衡带来的影响，进一步提高了对边缘和残缺目标的检测效果。

基于RetinaNet的多尺度单阶段目标检测方法，具体包括3个步骤。

步骤1：将卷积块注意力模块添加到ResNet主干网络中的残差模块中，使用改进后的ResNet网络进行特征提取，卷积块注意力模块的操作如下：

s1.1、首先将残差模块提取的特征图F按照通道进行最大池化和平均池化，再将结果分别送入一个三层感知器（Multilayer Perceptron，MLP），输出结果相加后送入Sigmoid激活函数，得到通道注意力模块的特征图M_C：

M_C(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) （1）

式中σ表示Sigmoid激活函数，MLP为三层感知器，AvgPool和MaxPool分别表示全局平均池化和最大池化。

最后将通道注意力模块的特征图M_C与特征图F叠加，得到中间结果F’：

F’=M_C+F （2）。

s1.2、接着对得到的中间结果F’分别进行最大池化和平均池化，将各自得到的结果进行融合后，再对融合结果进行一次卷积运算，并送入Sigmoid激活函数，得到空间注意力模块输出的特征图M_S：

M_S(F’)=σ(f^7x7([AvgPool(F’);MaxPool(F’)])) （3）

f^7x7表示使用大小为7×7的卷积核进行卷积运算。

最后将空间注意力模块输出的特征图M_S与中间结果F’叠加，得到卷积块注意力模块的输出结果F”，作为下一个残差模块的输入：

F”=M_S+F’ （4）。

步骤2：采用双向路径融合的特征金字塔对残差模块提取到的不同尺度的特征信息进行融合。

改进的特征金字塔网络先将残差模块输出的特征由浅层向深层进行融合，在每次向下融合的过程中都会对浅层特征图进行下采样处理，使浅层特征图的分辨率与其下一层特征图的分辨率保持一致。之后特征金字塔再进行反向融合，即由深层向浅层融合，同样的，在每次向上融合的过程中都会对深层特征图进行上采样处理，使深层特征图的分辨率与其上一层特征图的分辨率保持一致。在下采样和上采样的同时，也会对待处理的特征图进行一次卷积核大小为1x1的卷积操作，使得其通道数与待融合的特征图的通道数相等，方便之后的特征相加操作：

当i=3时，P_i ^’=F₃；

当i属于[4,n]时，P_i ^’=pool（P_i-1 ^’）+dim（F_i）；

其中，P_i ^’表示第i级向下融合得到的特征图，F_i是第i级特征提取网络输出的原始特征图，pool表示下采样操作，dim代表利用1x1卷积进行的降维操作，n表示主干网络的层数。

当i=n时，P_i=F_n；

当i属于[3,n-1]时，P_i=unpool（P_i-1）+asc（F_i）；

其中，P_i表示第i级向上融合得到的特征图，unpool表示上采样操作，asc代表利用1x1卷积进行的升维操作。

总共将双向路径融合的结构叠加三次来加深特征融合程度。对于单层特征的处理，改进特征金字塔网络通过简单的残差操作，增强特征的表示能力，在保证特征经过三层双向路径融合前后最大程度语义信息传输的前提下，将所有的输出层连接起来，每一层的输入来自于前面所有层的输出：

o_l=H([w₀o₀,w₁o₁,…, w_lo_l]) （5）

其中o_l为特征金字塔每层得到的特征输出，w_l为每层可学习的权重，H表示特征融合操作。

步骤3：将特征金字塔得到的输出o_l，通过回归分类网络选取置信度较高的检测框，通过损失函数选取合适的预测框。对于传统的交并比损失函数，如果给定框和预测框之间不重叠，则交并比函数的值为零，无法反应两个框之间的距离的远近，因此无法得知网络现存的预测性能，因此本方法采用完全交并比损失函数（Complete-IoU，CIoU）。

在网络训练时，将CIoU作为边界框回归函数，特征在进行回归时候获取大量的预测框，从中选取可靠性较高的预测框与目标框进行相交比对，并将比对结果进行反馈，修改训练权重。与交并比损失函数不同的是，完全交并比损失函数不仅关注重叠区域，还将目标框与预测框之间的距离、重叠率、长宽比以及尺度都考虑进去，计算的并不是框之间的交并情况，而是每个检测框之间的欧氏距离。从而可以更加真实地反应预测框和目标框之间的相交情况。

使用训练后的网络可以从图像中标记出待检测目标的位置，并且可以对待检测目标进行物体类别标记，检测结果后续可以用于完成人脸识别、物体分类等识别任务。

本发明具有以下有益效果：

1、在基础网络的特征提取残差模块末端添加卷积块注意力机制模块，分别从通道和空间两个层面选择特征层中的重要信息，能够更加注重图片中所含有的目标重要特征信息，抑制无关噪音干扰，给予待检测目标更高的权重，提高了模型的检测能力。

2、使用一种双向路径特征融合的特征金字塔网络，改变了特征融合的方式，可以增大浅层特征层的语义信息占比，提高小目标包含的语义权重，同时增大采样过程中的感受野，加强多个尺度间的特征联系，提高了目标检测精度，特别是对小型目标的精度提升显著。

3、使用一种新的回归损失函数CIoU来预测回归的方式，增加对小型目标和遮挡目标的回归框数量，可以更好地描述重叠信息，更加合理地考虑预测框和真实框的相对位置，降低了回归样本的计算复杂度，使得回归更加准确和快速，为之后的训练提供更好的反馈，提高了对边缘目标检测能力，克服了残缺目标难以识别的问题。

附图说明

图1是实施例中改进的RetinaNet模型结构。

图2是卷积块注意力机制模块示意图。

图3是实施例中双向路径融合的特征金字塔结构示意图。

图4是完全交并比损失函数CIoU示意图。

具体实施方式

下面根据附图对本发明做进一步说明，本发明在RetinaNet的基础上进行改进，在主干网络部分引入了卷积块注意力模块，并改进了特征金字塔的结构，整体模型结构如图1所示，具体步骤如下：

步骤1：将卷积块注意力模块添加到ResNet主干网络的残差模块中，利用主干网络提取图片特征信息。输入特征图在ResNet残差模块中，首先通过1×1的卷积核下降特征图通道数，再使用3×3的卷积核进行特征提取，接着通过1×1的卷积核恢复通道数，然后将残差模块得到的特征图通过卷积块注意模块加强特征提取效果，所述卷积块注意力模块如图2所示。

步骤2：构建双向特征融合的改进金字塔网络。

所述双向特征融合的改进金字塔网络如图3所示。首先将残差模块输出的特征由浅层向深层进行融合，再由深层向浅层融合。在本实施例中，ResNet主干网络的层数为7。因此从深层P7特征进行上采样与处理后的P6特征层进行融合并再次上采样，以此类推至最浅层P3特征层，然后得到处理的结果由P3特征层开始依次进行下采样融合。对于每个输入增加一个额外的权重wi，并让网络学习每个输入特征的重要性，融合公式如下所示：

（6）

其中，e代表学习率，取值较小以避免数值不稳定，在本实施例中设置e=0.0005。

代表该输入经过j层上下采样后的权重和，I和O分别代表输入和输出，

代表每层经过上下采样后的特征输出和。对于单层特征，本发明使用横向全连接策略，将每次上下采样后的特征输出层相加，每一层的输入都来自于前面所有层的输出。

由于P7所在的特征层尺度较小，经过三次采样卷积过后包含的语义特征信息较少，所以采用剪枝策略，P7不参与之后的特征融合而是直接作为特征层输出，这种金字塔网络结构在特征融合使用双向路径融合的策略丰富各层的语义信息，利用特征权重突出重要通道特征层的表达能力，同特征层处理上强调卷积前后语义间的融合，避免关键位置信息的丢失，减少网络训练时的复杂度，增强各类目标的检测效果。

步骤3：使用完全交并比损失函数对检测目标进行筛选。

如图4所示，完全交并比损失函数定义为：

L_CIoU=1-IoU+(ρ(b,b^gt)/c²)+αv （7）

IoU=(A∩B)/(A∪B) （8）

其中IoU为交并比，表示两个检测框交集部分面积和并集部分面积的比值。A和B分别为两个检测框的面积。ρ(b,b^gt)为两个检测框中心点b、b^gt之间的欧氏距离，c为最小包围两个检测框的对角线长度，α为权重函数，v用于度量长宽比的相似性。

α=v/((1- IoU)+v) （9）

v=4(arctan(w^gt/h^gt)- arctan(w/h))²/π² （10）

其中w和w^gt为两个检测框的宽度，h和h^gt为两个检测框的长度。

使用CIoU对特征金字塔输出的特征进行分类预测和预测框定位，通过这种方式可以在训练数据集时修正预测框和实际检测框的定位数据差，让预测框结果更加贴合预测目标。

为了说明本方法的有效性，在COCO测试集上对于本方法改进的Retina模型进行目标检测性能测试，并与现有技术中主流的单阶段目标检测和两阶段目标检测算法进行对比。具体实验过程基于Pytorch1.7深度学习框架，选择ResNet-50和ResNet-101作为RetinaNet的主干网络，使用1个NVIDIA RTX3090训练，显存为24G。对于COCO数据集，设置输入图像尺寸为800，初始学习率1e-4，使用Adam优化器，batch size设置为24，共迭代90000次，训练12个epochs。实验结果如表1所示：

;

表1

实验结果都遵循MS COCO标准的平均精度指标，其中AP表示IoU从0.5开始，以0.05作为阈值间隔，直到取到0.95得到的精度平均之后的结果，AP50、AP75表示IoU阈值为0.5和0.75时的平均精度。APS、APM、APL分别表示类别样本尺寸为小、中、大的检测精度。从表1可以看到主干网络为ResNet-101的改进型RetinaNet目标检测算法AP可达到40.8％，性能相比原先算法显著提高。在不同检测目标尺寸下，小目标和中等目标检测率均有提升且达到最佳结果，大目标的检测率与原RetinaNet相比也有提高。

Claims

1.基于RetinaNet的多尺度单阶段目标检测方法，使用ResNet作为主干网络，配合特征金字塔对待检测图像进行多尺度特征提取，其特征在于：该方法具体包括以下步骤：

步骤1：将卷积块注意力模块添加到ResNet主干网络中的残差模块中，对残差模块输出的特征图进行注意力增强；使用改进后的ResNet网络进行特征提取，输出不同尺度的原始特征图F_i；

步骤2：采用双向路径融合的特征金字塔对不同尺度的原始特征图F_i进行融合，具体操作如下：

s2.1、对原始特征图F_i由浅层向深层进行向下融合：

当i=3时，P_i ^’=F₃；

当i属于[4,n]时，P_i ^’=pool（P_i-1 ^’）+dim（F_i）；

其中，P_i ^’表示第i级向下融合得到的特征图，F_i是第i级特征提取网络输出的原始特征图，pool表示下采样操作，dim代表利用1x1卷积进行的降维操作，n表示主干网络的层数；

s2.2、对原始特征图F_i由深层向浅层进行向上融合：

当i=n时，P_i=F_n；

当i属于[3,n-1]时，P_i=unpool（P_i-1）+asc（F_i）；

其中，P_i表示第i级向上融合得到的特征图，unpool表示上采样操作，asc代表利用1x1卷积进行的升维操作；

s2.3、重复上述双向路径融合三次，并通过横向全连接，将所有的输出层连接起来，每一层的输入来自于前面所有层的输出：

o_l=H([w₀o₀,w₁o₁,…, w_lo_l]) （1）

其中o_l为特征金字塔每层得到的特征输出，w_l为每层可学习的权重，H表示特征融合操作；

步骤3、将特征金字塔得到的输出o_l，通过回归分类网络选取置信度较高的检测框，通过完全交并比损失函数选取合适的预测框，完成网络训练。

2.如权利要求1所述基于RetinaNet的多尺度单阶段目标检测方法，其特征在于：在ResNet网络的残差模块中，首先通过1×1的卷积核下降输入数据的通道数，再使用3×3的卷积核进行特征提取，接着通过1×1的卷积核恢复通道数。

3.如权利要求1所述基于RetinaNet的多尺度单阶段目标检测方法，其特征在于：所述卷积块注意力模块包括通道注意力模块和空间注意力模块。

4.如权利要求3所述基于RetinaNet的多尺度单阶段目标检测方法，其特征在于：所述通道注意力模块首先将残差模块提取的特征图F按照通道进行最大池化和平均池化，再将结果分别送入一个三层感知器，输出结果相加后送入Sigmoid激活函数，得到通道注意力特征图M_C：

M_C(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) （2）

式中σ表示Sigmoid激活函数，MLP为三层感知器，AvgPool和MaxPool分别表示全局平均池化和最大池化；

最后将通道注意力模块的特征图M_C与特征图F叠加，得到通道注意力增强的中间结果F’：

F’=M_C+F （3）。

5.如权利要求4所述基于RetinaNet的多尺度单阶段目标检测方法，其特征在于：所述空间注意力模块对通道注意力增强的中间结果F’分别进行最大池化和平均池化，将各自得到的结果进行融合后，再对融合结果进行一次卷积运算，并送入Sigmoid激活函数，得到空间注意力模块特征图M_S：

M_S(F’)=σ(f^7x7([AvgPool(F’);MaxPool(F’)])) （4）

f^7x7表示使用大小为7×7的卷积核进行卷积运算；

最后将空间注意力模块的特征图M_S与中间结果F’叠加，得到卷积块注意力模块的输出结果F”：

F”=M_S+F’ （5）。

6.如权利要求1所述基于RetinaNet的多尺度单阶段目标检测方法，其特征在于：所述完全交并比损失函数L_CIoU定义为：

L_CIoU=1-IoU+(ρ(b,b^gt)/c²)+αv （6）

IoU=(A∩B)/(A∪B) （7）

其中IoU为交并比，A、B分别为两个检测框的面积；ρ(b,b^gt)为两个检测框中心点b、b^gt之间的欧氏距离，c为最小包围两个检测框的对角线长度，α为权重函数，v用于度量长宽比的相似性：

α=v/((1- IoU)+v) （8）

v=4(arctan(w^gt/h^gt)- arctan(w/h))²/π² （9）

7.如权利要求1所述基于RetinaNet的多尺度单阶段目标检测方法，其特征在于：使用CIoU对特征金字塔输出的特征进行分类预测和预测框定位，设置初始学习率为1e-4，使用Adam优化器，设置batch size为24，迭代训练90000次，训练12个epochs。

8.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1~7中任一项所述的方法。