CN113743521A

CN113743521A - 一种基于多尺度上下文感知的目标检测方法

Info

Publication number: CN113743521A
Application number: CN202111061082.7A
Authority: CN
Inventors: 王伯英; 汲如意; 张立波; 武延军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-03
Anticipated expiration: 2041-09-10
Also published as: CN113743521B

Abstract

本发明公开了一种基于多尺度上下文感知的目标检测方法，其步骤包括：1)提取图像的多个尺度特征；2)通过空洞残差块对该多尺度特征中的顶层特征进行增强，得到具有高层次特征的顶层特征；3)对相邻层次的特征进行融合，生成金字塔特征；4)对金字塔特征进行聚合，获得特征X_m；5)通过依赖增强模块进一步增强特征X_m，生成增强后的特征X_o；6)将特征X_o分别通过上采样或者下采样的方式，与金字塔特征进行匹配相加；7)将步骤6)所得特征输入到候选区域生成网络中生成候选框，并提取候选框的特征；8)将候选框的特征输入到头部检测模块进行预测，然后通过非极大值抑制方法对候选框的检测结果进行过滤，得到物品的类别和位置信息。

Description

一种基于多尺度上下文感知的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及目标检测，尤其涉及基于多尺度上下感知的目标检测方法。

背景技术

目标检测是一项具有现实意义的、并且有挑战性的计算机视觉任务，它的目的是识别图像中的目标并进行定位。近年来，随着深度学习的深入研究，它得到了迅速发展，在机器人导航、智能视频监控、工业检测、航空航天等领域得到了广泛的应用。通用目标探测一般分为两类：单阶段和两阶段目标检测。单阶段检测直接处理输入图像，生成检测结果。两阶段检测首先通过RPN提取候选区域，然后根据候选区域对检测结果进行细化。在早期的研究中，目标检测直接利用最高层次的特征来检测目标。但是，由于空间尺度小，最高层次特征不利于目标检测。为了解决这一问题，一些利用多尺度特征的特征金字塔技术应运而生。特征金字塔技术的主流工作分为两类：神经结构搜索和非神经结构搜索。NAS-FPN是基于神经结构搜索的方法的代表。NAS-FPN定义了搜索空间，并利用强化学习策略，探索性能最好的金字塔结构。基于神经结构搜索的方法具有较高的性能，但也存在一些明显的缺点。首先，所得到的结构极其复杂，不易理解。其次，结构一般是多层叠置，因此会带来大量的参数和计算负担。第三，神经结构搜索的搜索成本令人望而却步，涉及数千TPU小时。相比之下，非NAS特征金字塔方法是人工设计的。FPN是一种应用广泛的非神经结构搜索模块，目前基于FPN的方法存在三个问题：(1)最高层次上下文信息丢失。融合前，1×1卷积层用于减少特征通道数。最高层次的特征通常有数千个通道，其中包含丰富的上下文信息。由于通道的减少，最高层次的特征会丢失大量的信息。(2)上下文融合策略不适当。融合过程中，首先通过上采样运算将高层次特征与浅层特征匹配，然后通过元素加法融合。但是这种简单的聚合策略不是最优的。由于包含的上下文信息不同，不应以相同的考虑来处理不同的级别。(3)不同层次特征之间的语义差距。考虑到特征传播是单向的，因此不能将底层特征传播到高层次。此外，在传播过程中，高层语义信息会被稀释，导致融合后不同层次之间产生语义差距。

发明内容

为了克服上述问题，本发明的目的在于提供一种基于多尺度上下文感知的目标检测方法，及电子设备和刻度存储介质。首先，通过空洞残差块，产生具有更丰富感受野的增强的高层次特征。其次，采用交互式融合方法，更好地融合相邻层次的上下文信息。第三，提出了自适应上下文聚合块来解决语义鸿沟问题。在通道和空间的引导下，网络自适应地学习不同层次的权值，生成一个有判别力的上下文。我们的方法使得网络获得显著的性能增益，从而完成了本发明。

为了实现本方面的目的，本发明采用以下步骤：

1)将样本图像输入骨干网络中提取多个尺度的特征{C2,C3,C4,C5}；

2)通过空洞残差块作用于骨干网络提取到的顶层特征C5，以此产生具有更丰富感受野的增强的高层次特征P5，以弥补高层次特征的丢失。

3)通过跨尺度上下文聚合模块更好地融合相邻层次的上下文信息,从而生成特征{P2,P3,P4,P5}。

4)通过自适应上下文聚合模块作用于特征{P2,P3,P4,P5}，网络也可以学习多尺度特征在通道和空间上的的权重，通过加权求和的方式获得特征X_m。

5)通过依赖增强模块进一步增强特征X_m，生成增强后的特征X_o。

6)将特征X_o分别通过上采样或者下采样的方式，与特征{P2,P3,P4,P5}尺度进行匹配，最后，通过元素相加的方式对匹配特征进行相加，获得特征{O2,O3,O4,O5}。

7)将特征{O2,O3,O4,O5}输入到候选区域生成网络中生成候选框，同时使用Roi-Pooling层来提取候选框的特征。

8)将候选框特征输入到头部检测模块(比如faster rcnn、mask rcnn等技术中的头部检测模块)进行预测。头部检测模块包含分类模块和回归模块。分类模块用于生成候选框的类别，回归模块用于预测位置坐标偏移量。将偏移量用于修正步骤7)生成候选框的位置。最后，通过非极大值抑制方法获得最终的检测结果，即物品的类别和位置，判断物品的类别是否为目标类别。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明所具有的有益效果包括：

1)本发明提出一种新的特征金字塔网络，即多尺度上下文感知网络，包含三个模块，分别为：空洞残差块、跨尺度上下文聚合模块和自适应上下文聚合模块；

2)本发明提供的基于多尺度上下文感知的目标检测方法，可以在目标检测算法的基线上获得显著的性能提升；

附图说明

图1为本发明实施例所述的基于多尺度上下文感知的目标检测方法流程；

图2示出了本发明所述的基于多尺度上下文感知的目标检测框架，右侧为空洞残差块的结构图,其中CCAB为跨尺度上下文聚合模块，CAB为通道指导聚合模块，SAB为空间指导聚合模块；

图3示出了跨尺度上下文聚合模块的网络结构图；

图4示出了自适应上下文聚合模块网络结构图，其中(a)为通道指导聚合模块，(b)为空间指导聚合模块。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明做进一步的详细描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

本发明所述的基于多尺度上下文感知的目标检测方法包括以下步骤：

步骤S1：构建骨干网络，并在大规模分类数据集上进行预训练，用于提取输入图像的多尺度特征{C2,C3,C4,C5}；所述骨干网络可以选择现有的基于深度学习的神经网络，如残差网络(ResNet)或多支路残差网络(ResNeXt)等。骨干网络在大规模分类数据集(如ImageNet或者Microsoft COCO)上进行预训练。

步骤S2：构建多尺度上下文感知网络。首先，空洞残差块通过将多个具有不同空洞率的残差块叠加在一起，产生具有更丰富感受野的增强的高层次特征，这可以减轻最高层次特征的上下文信息丢失，其中空洞率最小残差块在前，然后残差块的空洞率依次增大，即按照空洞率从小到大依次将各残差块叠加在一起。其次，跨尺度上下文聚合块采用交互式融合方法，更好地融合相邻层次的上下文信息，为当前层次提供更有效的补充。第三，提出了自适应上下文聚合块来解决语义鸿沟问题。在通道和空间的引导下，网络可以自适应地学习不同层次的权值，生成一个有区别的上下文。

空洞残差块。如图2所示，在获得骨干网络提取到顶层特征C5之后，我们将其输入到空洞残差块中以获得丰富的上下文信息P5。首先，每一残差块使用一个1×1卷积层减少输出通道数，然后通过一个3×3卷积层增强上下文语义信息，卷积核增大使得感受野增大，因此提取到的特征具有丰富的上下文语义信息。最后，使用一个1×1卷积层恢复通道数。值得注意的是，每个3×3卷积层具有不同的空洞率，如2，4，6，8。

跨尺度上下文聚合块。通过跨尺度上下文聚合模块融合相邻层次的特征(如上下文聚合模块作用于特征P5和C4，以此来获得特征P4)。如图3所示，我们假定跨尺度聚合块的输入为f(i+1)和f(i)；首先，我们通过1个3×3的卷积层增强输入特征。

f(i+1)＝Conv(f(i+1))

f(i)＝Conv(f(i))

然后，这两个分支进行交叉融合。f(i+1)通过上采样与f(i)进行匹配，而f(i)通过下采样与f(i+1)进行匹配。融合方式如下：

h(i+1)＝Conv(Down(f(i)))+Conv(f(i+1))

h(i)＝Conv(Up(f(i+1)))+Conv(f(i))

o(i)＝Conv(h(i))+Conv(Up(h(i+1)))

P(i)＝Conv(o(i)+f(i))

最后，我们通过跨尺度上下文聚合块获得增强后的特征{P2，P3，P4，P5}。

自适应上下文聚合模块。如图2所示，多尺度特征{P2，P3，P4，P5}被分别输入到通道指导聚合模块和空间指导聚合模块中，以生成相应的特征X_c和X_s。然后，将两个特征通过元素相加方式进行融合，得到增强的特征X_m。注意，我们首先需要将多尺度特征统一(实验中选择为P4尺度大小)，然后将其输入自适应上下文聚合块。

通道指导聚合模块。如图4(a)所示，给定跨尺度上下文聚合块的输出金字塔特征为{P2、P3、P4、P5}，我们可以通过元素的加法运算获得它们的全局语义表示并输入到全局平均池(GAP)层。然后，利用全局平均池(GAP)层对输入的全局语义表述进行处理输出全局通道信息。之后，我们使用1个1×1卷积层来压缩全局通道信息。此外，我们使用N个卷积层作用于压缩后的全局通道信息到金字塔特征的通道权重，最后将通道权重与金字塔特征通过加权求和的方式获得特征X_c。N为金字塔特征层数。

空间指导聚合模块。如图4(b)所示，首先通过元素相加获得金字塔特征{P2、P3、P4、P5}的全局语义表示。然后，利用平均池化和最大池化操作生成两个不同的空间上下文信息。并且，我们使用Concat运算来融合这两个上下文信息。然后，我们可以使用N个7×7卷积层作用于融合后的上下文信息得到金字塔特征的空间权重，最后将空间权重与金字塔特征通过加权求和的方式获得特征X_s。

依赖增强模块。我们使用依赖增强模块作用于特征X_m生成更具鉴别能力的特征X_o。在现有注意块(如SEBlock、CBAM、Non-local和GCBlock)上进行的实验表明，GCBlock和Non-local都有很好的效果。与GCBlock相比，Non-local带来了大量的参数和计算负担。因此，本文选择GCBlock(global context block，即全局上下文块)作为默认设置。通过有效地捕捉长距离依赖关系，进一步提高了精度。

将特征X_o分别通过上采样或者下采样的方式，与特征{P2，P3，P4，P5}尺度进行匹配，最后，通过元素相加的方式获得特征{O2，O3，O4，O5}。其中根据{P2，P3，P4，P5}每一层特征的尺度，对X_o分别进行操作；对于第i层特征Pi，如果X_o的尺度小于它，那就上采样，如果X_o的尺度大于它，那就下采样。

步骤S3：构建候选区域生成网络。候选区域生成网络可以生成检测框。对于步骤S2获得的特征图{O2，O3，O4，O5}上的每一个点，它可以生成具有不同尺度和宽高比的检测框。然后通过ROI Align层提取这些检测框的特征，最后将提取到的特征输入到两个网络层中，一个用来分类，即该框包含的物体是否属于前景；另外一个输出检测框相对于真实物体框的偏移。通过预测的偏移量对检测框进行初步修正。

步骤S4：构建头部检测模块，对修正后的检测框进行再次分类和回归。头部检测模块包括：分类模块和位置回归模块，分类模块用于输出每个检测框的分类结果；位置回归模块用于输出每个检测框相对于真实目标的偏移。

步骤S5：通过梯度下降算法训练网络。当达到提前规定的轮数时，整个网络停止训练。

步骤S6：网络测试。

实施例2

本发明实施例2提供一种电子设备，包括存储器和处理器，其特征在于，存储有基于多尺度上下文感知的目标检测程序被处理器执行时，使得处理器执行基于基于多尺度上下文感知的目标检测方法，该方法包括如下步骤：

1)使用预训练的骨干网络对输入图像进行多尺度特征提取；

2)采用多尺度上下文感知网络对提取的多尺度特征进行融合；

3)将融合后的特征输入到候选区域生成网络中提取候选框，通过Roi-Pooling层提取候选框特征；

4)将提取到的候选框特征输入到头部检测器获得检测框的类别和位置偏移量。将偏移量用于修正步骤3)生成候选框的位置。最后，通过非极大值抑制方法获得最终的检测结果，即物品的类别和位置。

实施例3

本发明实施例3提供一种计算机可读存储介质，其特征在于，所述程序被处理器执行时，使得处理器执行基于多尺度上下文感知的目标检测方法，该方法包括如下步骤：

1)使用预训练的骨干网络对输入图像进行多尺度特征提取；

4)将提取到的候选框特征输入到头部检测器获得检测框的类别和位置信息。

以上所述仅为本公开的优选实例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多尺度上下文感知的目标检测方法，其步骤包括：

1)利用骨干网络提取图像的多个尺度特征；

2)通过空洞残差块对该多尺度特征中的顶层特征进行增强，得到具有高层次特征的顶层特征；

3)通过跨尺度上下文聚合模块对相邻层次的特征进行融合，生成金字塔特征；

4)通过自适应上下文聚合模块对金字塔特征进行聚合，获得特征X_m；

5)通过依赖增强模块进一步增强特征X_m，生成增强后的特征X_o；

6)将特征X_o分别通过上采样或者下采样的方式，与金字塔特征进行匹配，通过元素相加的方式对匹配特征进行相加；

7)将步骤6)所得特征输入到候选区域生成网络中生成候选框，并提取候选框的特征；

8)将候选框的特征输入到头部检测模块进行预测，得到候选框的类别和位置坐标；然后通过非极大值抑制方法对候选框的检测结果进行过滤，得到候选框中物品的类别和位置信息。

2.如权利要求1所述的方法，其特征在于，所述空洞残差块包括多个具有不同空洞率的残差块；将该多尺度特征中的顶层特征依次输入各所述残差块，每一所述残差块首先采用一个1×1卷积层减少输入数据的通道数，然后通过一个3×3卷积层增强输入数据上下文语义信息，然后使用一个1×1卷积层恢复输入数据的通道数；其中不同残差块中的3×3卷积层具有不同的空洞率。

3.如权利要求1或2所述的方法，其特征在于，所述跨尺度上下文聚合模块生成金字塔特征的方法为：

31)通过一个3×3的卷积层对输入的相邻两层特征f(i+1)和f(i)分别进行增强；

32)对增加后的特征f(i+1)进行上采样与增强后的特征f(i)进行匹配融合，得到特征h(i)；对增强后的特征f(i)进行下采样与增强后的特征f(i+1)进行匹配融合，得到特征h(i+1)；

33)对特征h(i+1)进行上采样后与特征h(i)进行匹配融合得到特征o(i)；

34)将特征o(i)与第i层特征f(i)进行匹配融合，生成金字塔特征。

4.如权利要求1或2所述的方法，其特征在于，所述自适应上下文聚合模块包括通道指导聚合模块和空间指导聚合模块；将金字塔特征分别输入到通道指导聚合模块和空间指导聚合模块中，生成相应的特征X_c和X_s；然后将特征X_c和X_s通过元素相加方式进行融合，得到增强的特征X_m。

5.如权利要求4所述的方法，其特征在于，所述通道指导聚合模块首先获得金字塔特征的全局语义表示并输入到全局平均池层；然后利用全局平均池层对输入的全局语义表述进行处理输出全局通道信息；然后使用一个1×1卷积层来压缩全局通道信息，使用N个卷积层作用于压缩后的全局特征得到金字塔特征的通道权重，然后将通道权重与金字塔特征通过加权求和的方式获得特征X_c；其中N为金字塔特征层数。

6.如权利要求4所述的方法，其特征在于，所述空间指导聚合模块首先获得金字塔特征的全局语义表示；然后将该全局语义表示分别进行平均池化、最大池化操作，生成两个不同的空间上下文信息；然后两空间上下文信息进行融合；然后使用N个7×7卷积层作用于融合后的空间上下文信息得到金字塔特征的空间权重，最后将空间权重与金字塔特征通过加权求和的方式获得特征X_s；其中N为金字塔特征层数。

7.如权利要求1所述的方法，其特征在于，所述依赖增强模块为注意力模块GCBlock。

8.如权利要求1所述的方法，其特征在于，候选区域生成网络对于步骤6)所得特征上的每一个点生成具有不同尺度和宽高比的检测框；然后提取这些检测框的特征并输入到两个网络层中，一个网络层用来分类，即识别该检测框包含的物体是否属于前景；另外一个网络层预测输出该检测框相对于真实物体框的偏移；然后通过预测的偏移量对检测框进行修正；然后对修正后的检测框进行再次分类和回归。

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。