CN111985503B

CN111985503B - 一种基于改进的特征金字塔网络结构的目标检测方法和装置

Info

Publication number: CN111985503B
Application number: CN202010825554.0A
Authority: CN
Inventors: 李百成; 张翊; 黎嘉朗
Original assignee: Whale Cloud Technology Co Ltd
Current assignee: Whale Cloud Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2024-04-26
Anticipated expiration: 2040-08-17
Also published as: CN111985503A

Abstract

本发明方案通过对从骨干网络提取的多尺度特征进行融合、选择、残差操作获取最终的特征层，将其进行目标的分类与位置回归，获取最终的结果。该方法在目标检测中即使在目标被部分遮挡的情况下仍能正确检测到目标，鲁棒性高、性能高。

Description

一种基于改进的特征金字塔网络结构的目标检测方法和装置

技术领域

本发明属于目标检测技术领域，具体涉及一种基于改进的特征金字塔网络结构的目标检测方法和装置。

背景技术

在图片的目标检测中，特征金字塔网络是一种能够以低廉的算力代价换取网络性能大幅提升的一种结构，由于它优异的性能，已经被用在各种主流目标检测网络结构中。

在特征金字塔网络中，来自骨干网络的特征通过自上而下的路径对高层次的金字塔进行上采样来产生比较粗糙但语义信息更强的特征图。然后这些特征与相同空间大小的自下而上的特征图进行横向连接，从而增强了低层次的语义信息。然而这种按顺序集成的特征会更多的关注相邻分辨率的特征而稀释非相邻分辨率的特征，限制了网络的性能。因此，如何更好地集成骨干网络的特征成为了一个学术界与工业界的热点问题。

发明内容

针对于上述现有技术的不足，本发明的目的之一是。

本发明实施例公开了一种基于改进的特征金字塔网络结构的目标检测方法，通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层，并将所述多个第一特征层缩放到预设分辨率大小；将所述多个缩放后的第一特征层进行融合得到第二特征层，并对所述第二特征层进行全局平均池化和降维操作得到第三特征层；根据第三特征层和不同特征层的权重获得经选择后的第四特征层；通过残差的方式处理所述第四特征层，获得金字塔特征图；对所述金字塔特征图进行目标归类与位置回归，以输出检测框。

在一个可能的实施例中，采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率；采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率；其中所述预设分辨率在多个第一特征层中分辨率居中。

在一个可能的实施例中，采用全局平均池化计算第二特征层整个通道域的统计信息，并利用统计信息采用全连接层来计算通道域的依存关系，得到第三特征层。

在一个可能的实施例中，将第三特征层通过1×1卷积扩增到n×d维，其中n为所采用的特征金字塔层数，d为每一个特征层的维度；每个通道的权重通过softmax运算得到，将所述权重与第三特征层相乘取得选择过后的特征层，再将其按逐像素相加得到最终选择后的第四特征图。

在一个可能的实施例中，通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。

一种基于改进的特征金字塔网络结构的目标检测装置，包括：缩放模块，用于通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层，并将所述多个第一特征层缩放到预设分辨率大小；融合模块，用于将所述多个缩放后的第一特征层进行融合得到第二特征层，并对所述第二特征层进行全局平均池化和降维操作得到第三特征层；选择模块，用于根据第三特征层和不同特征层的权重获得经选择后的第四特征层；残差模块，用于通过残差的方式处理所述第四特征层，获得金字塔特征图；位置回归模块，用于对所述金字塔特征图进行目标归类与位置回归，以输出检测框。

在一个可能的实施例中，所述缩放模块还用于：采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率；采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率；其中所述预设分辨率在多个第一特征层中分辨率居中。

在一个可能的实施例中，所述融合模块还用于：采用全局平均池化计算第二特征层整个通道域的统计信息，并利用统计信息采用全连接层来计算通道域的依存关系，得到第三特征层。

在一个可能的实施例中，所述选择模块还用于：将第三特征层通过1×1卷积扩增到n×d维，其中n为所采用的特征金字塔层数，d为每一个特征层的维度；每个通道的权重通过softmax运算得到，将所述权重与第三特征层相乘取得选择过后的特征层，再将其按逐像素相加得到最终选择后的第四特征图。

在一个可能的实施例中，所述残差模块还用于，通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。

一种计算机存储介质，其存储计算机程序，在所述计算机程序被执行时，实施前文所述的方法。

与现有技术相比，本发明具有以下有益效果：

本发明方案鲁棒性高，通过动态地选择骨干网络的特征，使得网络对目标特征的提取能力更强。在极端情况下，如弱光、遮挡等破坏目标特征的情况，网络通过聚合不同分辨率特征层的特征实现对目标特征的增强，提升检测的准确性，在目标被部分遮挡的情况下仍能正确检测到目标。采用本方法的网络性能更强，引入的参数量较小，同时推理速度并没有明显的降低，且准确率有所提升。

附图说明

图1为本发明实施例的一种方法流程图；

图2为本发明实施例的融合阶段网络结构图；

图3为本发明实施例的选择阶段网络结构图；

图4为本发明实施例的残差阶段网络结构图；

图5(a)、5(b)为本发明实施例的光纤配线架ODF端口检测数据集上的检测结果对照图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

本方法可以动态的选择特征层，具体为通过对从骨干网络提取的多尺度特征进行融合、选择、残差操作获取最终的特征层，将其进行目标的分类与位置回归，获取最终的结果。该方法在目标检测中鲁棒性高，性能高，即使在目标被部分遮挡的情况下仍能正确检测到目标。

具体的，结合图1，本发明实施例公开了一种基于改进的特征金字塔网络结构的目标检测方法，包括：

S101,通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层，并将所述多个第一特征层缩放到预设分辨率大小。

将所述待检测的图片输入骨干网络进行特征提取，其中骨干网络即特征提取网络，可以包括ResNet、VggNet等。

接着，参考图2，对从骨干网络中提取出来的多尺度特征{C₃,C₄,C₅,C₆,C₇}即多个不同尺寸的第一特征层缩放到中间层大小，即对于分辨率小于C5层的特征层，采用双线性插值的方法将尺寸放大，而对于分辨率大于C5层的特征层,使用最大池化对其进行缩小，得到{R₃,R₄,R₅,R₆,R₇}。

S102,将所述多个缩放后的第一特征层进行融合得到第二特征层，并对所述第二特征层进行全局平均池化和降维操作得到第三特征层。

参考图2，然后采用逐像素相加操作将缩放后的特征进行简单的信息融合，生成融合后的特征层R_s，即第二特征层，而后采用全局平均池化来整个通道域的统计信息，如式(1)所示：

其中，H与W分别代表特征图的高与宽，(i,j)表示像素的坐标，z_c表示第c个通道的统计信息，融合后的特征层。为了充分利用z中的信息，使用一个全连接层来计算通道域的依存关系，同时降低维度以提升网络的效率，得到第三特征层p，如式(2)

p＝Fc(z_c) (2)

S103,根据第三特征层和不同特征层的权重获得经选择后的第四特征层。

如图3，为了动态的选择合适的特征层信息，需要网络能自适应的分配不同特征层的权重，为了实现这一目标，首先将第三特征层p通过1×1卷积扩增到n×d维，其中n为所采用的特征金字塔层数，在这里设为5，d为每一个特征层的维度。而后，每个通道的权重通过softmax运算得到，用A表示，即：

A＝softmax(conv(p)) (3)

在获取了所有通道的权重之后，将其与原始的重缩放后的特征相乘取得选择过后的特征层，再将他们按逐像素相加得到最终选择后的第四特征层q：

q＝sum(A_iR_i) (4)

其中R_i∈{R₃,R₄,R₅,R₆,R₇}。

S104,通过残差的方式处理所述第四特征层，获得金字塔特征图。

参考图4，选择后的特征通过残差的方式来增强原始的特征，这样可以让网络的训练速度更快，所学习到的特征更加鲁棒。具体的操作为通过重缩放的逆操作将q缩放到对应第一特征层C_i的分辨率并相加获取最终的金字塔特征图。如式(5)所示：

P_i＝Rescale(q)+C_i (5)

S105,对所述金字塔特征图进行目标归类与位置回归，以输出检测框。

以单目标检测网络FCOS为例，将其特征金字塔网络结构替换为前述方法，并在端口检测数据集上进行测试，其结果如图5(a)、图5(b)所示。由于ODF端口的排布比较密集，因此端口之间经常会互相遮挡，造成被遮挡的端口检测比较困难，但采用了如图5(b)所示本方法的FCOS相较于如图5(a)所示原版FCOS在目标被部分遮挡的情况下仍能正确检测到目标，检测效果更好。

本发明实施例还公开了一种基于改进的特征金字塔网络结构的目标检测装置，缩放模块，用于通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层，并将所述多个第一特征层缩放到预设分辨率大小；融合模块，用于将所述多个缩放后的第一特征层进行融合得到第二特征层，并对所述第二特征层进行全局平均池化和降维操作得到第三特征层；选择模块，用于根据第三特征层和不同特征层的权重获得经选择后的第四特征层；残差模块，用于通过残差的方式处理所述第四特征层，获得金字塔特征图；位置回归模块，用于对所述金字塔特征图进行目标归类与位置回归，以输出检测框。本发明实施例方式对应于前述的方法实施例，具体内容可参考方法实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于改进的特征金字塔网络结构的目标检测方法，其特征在于，

通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层，并将所述多个第一特征层缩放到预设分辨率大小；

将所述多个缩放后的第一特征层进行融合得到第二特征层，并对所述第二特征层进行全局平均池化和降维操作得到第三特征层；

根据第三特征层和不同特征层的权重获得经选择后的第四特征层；

通过残差的方式处理所述第四特征层，获得金字塔特征图；

对所述金字塔特征图进行目标归类与位置回归，以输出检测框；

将所述多个第一特征层缩放到预设分辨率大小包括：采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率；采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率；其中所述预设分辨率在多个第一特征层中分辨率居中；

对所述第二特征层进行全局平均池化和降维操作得到第三特征层包括：采用全局平均池化计算第二特征层整个通道域的统计信息，并利用统计信息采用全连接层来计算通道域的依存关系，得到第三特征层；

根据第三特征层和不同特征层的权重获得经选择后的第四特征层包括：将第三特征层通过卷积扩增到/>维，其中n为所采用的特征金字塔层数，d为每一个特征层的维度；每个通道的权重通过softmax运算得到，将所述权重与第三特征层相乘取得选择过后的特征层，再将其按逐像素相加得到最终选择后的第四特征图；

通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。

2.一种基于改进的特征金字塔网络结构的目标检测装置，其特征在于，

缩放模块，用于通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层，并将所述多个第一特征层缩放到预设分辨率大小；

融合模块，用于将所述多个缩放后的第一特征层进行融合得到第二特征层，并对所述第二特征层进行全局平均池化和降维操作得到第三特征层；

选择模块，用于根据第三特征层和不同特征层的权重获得经选择后的第四特征层；

残差模块，用于通过残差的方式处理所述第四特征层，获得金字塔特征图；

位置回归模块，用于对所述金字塔特征图进行目标归类与位置回归，以输出检测框；

所述缩放模块还用于：采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率；采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率；其中所述预设分辨率在多个第一特征层中分辨率居中；

所述融合模块还用于：采用全局平均池化计算第二特征层整个通道域的统计信息，并利用统计信息采用全连接层来计算通道域的依存关系，得到第三特征层；

所述选择模块还用于：将第三特征层通过卷积扩增到/>维，其中n为所采用的特征金字塔层数，d为每一个特征层的维度；每个通道的权重通过softmax运算得到，将所述权重与第三特征层相乘取得选择过后的特征层，再将其按逐像素相加得到最终选择后的第四特征图；

所述残差模块还用于，通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。