CN109598290A

CN109598290A - 一种基于两级检测相结合的图像小目标检测方法

Info

Publication number: CN109598290A
Application number: CN201811401141.9A
Authority: CN
Inventors: 张重阳; 刘泽祥
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-04-09

Abstract

本发明公开了一种基于两级检测相结合的小目标检测方法。原始图像送入第一个检测器检出第一级目标B1；将浅层CNN的输出特征与深层CNN的输出特征相融合得到M1’，并利用B1从M1’中框选出来相应的特征图M2；将M2作为输入特征图，送入第二级检测器的RPN模块、分类与回归模块，进行第二级目标的检测定位；将两级检测的loss相加作为整个网络的总的Loss，得到端到端的检测网络模型。本发明通过构造一个两级检测网络，先准确检测大目标，再在大目标区域检测小目标，将小目标的检测框限在最可能、最容易检测的一个局部区域，亦即大目标所在区域，从而有效去除复杂的背景干扰、降低误检概率，提升图像中小目标检测的精度。

Description

一种基于两级检测相结合的图像小目标检测方法

技术领域

本发明涉及的是一种图像中目标检测领域的方法，具体是一种基于两级检测相结合的图像小目标检测方法。

背景技术

图像中的目标检测识别，在诸如智能视频监控等应用场合，具有广泛的实用需求，也是计算机视觉领域较为热门的研究方向。现有的图像目标检测算法，因为尚存如下困难和挑战，检测结果还有待提升：一幅较大的图像中检测一个较小的目标，由于拍摄距离原因，图片较大但目标尺存较小，通过深度学习卷积神经网络降缩之后目标区域的特征很少，难以进行有效的检测识别。

目前，较为成熟的目标检测算法基本可以分为两类：(1)基于背景建模。该方法主要用于视频中检测运动目标：即将输入的静态图像进行场景分割，利用混合高斯模型(GMM)或运动检测等方法，分割出其前景与背景，再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模，不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于某一类目标的图像收集起来形成训练集，基于一个人工设计的算法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM，Adaboost及神经网络等模型。

综合而言近年来基于统计学习的目标检测算法表现较优，基于统计学习的目标检测算法可以分为传统人工特征目标检测算法以及深度特征机器学习目标检测算法。

传统人工特征目标检测算法主要是指其利用人工设计的特征，来进行目标检测的建模。近年来表现优秀的人工设计的特征算法主要包括：2010年Pedro F.Felzenszwalb等提出的DPM(Deformable Part Model)算法(Object detection with discriminativelytrained part-based models)。Piotr Dollár等2009年提出的ICF(Integral ChannelFeatures)、2014年提出的ACF算法(Fast Feature Pyramids for Object Detection)。2014年Shanshan Zhang等提出的Informed Harr方法(Informed Haar-like FeaturesImprove Pedestrian Detection)，致力于提取更加具有表征信息的Harr特征来进行训练。这些人工设计的特征虽然取得了一定的效果，但因为人工特征表征能力不足，仍存在检测精度不高问题。由于深度卷积神经网络模型所具有的更强大的特征学习与表达能力，在图像目标分类检测方面得到越来越广泛和成功的应用。基础的目标检测算子是R-CNN(Region-Convolutional Neural Network)模型。2014年,Girshick等人提出RCNN用于通用目标的检测,之后又是提出了fast-rcnn和faster-rcnn,提高了基于深度学习目标检测算法的精度和速度.2016年提出的Yolo和SSD等算法,则通过Anchor等思想实现单一阶段的快速目标检测。这些基于深度学习技术的目标检测，大都是基于单一尺度、固定大小上下文的深度特征，仍存在深度特征利用不充分的问题，尤其是针对图像中的小尺寸目标，一方面因为目标尺寸小、视觉特征不丰富；另一方面因为深度卷积神经网络层层的尺度降缩，特征尺度更小；这两方面的因素导致图像小目标的检测精度不高、误检率需要进一步降低。

在实际应用中发现，图像中很多需要检测识别的小目标，往往都会同特定的更大尺寸的大目标相伴相生、同时存在，比如电力故障检测中的销钉脱落类故障、自爆绝缘子类故障，销钉往往存在于软连接结构处，软连接结构的尺寸往往是销钉5倍甚至10数倍；同样地，自爆部分的绝缘子，往往只是整个绝缘子的一小部分(1/5～1/10甚至更低)。因此销钉和自爆绝缘子等小目标的检测，可从他们所依附的大目标，即软连接结构和整个绝缘子的检测开始，先准确检测大目标，再在大目标区域检测小目标，将小目标的检测框限在最可能、最容易检测的一个局部区域，亦即大目标所在区域，从而有效去除复杂的背景干扰，提升检测精度、降低误检概率。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中基于深度模型的图像小目标检测方法存在的上述不足，本发明的目的是提出一种基于两级检测相结合的图像小目标检测方法。

本发明是通过以下技术方案实现的。

一种基于两级检测相结合的图像小目标检测方法，包括：

S1，基于faster_rcnn网络构造一个两级检测网络，所述两级检测网络包括第一级检测器和第二级检测器，其中每一级检测器均包括RPN模块和分类与回归模块；

S2，利用第一级检测器检测第一级目标：

原始输入图像经过处理后，送入第一级检测器的卷积神经网络模块的深卷基层，提取深度特征；基于深度特征，由第一级检测器的RPN模块得到目标候选框，将目标候选框对应区域的深度特征送入第一级检测器的分类与回归模块，进行第一级目标的检测与定位，得到第一级目标的检出框B1；

S3，利用第二级检测器检测第二级目标：

将第一级检测器的卷积神经网络模块中的浅卷积层输出特征与深卷积层输出特征进行多尺度特征相融合得到特征图M1’，并利用第一级目标的检出框B1从特征图M1’中框选出来相应位置框B1’；对每一个位置框B1’，提取位置框B1’在特征图M1’中的特征图，作为第二级检测器的输入特征图M2；将输入特征图M2作为输入，送入到第二级检测器的RPN模块和分类与回归模块，进行第二级目标检测定位，得到第二级目标的检出框，即为图像中需要检出的小目标。

优选地，所述S2中，对原始图像的处理，包括对图像的缩放、格式转换和/或样本尺度统一处理。

更为优选地，对样本尺度统一处理的方法包括：

首先对尺寸为M×N的原始输入图像经过0.5倍、1倍和2倍的缩放，得到经过缩放的三种图片，再从经过缩放的三种图片中各裁剪出一个尺寸为M×N的裁出图，即：

对于0.5倍缩放得到的尺寸大小为0.5M×0.5N的图片，用空白图像填充周边使其扩大为M×N的裁出图；

对于2倍缩放得到的尺寸大小为2M×2N的图片，从中随机裁剪出M×N的裁出图；

对于1倍缩放的图片，则将原始输入图像作为裁出图；

最后，将三种裁出图同时作为样本。

例如：

首先对尺寸为640*480的原始输入图像经过0.5倍、1倍和2倍的缩放，得到经过缩放的三种图片，再从经过缩放的三种图片中各裁剪出一个尺寸为640*480的裁出图，即：

对于0.5倍缩放得到的尺寸大小为320*240的图片，用空白图像填充周边使其扩大为640*480的裁出图；

对于2倍缩放得到的尺寸大小为1280*960的图片，从中随机裁剪出640*480的裁出图；

对于1倍缩放的图片，则将原始输入图像作为裁出图；

最后，将三种裁出图同时作为样本。

优选地，所述S3中，进行多尺度特征相融合得到特征图M1’的方法为：

对于卷积层输出的特征图，利用反卷积对特征图做上采样处理，并将不同卷积层输出的特征图变换到同一分辨率，然后将各卷积层特征图做逐像素相加，得到多尺度特征融合后的特征图M1’。

优选地，所述S3中，第二级目标的检测结果包括第二级目标的目标类型和检出框B2。

优选地，所述方法还包括S4，利用第一级检测器和第二级检测器的损失之和构造一个能够端到端训练的检测网络模型，并利用检测网络模型对得到的目标进行训练。

更为优选地，所述S4中，第一级检测器和第二级检测器的损失之和构造一个能够端到端训练的网络，是指：基于采用多任务学习机制，将两级检测的损失进行加权求和，作为整个两级检测网络的总损失，即将第一级检测器和第二级检测器一起进行多任务同步训练，得到一个端到端的检测网络模型。

与现有技术相比，本发明具有如下有益效果：

本发明提供的基于两级检测相结合的图像小目标检测方法，既可实现深度特征的充分挖掘和多尺度融合利用，也可有效降低现有单一一级检测方法因特征不足、细节特征丢失带来的小目标误检漏检等问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中第一级目标检测的流程图；

图2为本发明一实施例中多层特征融合流程图；

图3为本发明一实施例中方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

参照图1-3所示，本发明以下实施例针对图像小目标检测任务等应用，设计了一种基于两级检测相结合的图像小目标检测方法，可以参照以下步骤进行：

第一步，构造一个两级检测网络。

本步骤中，利用两个faster_rcnn网络构造一个两级检测器网络，其中第一个检测器用于检测第一级目标B1；以检出的第一级目标框B1作为待检图像、第一级检测器的CNN特征经多层融合后的特征图M1’作为第二级检测器的待检图像特征图，送入第二级检测器的RPN及分类和回归模块，进行第二级目标的检测定位。

第二步，利用第一级检测器检测第一级目标。

原始图像经过缩放和格式转换后，送人第一级检测器的DCNN模块，提取深度特征；基于图像的深度特征，由RPN模块得到目标候选框，再将候选框对应区域的特征送入第一级检测器的分类与回归模块，进行第一级目标的检测与定位，得到第一级目标的检出框B1。参照图1所示。

第三步，利用第二级检测器检测第二级目标。

本步骤中，将第一级检测器的DCNN网络中的浅卷积层输出特征与深卷积层输出特征相融合得到M1’，并利用B1从M1’中框选出来相应位置框B1’；对每一个B1’，提取B1’在M1’中的特征图，作为第二级检测器的输入特征图M2；将M2作为输入，送入到第二级检测器的RPN模块和分类与回归模块，进行第二级目标检测。

第四步，利用两级检测器损失之和构造一个可端到端训练的网络。

本步骤中，基于采用多任务学习机制，将两级检测的loss进行加权求和，作为整个网络的总的Loss，即可将两级检测器一起进行多任务同步训练，得到一个端到端的检测网络模型。

具体的，在一实施例中：

S1，以faster_rcnn网络为检测模型的骨干网络，构建两级检测网络，所述两级检测网络包括第一级检测器和第二级检测器。

S2，利用第一级检测器检测第一级目标：原始图像经过处理后，通过第一级检测器的卷积神经网络(Convolutional Neural Network，CNN)模块的深卷基层对输入图像进行多层卷积等运算，提取得到图片的深度特征，记为特征图M1；基于深度特征，利用faster_rcnn网络中第一级检测器的RPN(Region proposal net)模块得到目标候选框，将目标候选框对应区域的深度特征送入faster_rcnn网络中第一级检测器的分类(Classification)、位置回归(Regression)模块做第一级目标的检测与定位，检测得到第一级目标的位置框，记为检出框B1；这里的第一级目标，是指包含待检小目标和/或具有某些特定共性特征的大尺寸目标。

S3，利用第二级检测器检测第二级目标：将faster_rcnn网络中第一级检测器的的CNN模块浅卷积层的输出特征与CNN模块深卷基层的输出特征相融合，得到一个多尺度特征融合后的特征图M1’，并利用第二步得到的第一级目标的检出框B1，将M1’中相应区域框选出来，作为第二级检测器的输入特征图M2；将M2作为输入特征图，送入第二级检测器的RPN模块及分类及位置回归模块，进行第二级目标的检测定位，得到小目标的检出框B2。第二级目标即为图像中需要检出的小目标。

在S2中：输入图像进行多层卷积等运算得到图片的特征图。首先将图片通过一个卷积神经网络模块的深卷基层(Deep CNN，DCNN)，比如vgg16或者resnet，对输入图像进行多层卷积等运算得到图片的特征图M1。

利用faster_rcnn网络中第一级检测器的RPN模块和分类、位置回归模块做第一级目标的检测与定位。通过RPN模块来产生第一级目标的候选框，并用分类、位置回归模块计算相应的分类和目标框位置，检测得到第一级目标的位置框，记为检出框B1。这里因为第一级目标尺寸大、且不涉及过多局部细节，可以采用CNN网络最后一层的特征图，作为分类器和回归模块的输入特征，进行分类和回归。

参照图2所示，在S3中：将CNN中的多层特征，主要是深卷基层输出的深层特征与浅卷基层输出的浅层特征，利用多尺度融合方法进行融合，形成一个多尺度融合的特征图M1’；然后，利用第二步中得到的第一级目标检出框B1，将M1’中相应区域框选出来，作为第二级检测器的输入特征图M2。

对每个B1，在M1’中提取相应区域得到B1对应的特征图M2，作为输入特征送入第二级检测器。第二级检测器同样包括一个RPN模块，和一个分类与回归模块(分类、位置回归模块)，顺序进行第二级目标检测：将每个M2先送入RPN模块，得到第二级目标的候选框P2；每个P2再进行全连接等特征映射，送入分类与回归模块，进行第二级目标的分类和位置校准，输出第二级目标的检测结果：目标类型和第二级目标检出框B2。第二级目标即为图像中需要检出的小目标。

在本发明部分实施例中，还可以通过采用多任务学习机制，将两级检测的loss相加作为整个网络的总的Loss，即可将两级检测器一起进行多任务端到端训练，得到一个端到端的检测网络模型。

现有的目标检测方法对于某些尺寸较大的目标可以很好地识别，但是尺寸较大的目标在现实生活中只占很小的一部分，对于距离较远的目标，检测结果并不是很好。目标检测有以下特点，以检测电力线路上的销钉目标为例：

特点一、尺度太小。由于拍摄距离目标较远，电力线路直升机或无人机巡检拍摄到的图像中，销钉的尺寸往往很小，用目前深度学习等方法直接对这类小目标检测，存在较高的误检和漏检，检测准确度不高。此类小目标的精准检测，成为一个迫切需要解决的问题。

特点二、角度不同。航拍情况下拍摄的销钉虽然都是俯视图，但是拍摄角度不同将导致销钉在图像中呈现出多种视角和多变的表观特征。本来已经很小的目标又因为角度的不同，呈现出较大的目标类内的表观特征差异，导致检测艰难加大。

基于现实中存在的目标检测困难，本发明上述实施例的图像中对于小目标进行二级检测的目标检测方法，提出了先利用CNN网络中的深层特征对大目标进行第一级检测，检测出来包含小目标的第一级检测框，然后从第一级的检出框中，利用从多层特征融合后的特征图中提取出第二级检测的特征图，在第一级目标区域内利用多尺度融合的特征，进行第二级小目标的检测。本发明上述实施例提出的两级检测相结合的图像小目标检测方法，从上述问题出发，通过两个检测器级联检测且特征共享等设计，能较好地解决目标在小尺度、远距离时的精准、高效检测问题。

本发明上述实施例中提出的方法包括构建利用待检测图片送入CNN网络产生不同层次的特征，利用深层特征和RPN+分类和回归网络(模块)进行大目标的检测、产生大目标的检测框；再通过对多层特征进行融合，提取大目标检测框区域的多层融合特征，送人第二级检测框，通过第二级检测网络的RPN模块、分类和回归模块，对小目标进行检测定位；整个网络通过将两个阶段的目标检测损失进行加权求和，作为整个网络的损失函数，实现端到端的网络训练。整个检测过程包括四个环节，以电力销钉检测为例进行介绍：

一、待检测图片送入CNN网络进行多层卷积运算产生不同层次的特征。将图片送入resnet网络，对输入图像进行多层卷积等运算得到图片的特征图M1。

二、利用深层特征和RPN+分类和回归网络进行大目标的检测。利用faster_rcnn网络中的RPN模块和分类和回归模块做第一级目标的检测与定位。通过RPN网络(模块)来产生大目标的检测框.并用分类和回归模块计算相应的分类和回归，检测得到第一级目标的位置框(检出框)B1。这里因为大目标尺寸大、且不涉及过多局部细节，可以采用CNN深层的特征，比如res5的features。具体操作如图1所示。为了获得统一尺度的训练图片，在训练的时候，本实施例从经过缩放的图片中裁剪出尺度为M×N(例如640*480)的裁出图。即对于大小为0.5倍M×N(例如320*240)的图片，用图像填充至M×N(例如640*480)，而对于大小为2倍M×N(例如1280*960)的图片，则从大图中随机裁剪出M×N(例如640*480)的小图，对于大小为M×N(例如640*480)的图片，则采用原图(即尺寸为M×N(例如640*480)的原始输入图片)作为裁出图，然后将三种裁出图同时用于训练。这种做法能够增加训练样本的数量，对于深度学习等数据驱动的算法来说非常重要。

三、对多层特征进行特征融合，提取大目标检测框的多层融合特征。对于每个或主要卷积层输出的特征图，利用反卷积对其做上采样、将不同卷积层输出的特征图变换到同一分辨率，然后将各层特征图做逐像素相加，得到多尺度特征融合后的特征图M1’，并利用得到的第一级目标检出框B1，将M1’中相应区域框选出来，作为第二级检测器的特征图M2。例如输入图片经过Resnet网络之后，将res4层的输出结果反卷积一次得到和res3相同的分辨率，并和res3的结果相加进行特征融合得到最终特征。图2为具体的多层特征融合流程图。

四、通过RPN网络(模块)+分类和回归网络(模块)对小目标进行检测，两次目标检测的损失加权求和。，将步骤三中产生的特征图M2送入一个RPN+分类和回归网络，进行第二级目标的检测定位，得到小目标的检出框B2。第二级目标即为图像中需要检出的小目标。因为第一级目标检测是为了检测出包含第二级检测目标的检测框，所以第一级目标检测结果对第二级目标的检测有着比较大的影响作用。

将两级目标检测的损失加权求和进行反向传播，是一种多任务的端到端的训练方式。通过采用多任务学习机制，将两级检测的loss(损失)相加作为整个网络的总的Loss，即可将两级检测器一起进行多任务同步训练，得到一个端到端的检测网络模型。图3为基于上述实施例的具体的基于两级检测相结合的图像小目标检测方法工作流程图。

L_loss＝loss₁+loss₂

loss₁＝loss_{1_cls}+loss_{1_box}

loss₂＝loss_{2_cls}+loss_{2_box}

其中，L_loss指总的损失，loss₁指第一级目标检测的损失，loss₂指第二级目标检测的损失；loss_{1_cls}指第一级目标检测分类的损失，loss_{1_box}指第一级目标检测回归检测框的损失；loss_{2_cls}指第二级目标检测分类的损失，loss_{2_box}指第二级目标检测回归检测框的损失。

在本发明实施例中，大目标是指目标物体的像素面积大于等于设定的面积阈值S(例如，以行人目标为例的话，S可设定为20pixel×10pixel)的目标；小目标则是指大目标区域内，像素面积小于设定的面积阈值S的目标。

本发明通过构造一个两级检测网络，先准确检测大目标，再在大目标区域检测小目标，将小目标的检测框限在最可能、最容易检测的一个局部区域，亦即大目标所在区域，从而有效去除复杂的背景干扰、降低误检概率，提升图像中小目标检测的精度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于两级检测相结合的图像小目标检测方法，其特征在于，包括：

S2，利用第一级检测器检测第一级目标：

S3，利用第二级检测器检测第二级目标：

将第一级检测器的卷积神经网络模块中的浅卷积层输出特征与深卷积层输出特征进行多尺度特征相融合得到特征图M1’，并利用第一级目标的检出框B1从特征图M1’中框选出来相应位置框B1’；对每一个位置框B1’，提取位置框B1’在特征图M1’中的特征图，作为第二级检测器的输入特征图M2；将输入特征图M2作为输入，送入到第二级检测器的RPN模块和分类与回归模块，进行第二级目标检测定位，得到第二级目标的检测结果，即为图像中需要检出的小目标。

2.根据权利要求1所述的基于两级检测相结合的图像小目标检测方法，其特征在于，所述S2中，对原始图像的处理，包括对图像的缩放、格式转换和/或样本尺度统一处理。

3.根据权利要求2所述的基于两级检测相结合的图像小目标检测方法，其特征在于，对样本尺度统一处理的方法包括：

对于1倍缩放的图片，则将原始输入图像作为裁出图；

最后，将三种裁出图同时作为样本。

4.根据权利要求1所述的基于两级检测相结合的图像小目标检测方法，其特征在于，所述S3中，进行多尺度特征相融合得到特征图M1’的方法为：

5.根据权利要求1所述的基于两级检测相结合的图像小目标检测方法，其特征在于，所述S3中，第二级目标的检测结果包括第二级目标的目标类型和检出框B2。

6.根据权利要求1至5中任一项所述的基于两级检测相结合的图像小目标检测方法，其特征在于，还包括S4，利用第一级检测器和第二级检测器的损失之和构造一个能够端到端训练的检测网络模型，并利用检测网络模型对得到的目标进行训练。

7.根据权利要求6所述的基于两级检测相结合的图像小目标检测方法，其特征在于，所述S4中，第一级检测器和第二级检测器的损失之和构造一个能够端到端训练的网络，是指：基于采用多任务学习机制，将两级检测的损失进行加权求和，作为整个两级检测网络的总损失，即将第一级检测器和第二级检测器一起进行多任务同步训练，得到一个端到端的检测网络模型。