CN111462090A - 一种多尺度图像目标检测方法 - Google Patents

一种多尺度图像目标检测方法 Download PDF

Info

Publication number
CN111462090A
CN111462090A CN202010252426.1A CN202010252426A CN111462090A CN 111462090 A CN111462090 A CN 111462090A CN 202010252426 A CN202010252426 A CN 202010252426A CN 111462090 A CN111462090 A CN 111462090A
Authority
CN
China
Prior art keywords
network
detection
feature
stage
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010252426.1A
Other languages
English (en)
Other versions
CN111462090B (zh
Inventor
徐成琪
洪学海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Original Assignee
Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao filed Critical Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Priority to CN202010252426.1A priority Critical patent/CN111462090B/zh
Publication of CN111462090A publication Critical patent/CN111462090A/zh
Application granted granted Critical
Publication of CN111462090B publication Critical patent/CN111462090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多尺度图像目标检测方法,涉及计算机视觉在图像目标检测算法中应用,其基于功能保持的特征金字塔网络能够充分增强每一层的语义特征,对多尺度目标的表示能力大大增强,同时利用两阶段的特征描述目标进一步提升了对多尺度目标的表示能力。相比目前主流的目标检测算法,能够更加有效的解决尺度变化的问题,尤其是小目标检测的问题,大大提升了检测的精度。

Description

一种多尺度图像目标检测方法
技术领域
本发明涉及人工智能与计算机视觉领域,尤其涉及计算机视觉在图像目标检测算法中应用的一种多尺度图像目标检测方法。
背景技术
近年来,基于深度学习的图像目标检测算法实现了突破性的进展。通过卷积神经网络进行检测,大大提升了精度。基于深度学习的目标检测算法依据其结构差异主要分为两大类:基于回归的检测算法和基于区域提议的检测算法。
其中基于回归的目标检测算法主要有YOLO、SSD、RetinaNet、RefineDet 等算法,该类型算法主要通过主网络提取的特征进行一次回归与多分类计算得到结果。基于区域提议的检测算法主要有R-CNN、SPPNET、Fast-RCNN、 Faster-RCNN、R-FCN、FPN等算法,该类型算法是分两个阶段进行检测,第一阶段主要负责对图像中提取到的特征对初始框anchor进行粗略回归与与二分类得到提议框,第二阶段主要利用第一阶段检测得到的提议框(proposal)对其进行进一步的回归与分类计算得到结果,将网络得到的所有结果进行非极大值抑制、防越界处理等后处理操作,最终将得到的所有检测框标注在原始图像上即完成检测。然而,以上两种算法针对目标尺度变化的问题完全依赖于anchor的尺度变化,不能很好的解决目标检测中尺度变化的问题,尤其是小目标检测的问题。
发明内容
本发明要解决的主要技术问题是,提供一种多尺度图像目标检测方法,其利于提高算法在多尺度目标检测中的性能、提高检测的精度。
为解决上述技术问题,本发明提供一种多尺度图像目标检测方法,其特征在于,其基于功能保持的特征金字塔的多尺度目标检测网络,以FPN检测网络为对比模型,构建一种全新网络;其目标检测的训练过程流程包括以下步骤:
步骤a、准备公开数据集PASCAL VOC2007+2012;
步骤b、将数据集转换成tfrecord格式;
步骤c、构建主网络用于一阶段的RPN检测;
步骤d、构建功能保持特征融合模块,进一步构建功能保持特征金字塔网络用于二阶段的检测;
步骤e、对每一类所有的检测结果利用NMS算法去除重叠度较高、冗余的检测框;
步骤f、构造两阶段损失函数:L1/L2损失与交叉熵损失;
步骤g、将数据传入网络开始训练。
实施时,所述全新网络的目标是利用卷积神经网络的内在结构,自然的构建一个每一层都具有强语义信息的特征金字塔。
实施时,所述全新网络是一个全卷积网络,其架构包含一个自上而下的连接和横向连接;所述全新网络设置了功能保持特征融合模块,用于来维持每一步特征融合过程中的强语义信息,减少其在该过程中的损失;同时,利用两个不同阶段的特征图分别用于两个不同阶段的检测。
实施时,所述步骤a中首先收集公开数据集PASCAL VOC2007和PASCAL VOC2012训练集,并将所有训练数据按照所述步骤b统一转换成tfrecord格式,完成数据预处理。
实施时,所述步骤c中,开始构建区域提议网络RPN用于一阶段检测;主干网络采用Resnet101,在每个阶段的卷积步长都设为2,因此每个阶段的特征图大小都各不相同,而在每个模块内的特征图大小都相同,选择每个模块中的最后一个特征图来构建主网络的特征金字塔,每个特征图大小都比前一个特征图缩小一半;将主网络特征金字塔对应的特征图用于一阶段的RPN检测,用于生成多个尺度和多个比例的proposal框。
实施时,所述步骤d中,构建的功能保持特征融合模块用于自上而下的生成融合特征图,进而用于二阶段的目标检测;功能保持特征融合模块将高层特征图与低层特征图进行低损失的融合,其网络结构为:
首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小,然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半,而横向连接的特征图不需要压缩通道数直接传给功能保持特征融合模块模块,得到它们之后通过相加操作融合两层的特征图,最后通过一个3×3的卷积防止混叠效应;
同时,所述全新网络也采用共享卷积的方式,将所有得到的特征图再进行一个3×3且通道数为256的卷积,得到最终的融合后的特征图;将得到的融合后的特征图分别用于二阶段的检测。
实施时,所述步骤e中,针对上一步骤整个网络输出得到的所有检测框进行后处理操作,即对每一类所有的检测框利用非极大值抑制算法NMS去重,把重叠度较高较冗余的检测框过滤掉,防止一个目标同时拥有多个同类的检测框。
实施时,所述步骤f中,包括构建网络的损失函数,网络的总的损失函数包含rpn网络的损失和Fastrcnn网络的损失,公式如下,这里λ我们取1:
L=Lrpn+λLFastrcnn (2)
两个阶段的损失又包含分类损失和回归损失,在rpn阶段网络需要对所有 anchor进行二分类。
实施时,在所述步骤g中,开始将数据传入整个网络,迭代约13万轮即完成训练。
实施时,为了使二阶段检测每个ROI所能采样到的特征点都较均匀,设计可适应性RPN(SDRPN)结构:由一阶段的特征图传入进行区域提议运算生成相应的ROI框,并将所有ROI按照面积分为4类,分别可适应性的传到二阶段特征图上做进一步的检测,分配公式如下:
Figure DEST_PATH_3
实施时,在测试时,网络检测结束后,需要对所有的预测框进行后处理,要包括对预测框解码、防止越界处理、非极大值抑制(NMS)等操作。
实施时,在所述步骤g中,开始将数据传入整个网络,迭代约13万轮即完成训练。
所述整个目标检测的训练过程流程,是针对目标检测网络训练的流程,训练完得到的模型即可用于测试,测试流程仅包含权利要求1中的步骤c、步骤d 以及上述后处理操作(对预测框解码、防止越界处理、非极大值抑制),把测试图像传入我们构建的网络,经过步骤c、步骤d后得到结果,此时网络检测结束。接着需要对检测结束得到的所有预测框进行后处理,包括对预测框解码、防止越界处理、非极大值抑制(NMS),完成这些操作即得到最终我们想要的结果,也是最终的结果。这些结果画在图像上就可以看到网络的检测框。
本发明的有益效果是:一种多尺度图像目标检测方法,基于功能保持的特征金字塔网络能够充分增强每一层的语义特征,对多尺度目标的表示能力大大增强,同时利用两阶段的特征描述目标进一步提升了对多尺度目标的表示能力。相比目前主流的目标检测算法,能够更加有效的解决尺度变化的问题,尤其是小目标检测的问题,大大提升了检测的精度。
附图说明
图1是本发明一种实施例整个网络训练流程图;
图2是本网络结构图;
图3是功能保持特征融合模块结构图;
图4是跨越两阶段特征图的SDRPN结构图;
图5是本算法FMFPD与FPN算法检测性能——PR曲线对比图;
图6是本算法FMFPD与FPN算法检测效果对比图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
目前,针对多尺度目标检测的算法也有很多,其中图像金字塔的方法能够大大提升多尺度目标检测的精度,SN I P算法就是在图像金字塔中寻找合适大小尺度的目标进行训练,然而图像金字塔需要耗费大量的计算量和时间,因此不具有实用价值。另一种解决多尺度的方法是利用卷积神经网络中产生的多个特征图构建特征金字塔,其中SSD算法就利用了6层大小不同的特征图来检测尺度不同的目标,因为每一层特征图具有不同大小的感受野,所以该方法一定程度上缓解了尺度变化问题。然而SSD的底层特征图具有的语义信息较弱,对于小目标的表示能力不足,影响了精度,FPN算法为了增强底层特征的语义信息,利用了一个自上而下的连接将高层特征不断地传到底层进行融合,从而增强了小目标检测的性能,有效的缓解了多尺度问题。
本发明方案基于功能保持的特征金字塔网络能够充分增强每一层的语义特征,相比目前主流的目标检测算法,能够更加有效的解决尺度变化的问题,大大提升了检测的精度。
请参考图1-图6所示实施例,一种多尺度图像目标检测方法,其基于功能保持特征金字塔的多尺度目标检测网络。以FPN检测网络为对比模型。整个目标检测的训练过程流程图如图1所示,包括以下步骤:
步骤a、准备公开数据集PASCAL VOC2007+2012(这是两个训练数据集,分别是PASCALVOC2007和PASCALVOC2012一般都是将两个放在一起训练。)
步骤b、将数据集转换成tfrecord格式;
步骤c、构建主网络用于一阶段的RPN检测;
步骤d、构建功能保持特征融合模块(FMFM模块),进一步构建功能保持特征金字塔网络用于二阶段的检测;
步骤e、对每一类所有的检测结果利用NMS算法去除重叠度较高、冗余的检测框;
步骤f、构造两阶段损失函数:L1/L2损失与交叉熵损失;
步骤g、将数据传入网络开始训练。
本检测网络的目标是利用卷积神经网络的内在结构,自然的构建一个每一层都具有强语义信息的特征金字塔。本网络是一个全卷积网络,可以接受任意大小的输入,其主干网络采用Resnet101,整个检测网络架构如图2所示。可以看出和FPN特征金字塔网络类似,都包含一个自上而下的连接和横向连接,本网络主要设计了功能保持特征融合模块来维持每一步特征融合过程中的强语义信息,减少其在该过程中的损失。同时,利用两个不同阶段的特征图分别用于两个不同阶段的检测。
所述步骤a中首先收集公开数据集PASCALVOC2007和PASCALVOC2012训练集,并将所有训练数据按照所述步骤b统一转换成tfrecord格式,完成数据预处理。
所述步骤c中,开始构建区域提议网络RPN用于一阶段检测。主干网络采用Resnet101,在每个阶段的卷积步长都设为2,因此每个阶段的特征图大小都各不相同,而在每个模块内的特征图大小都相同,我们选择每个模块中的最后一个特征图来构建主网络的特征金字塔。将其中每个特征图表示为 {C2,C3,C4,C5,C6},每个特征图大小都比前一个特征图缩小一半。我们将主网络特征金字塔对应的特征图用于一阶段的RPN检测,用于生成多个尺度和多个比例的proposal框。
所述步骤d中,构建的功能保持特征融合模块(即FMFM模块,即构建功能保持特征金字塔网络的基础)用于自上而下的生成融合特征图。进而用于二阶段的目标检测。主网络的深层特征具有较好的语义信息,表示能力较强,而网络的浅层特征下采样次数较少,能学习到目标较多的纹理信息,对目标的定位更加精确。传统的特征融合方法为了方便融合,首先通过1×1的卷积将每一层的通道数都压缩到和最底层特征图C2通道数一样的256维,然后将高层特征图上采样到和底层特征图相同的分辨率,最后将两者相加,为了防止混叠效应,在得到的特征图上再加入一个3×3的卷积。本发明为了减小特征融合过程中高层语义信息的流失,提出FMFM模块将高层特征图与低层特征图进行低损失的融合,网络结构如图3所示,首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小,然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半,而横向连接的特征图不需要压缩通道数直接传给FMFM模块,得到它们之后通过相加操作融合两层的特征图,最后通过一个3×3的卷积防止混叠效应。该模块不仅保持了本层特征图较多的信息,同时也保持了上层特征图较多的信息,使得底层特征图的语义信息更加充足,从而对小目标的表示能力大大增强。同时,为了使每一层的参数能够得到更多的训练,本网络也采用共享卷积的方式,因此,将所有得到的特征图再进行一个3×3且通道数为256 的卷积,得到最终的融合后的特征图,将得到的特征图表示为{P2,P3,P4,P5},可以看出C6并没有参与构建融合特征,主要是因为特征图太小,二阶段检测过程中大部分ROI(感兴趣区域)在C6上能采样到的特征点太少,因此C6只用于一阶段的特征图用于部署最大的anchor。最后,将得到的融合后的特征图分别用于二阶段的检测。
为了使二阶段检测每个ROI(感兴趣区域)所能采样到的特征点都较均匀,设计可适应性RPN(SDRPN)结构,该结构如图4所示,由一阶段的特征图传入进行区域提议运算生成相应的ROI框,并将所有ROI按照面积分为4类,分别可适应性的传到二阶段特征图上做进一步的检测,分配公式如下。
Figure 1
可以看出网络将ROI分成的四个集合分别是(0,112),[112,224),[224,448),[448,),分别传到P2,P3,P4,P5层上。
所述步骤e中,针对上一步骤整个网络输出得到的所有检测框进行后处理操作,即对每一类所有的检测框利用非极大值抑制算法NMS去重,把重叠度较高较冗余的检测框过滤掉,防止一个目标同时拥有多个同类的检测框。
所述步骤f中,构建网络的损失函数。网络的总的损失函数包含rpn网络的损失和Fastrcnn网络的损失,公式如下,这里λ我们取1。
L=Lrpn+λLFastrcnn (2)
两个阶段的损失又包含分类损失和回归损失,在rpn阶段网络需要对所有 anchor进行二分类,将anchor分成正样本有两条准则,满足一条即可。
①如果一个anchor和任意一个ground-truth框之间的IoU超过0.7,即将其分为正样本。
②如果一个ground-truth框和某一个anchor拥有最高的IoU,即将其分为正样本。
如果一个anchor和所有的ground-truth框之间的IoU都小于0.3,即将其分为负样本。而那些没有分配标签的anchor就设为无关样本,不参与网络的训练过程。因此,网络的rpn阶段的损失可以定义为如下公式。
Figure BDA0002435975350000082
这里的分类损失Lcls是针对两个类别的交叉熵损失。Lloc代表回归损失,α代表回归损失的权重,这里设为1。
Figure BDA0002435975350000091
N代表选择的样本数量,这里默认设为256,为解决正负样本不均衡问题,网络会随机选择128个正样本,若没有足够的正样本,剩下的就用负样本来填充,i代表anchor的索引,ci代表网络预测第i个anchor包含目标的概率,xi代表第i个anchor的真实标签,若是正样本则为1,若是负样本则为0,Lcross_entropy代表交叉熵损失函数。
回归损失Lloc定义为预测框和ground-truth框之间的smooth L1损失,通过对ground-truth框的中心点坐标偏移量和宽高偏移量进行编码,分别与已编码后的预测框的中心点(cx,xy)和宽高(w,h)计算smooth L1损失,公式如下。
Figure BDA0002435975350000092
其中,
Figure BDA0002435975350000093
代表第i个anchor对应预测框的中心点偏移量和宽高偏移量,
Figure BDA0002435975350000094
代表第i个anchor匹配的ground-truth的中心点偏移量和宽高偏移量,
Figure BDA0002435975350000095
则代表该ground-truth的实际中心点坐标和实际宽高值,
Figure BDA0002435975350000096
代表第i个anchor 的实际中心点坐标和实际宽高值。
二阶段的损失函数LFastrcnn与rpn阶段类似。首先也需要先对所有一阶段rpn 传来的proposal框二分类,分类原则和rpn类似,如下。
a.如果一个proposal和任意一个ground-truth框之间的IoU超过0.5,即将其分为正样本。
b.如果一个ground-truth框和某一个proposal拥有最高的IoU,即将其分为正样本。
剩下的proposal全部分为负样本。
二阶段检测的损失函数公式如下。
Figure BDA0002435975350000101
其中,回归损失和rpn阶段类似,只针对正样本的proposal框计算回归损失,而二阶段的分类损失是多分类的情况,损失计算公式如下。
Figure BDA0002435975350000102
其中
Figure BDA0002435975350000103
代表第i个proposal框是不是属于第k类,如果是则为1,否则为 0,如果它属于负样本,则
Figure BDA0002435975350000104
为1。
Figure BDA0002435975350000105
代表网络预测的第i个proposal属于第k 类的概率,同样
Figure BDA0002435975350000106
表示第i个proposal属于负样本的概率。N代表所有的 proposal的数量,M代表所有类别数。
最后,在所述步骤g中,开始将数据传入整个网络,迭代约13万轮即完成训练。
在测试时,网络检测结束后,需要对所有的预测框进行后处理,主要包括对预测框解码、防止越界处理、非极大值抑制(NMS)等操作。
如图1所示,整个目标检测的训练过程流程是针对目标检测网络训练的流程,训练完得到的模型即可用于测试,测试流程仅包含权利要求1中的步骤c、步骤d以及上述后处理操作(对预测框解码、防止越界处理、非极大值抑制),把测试图像传入我们构建的网络,经过步骤c、步骤d后得到结果,此时网络检测结束。接着需要对检测结束得到的所有预测框进行后处理,包括对预测框解码、防止越界处理、非极大值抑制(NMS),完成这些操作即得到最终我们想要的结果,也是最终的结果。这些结果画在图像上就可以看到网络的检测框。
本发明的积极效果:
1、基于功能保持特征金字塔的检测网络比目前主流的检测网络拥有更高的检测精度,同时比大多数两阶段目标检测算法拥有更快的速度。下表通过实验与目前主流目标检测算法在PASCALVOC2007公开数据集上进行性能对比,为了较公平的对比,本算法没有采用相关训练技巧,例如难样本挖掘、Focalloss、多尺度训练(MST)等。
Figure BDA0002435975350000111
2、在多尺度与小目标检测、遮挡以及模糊等情况下,基于功能保持特征金字塔的检测算法比目前主流算法性能更好,实验检测性能对比如图5和图6。通过图 5的PR曲线对比图可以看出,本算法FMFPD的检测性能已经完全在FPN之上了。通过图6的算法检测效果对比图可以看出(从左往右依次是原图、FPN检测结果、 FMFPD检测结果,红色箭头标注的是FPN漏检的目标),本算法FMFPD比FPN效果更好,从左往右依次是原图、FPN检测结果、FMFPD检测结果,红色箭头标注的是FPN漏检的目标,例如在第一张图中可以看出,左边马尾后部有一个较小的人的背影FPN未检测到,最右侧的一头牛未检测到,在第二张图中左边和中间区域有部分人FPN未检测到,在第三张图中模糊场景下后面两辆车FPN也未检测到。而这些目标本算法依然可以检测到。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (11)

1.一种多尺度图像目标检测方法,其特征在于,其基于功能保持的特征金字塔的多尺度目标检测网络,以FPN检测网络为对比模型,构建一种全新网络;其目标检测的训练过程流程包括以下步骤:
步骤a、准备公开数据集PASCAL VOC2007+2012;
步骤b、将数据集转换成tfrecord格式;
步骤c、构建主网络用于一阶段的RPN检测;
步骤d、构建功能保持特征融合模块,进一步构建功能保持特征金字塔网络用于二阶段的检测;
步骤e、对每一类所有的检测结果利用NMS算法去除重叠度较高、冗余的检测框;
步骤f、构造两阶段损失函数:L1/L2损失与交叉熵损失;
步骤g、将数据传入网络开始训练。
2.如权利要求1所述的多尺度图像目标检测方法,其特征在于,所述全新网络的目标是利用卷积神经网络的内在结构,自然的构建一个每一层都具有强语义信息的特征金字塔。
3.如权利要求1所述的多尺度图像目标检测方法,其特征在于,所述全新网络是一个全卷积网络,其架构包含一个自上而下的连接和横向连接;所述全新网络设置了功能保持特征融合模块,用于来维持每一步特征融合过程中的强语义信息,减少其在该过程中的损失;同时,利用两个不同阶段的特征图分别用于两个不同阶段的检测。
4.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,所述步骤a中首先收集公开数据集PASCAL VOC2007和PASCAL VOC2012训练集,并将所有训练数据按照所述步骤b统一转换成tfrecord格式,完成数据预处理。
5.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,所述步骤c中,开始构建区域提议网络RPN用于一阶段检测;主干网络采用Resnet101,在每个阶段的卷积步长都设为2,因此每个阶段的特征图大小都各不相同,而在每个模块内的特征图大小都相同,选择每个模块中的最后一个特征图来构建主网络的特征金字塔,每个特征图大小都比前一个特征图缩小一半;将主网络特征金字塔对应的特征图用于一阶段的RPN检测,用于生成多个尺度和多个比例的proposal框。
6.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,所述步骤d中,构建的功能保持特征融合模块用于自上而下的生成融合特征图,进而用于二阶段的目标检测;功能保持特征融合模块将高层特征图与低层特征图进行低损失的融合,其网络结构为:
首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小,然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半,而横向连接的特征图不需要压缩通道数直接传给功能保持特征融合模块模块,得到它们之后通过相加操作融合两层的特征图,最后通过一个3×3的卷积防止混叠效应;
同时,所述全新网络也采用共享卷积的方式,将所有得到的特征图再进行一个3×3且通道数为256的卷积,得到最终的融合后的特征图;将得到的融合后的特征图分别用于二阶段的检测。
7.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,所述步骤e中,针对上一步骤整个网络输出得到的所有检测框进行后处理操作,即对每一类所有的检测框利用非极大值抑制算法NMS去重,把重叠度较高较冗余的检测框过滤掉,防止一个目标同时拥有多个同类的检测框。
8.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,所述步骤f中,包括构建网络的损失函数,网络的总的损失函数包含rpn网络的损失和Fastrcnn网络的损失,公式如下,这里λ我们取1:
L=Lrpn+λLFastrcnn (2)
两个阶段的损失又包含分类损失和回归损失,在rpn阶段网络需要对所有anchor进行二分类。
9.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,在所述步骤g中,开始将数据传入整个网络,迭代约13万轮即完成训练。
10.如权利要求6所述的多尺度图像目标检测方法,其特征在于,为了使二阶段检测每个ROI所能采样到的特征点都较均匀,设计可适应性RPN(SDRPN)结构:由一阶段的特征图传入进行区域提议运算生成相应的ROI框,并将所有ROI按照面积分为4类,分别可适应性的传到二阶段特征图上做进一步的检测,分配公式如下:
Figure 3
11.如权利要求1、2或3所述的多尺度图像目标检测方法,其特征在于,在测试时,网络检测结束后,需要对所有的预测框进行后处理,要包括对预测框解码、防止越界处理、非极大值抑制(NMS)等操作。
CN202010252426.1A 2020-04-01 2020-04-01 一种多尺度图像目标检测方法 Active CN111462090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010252426.1A CN111462090B (zh) 2020-04-01 2020-04-01 一种多尺度图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010252426.1A CN111462090B (zh) 2020-04-01 2020-04-01 一种多尺度图像目标检测方法

Publications (2)

Publication Number Publication Date
CN111462090A true CN111462090A (zh) 2020-07-28
CN111462090B CN111462090B (zh) 2023-09-01

Family

ID=71680562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010252426.1A Active CN111462090B (zh) 2020-04-01 2020-04-01 一种多尺度图像目标检测方法

Country Status (1)

Country Link
CN (1) CN111462090B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112016567B (zh) * 2020-10-27 2021-02-12 城云科技(中国)有限公司 一种多尺度图像目标检测方法和装置
CN112841154A (zh) * 2020-12-29 2021-05-28 长沙湘丰智能装备股份有限公司 一种基于人工智能的病虫害防治***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109446964A (zh) * 2018-10-19 2019-03-08 天津天地伟业投资管理有限公司 基于端到端单级多尺度检测器的面部检测分析方法及装置
US20190164290A1 (en) * 2016-08-25 2019-05-30 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN109886082A (zh) * 2019-01-03 2019-06-14 南京理工大学 一种基于ssd的小目标增强预测模块检测方法
CN109934163A (zh) * 2018-12-27 2019-06-25 北京航空航天大学 一种基于场景先验和特征再融合的航空图像车辆检测方法
CN110348447A (zh) * 2019-06-27 2019-10-18 电子科技大学 一种具有丰富空间信息的多模型集成目标检测方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190164290A1 (en) * 2016-08-25 2019-05-30 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109446964A (zh) * 2018-10-19 2019-03-08 天津天地伟业投资管理有限公司 基于端到端单级多尺度检测器的面部检测分析方法及装置
CN109934163A (zh) * 2018-12-27 2019-06-25 北京航空航天大学 一种基于场景先验和特征再融合的航空图像车辆检测方法
CN109886082A (zh) * 2019-01-03 2019-06-14 南京理工大学 一种基于ssd的小目标增强预测模块检测方法
CN110348447A (zh) * 2019-06-27 2019-10-18 电子科技大学 一种具有丰富空间信息的多模型集成目标检测方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EE HENG CHEN等: "Investigating low level features in CNN for traffic sign detection and recognition" *
TSUNG-YI LIN等: "Feature Pyramid Networks for Object Detection" *
刘云等: "深度学习的多尺度多人目标检测方法研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112016567B (zh) * 2020-10-27 2021-02-12 城云科技(中国)有限公司 一种多尺度图像目标检测方法和装置
CN112841154A (zh) * 2020-12-29 2021-05-28 长沙湘丰智能装备股份有限公司 一种基于人工智能的病虫害防治***

Also Published As

Publication number Publication date
CN111462090B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN110458844B (zh) 一种低光照场景的语义分割方法
CN113011319B (zh) 多尺度火灾目标识别方法及***
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN109190752A (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN111462090A (zh) 一种多尺度图像目标检测方法
CN112734775A (zh) 图像标注、图像语义分割、模型训练方法及装置
CN109446922B (zh) 一种实时鲁棒的人脸检测方法
CN109657715B (zh) 一种语义分割方法、装置、设备及介质
CN114841972A (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
CN110070091A (zh) 用于街景理解的基于动态插值重建的语义分割方法及***
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,***及可读存储介质
CN113255837A (zh) 工业环境下基于改进的CenterNet网络目标检测方法
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及***
CN112926429A (zh) 机审模型训练、视频机审方法、装置、设备及存储介质
CN113743505A (zh) 基于自注意力和特征融合的改进ssd目标检测方法
CN111696136A (zh) 一种基于编解码结构的目标跟踪方法
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN113610024B (zh) 一种多策略的深度学习遥感影像小目标检测方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
Li et al. Resformer: Bridging residual network and transformer for remote sensing scene classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant