CN108846446B

CN108846446B - 基于多路径密集特征融合全卷积网络的目标检测方法

Info

Publication number: CN108846446B
Application number: CN201810721733.2A
Authority: CN
Inventors: 黄守志; 李小雨; 饶丰; 姜竹青; 门爱东
Original assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science Research Institute
Current assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science Research Institute
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2021-10-12
Anticipated expiration: 2038-07-04
Also published as: CN108846446A

Abstract

本发明涉及一种基于多路径密集特征融合全卷积网络的目标检测方法，利用深度卷积神经网络提取具有不同特征信息的分层多尺度特征图；利用自底向上的旁路连接进行自下而上的特征融合；利用自顶向下的密集旁路连接进行自上而下的密集特征融合；构建不同大小和长宽比的目标候选框；利用二分类器减少目标候选框中的简单背景样本，并利用多任务损失函数对二分类器、多类别分类器和边界框回归器进行联合优化。本发明基于深度卷积神经网络提取图像特征，利用多路径密集特征融合方法改善特征表达能力，构建了用于目标检测的全卷积网络，提出了减少冗余简单背景样本和多任务损失联合优化的策略，提高了算法的检测精度，获得了良好的目标检测结果。

Description

基于多路径密集特征融合全卷积网络的目标检测方法

技术领域

本发明属于计算机视觉目标检测技术领域，尤其是一种基于多路径密集特征融合全卷积网络的目标检测方法。

背景技术

人类在物质世界的感知工程中，有80％以上的信息来源于视觉。对人类来说，图像以及视频是对客观事物形象与逼真的描述，也是重要的多媒体信息载体。目标检测技术作为计算机视觉领域的核心研究课题之一，通过分析提取目标特征，进而获得目标的类别和位置信息。目标检测技术融合了图像处理、模式识别、人工智能、计算机视觉等许多领域的前沿技术,在智能化交通***、智能监控***、人机交互、自动驾驶、图像检索、智能机器人等诸多领域得到了广泛的应用。

目标检测技术是通过提取图像或视频中目标的特征进行分析，将目标识别出来，并以边界框的形式将其标示出，进一步去完成跟踪、理解等后续任务。目标检测作为计算机视觉的基础任务，其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高级任务的性能。然而，图像中的目标通常具有多种尺度、多种形态，同时也面临自然世界的环境因素影响，例如光照、遮挡、复杂背景等，因此基于计算机视觉的目标检测仍然面临着巨大的挑战并且需要进一步研究。

在深度学习广泛应用于计算机视觉领域之前，传统的目标检测方法通常采用复杂的人工设计特征，比如尺度不变特征转换(Scale invariant feature transform,SIFT)、方向梯度直方图(Histogram of gradient,HoG)等来获取原始输入中和目标有关的特征信息实现目标检测。然而由于目标的形态多样性、光照变化以及复杂背景等因素，手工设计一个鲁棒的特征并非易事，传统特征的适应能力并不强。传统检测模型在很大程度上依赖于特定的目标检测任务，而且传统检测模型分离了特征提取和分类器训练，也阻碍了传统检测模型获得更符合目标特性的特征描述。得益于计算机硬件计算速度的极大提升、大数据集的诞生以及深度学习的发展，目标检测性能表现更为优异。目前流行的目标检测算法均使用卷积神经网络来进行特征提取。2012年多伦多大学研究人员使用卷积神经网络(Convolutional Neural Network，CNN)获得了ImageNet大规模视觉识别竞赛(ImageNetLarge Scale Visual Recognition Challenge,ILSVRC)目标检测和图像分类两个项目的冠军，并且错误率远远低于传统机器学习方法，卷积神经网络开始被广泛应用于计算机视觉领域。2014年美国伯克利大学团队将区域候选方法与卷积神经网络结合起来提出R-CNN，显著提高了目标检测的精度，成为基于区域候选进行目标检测的典型方案，此后几年目标检测算法的研究主要基于卷积神经网络。FasterR-CNN进一步提出区域候选网络和检测网络共享卷积特征，解决了产生候选区域的瓶颈问题。2017年FAIR提出FPN利用深度卷积网络内在的分层特征来构建特征金字塔用于多尺度目标检测。2016年华盛顿大学团队提出新的目标检测方法YOLO，将整个目标检测过程作为回归问题来解决，基于一个简单的单独的端到端网络，完成从原始图像输入到目标位置和类别的输出。YOLO检测速度快，但精度相较基于区域候选的方法较低。YOLO只考虑利用最高层特征用于识别，随后提出的SSD利用来自卷积神经网络的不同层特征分别进行预测来解决多尺度目标检测问题。2017年提出的DSSD利用反卷积引入额外的上下文信息改善目标检测精度。

综上所述，虽然目标检测算法经过了几十年的发展已经取得了不错的效果，卷积神经网络的出现更是将目标检测精度提升了很多，但是很多问题还是有待改善，例如，如何更有效地丰富目标特征信息，如何减少冗余的简单背景样本等。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理且精度高的基于多路径密集特征融合全卷积网络的目标检测方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于多路径密集特征融合全卷积网络的目标检测方法，包括以下步骤：

步骤1、利用深度卷积神经网络提取具有不同特征信息的分层多尺度特征图；

步骤2、基于池化方法对步骤1产生的分层多尺度特征利用自底向上的旁路连接进行自下而上的特征融合；

步骤3、基于反卷积方法对步骤2产生的分层多尺度特征利用自顶向下的密集旁路连接进行自上而下的密集特征融合；

步骤4、基于步骤1产生的分层多尺度特征图构建不同大小和长宽比的目标候选框；

步骤5、利用二分类器减少目标候选框中的简单背景样本，并利用多任务损失函数对二分类器、多类别分类器和边界框回归器进行联合优化，实现图像分类和目标定位功能；

所述步骤4的实现方法依据以下原则：

⑴对浅层特征图构建更小的目标候选框，对高层特征图构建更大的目标候选框；

⑵构建多种不同长宽比目标候选框。

所述步骤1的具体实现方法包含以下步骤：

⑴构建一个全卷积网络用于特征提取：在初始用于图像分类的卷积神经网络中去掉全连接层，并添加两个新的卷积层；

⑵将带有目标真实边框的图片输入到卷积神经网络，产生相应的具有不同特征信息的分层多尺度特征图。

所述步骤2的具体实现方法包含以下步骤：

⑴基于初始分层特征添加3*3*512的卷积层，使得分层特征通道维度保持一致；

⑵添加批归一化层，用于减弱不同层分布的影响，加速网络的训练；

⑶首先对最浅层特征添加最大池化层，使得其维度减半，然后基于旁路连接将其与较高层特征进行对应元素的叠加实现特征融合；

⑷对步骤⑶自底向上迭代进行，实现自下而上的特征融合功能。

所述步骤3的具体实现方法包含以下步骤：

⑴对最顶层特征添加反卷积层，使得其维度增加并与较低相邻层维度一致；

⑵将反卷积后的特征图和较低相邻层特征进行对应元素的叠加；

⑶采用密集旁路连接方式融合所有高层特征。

所述步骤5中的具体实现方法包含以下步骤：

⑴构建一个二分类器判断候选框是否包含目标的得分，用于困难样本挖掘；

⑵利用多任务损失函数对二分类器、多类别分类器和边界框回归器进行联合优化训练，实现图像分类和目标定位功能。

本发明的优点和积极效果是：

本发明采用深度卷积神经网络的多路径密集特征融合方法，通过前向和反向密集连接方式丰富特征表达能力，进而应用多层多尺度特征进行多尺度目标检测，并生成一个二值分类器预测可能的目标位置得分，实现困难样本的挖掘功能。本发明利用了深度卷积神经网络对目标的强大的表示能力，构建了用于目标检测的多路径密集特征融合全卷积网络，提出了减少冗余简单背景样本的方法，提高了算法的检测精度，获得了良好的目标检测结果。

附图说明

图1是本发明提出的自底向上的特征融合方法框架图；

图2是本发明提出的自顶而下的多路径密集特征融合方法框架图；

图3是本发明提出的目标检测整体结构图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种基于多路径密集特征融合全卷积网络的目标检测方法，如图3所示，包括以下步骤：

步骤1、利用卷积神经网络架构提取具有不同特征信息的分层多尺度特征图。

本步骤的具体实现方法如下：

(1)构建一个全卷积网络用于特征提取：在初始用于图像分类的卷积神经网络中去掉全连接层，并添加两个新的卷积层，其得到的特征图维度相应地随着层数增加而减少一半；

(2)将带有目标真实边框的图片输入到卷积神经网络，产生相应的具有不同特征信息的分层多尺度特征图。

步骤2、基于池化方法对步骤1产生的多层特征利用自底向上的旁路连接进行自下而上的特征融合。

如图1所示，本步骤的具体实现方法如下：

(1)首先基于初始分层特征添加3*3*512的卷积层，使得分层特征通道维度保持一致，便于之后的特征融合；

(2)添加批归一化层，减弱不同层分布的影响，加速网络的训练；

(3)考虑对提取的多层多尺度特征进行融合，首先对最浅层特征添加最大池化层，使得其维度减半，然后基于旁路连接将其与较高层特征进行对应元素的叠加实现特征融合；

(4)对步骤(3)自底向上迭代进行，实现自下而上的特征融合。

步骤3、基于反卷积方法对步骤2产生的多层特征利用自顶向下的密集旁路连接进行自上而下的密集特征融合。

如图2所示，本步骤的具体实现方法如下：

(1)对最顶层特征添加反卷积层，使得其维度增加与较低相邻层维度一致；

(2)将反卷积后的特征图和较低相邻层特征进行对应元素的叠加；

(3)为了实现更为密集的特征融合，采用密集旁路连接方式，即浅层融合特征不仅来自于相邻高层特征，而且融合了所有的高层特征。

步骤4、基于步骤3产生的多尺度特征图构建不同大小和长宽比的目标候选框。

本步骤的具体实现方法如下：

(1)考虑不同层神经元感受野的不同，针对卷积神经网络不同层神经元感受野的不同，对浅层特征图设计更小的目标候选框，对高层特征图设计更大的目标候选框；

(2)考虑目标长宽比例存在的多样性，设计多种不同长宽比，丰富候选框类型。

步骤5、利用二分类器减少目标候选框中的简单背景样本，并利用多任务损失函数对二分类器、多类别分类器和边界框回归器进行联合优化实现图像分类和目标定位。

(1)目标候选框中存在许多冗余的简单背景样本，设计一个二分类器判断候选框是否包含目标的得分，实现困难样本挖掘的功能；

(2)利用多任务损失函数对二分类器、多类别分类器和边界框回归器进行联合优化训练，实现图像分类和目标定位。

下面按照本发明的方法进行实验，说明本发明的实验效果。

测试环境：Ubuntu16.04，Python 2.7，GTX 1080 Ti GPU

测试序列：所选测试序列来自目标检测的PASCAL VOC数据集。其中包含的目标均为日常生活常见种类，共20个类别，包括人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC2007目标检测数据集共包含9,963张图片，24,640个被标记的目标物体。

测试指标：本发明主要使用精度mAP(mean average precision)指标对检测结果进行评价。mAP是目标检测结果的平均准确度测量，是目标检测算法评测最常用的指标，对不同算法进行测试比较，证明本发明在目标检测领域能够得到较好的结果。

测试结果如下：

表1、不同特征融合算法的实验结果

方法	训练集	测试集	精度
				原始特征	07+12	07	70.3
自底向上融合	07+12	07	70.4
				自顶向下融合	07+12	07	73.2
本发明	07+12	07	74.8

表1是应用卷积神经网络提取的不同图像特征进行目标检测在PASCALVOC2007测试集上的精度结果，它们后端采用了相同的检测框架。其中精度是平均精度mAP。可以看出本发明所提出的基于前向和反向的特征融合方法能够有效改善初始特征表达能力，并且联合多路径密集特征融合方法能进一步提升检测表现。

表2不同目标检测器检测性能比较

表2是基于PASCALVOC数据集流行的目标检测器的检测性能比较，可以看出本发明在mAP上优于其他目标检测算法。Faster R-CNN为典型的基于区域的目标检测算法代表，本发明的mAP为74.8％，比Faster R-CNN的检测精度提高了1.6％，本发明的检测速度为20FPS，接近于实时检测，检测速度比Faster R-CNN快两倍。SSD为典型的基于回归方法的检测器，本发明的检测精度也更高。上述结果表明本发明算法所产生的目标检测结果拥有更高的精度，而且能更好地解决多尺度目标检测的难题。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于多路径密集特征融合全卷积网络的目标检测方法，其特征在于包括以下步骤：

所述步骤4的实现方法依据以下原则：

⑵构建多种不同长宽比目标候选框。

2.根据权利要求1所述的基于多路径密集特征融合全卷积网络的目标检测方法，其特征在于：所述步骤1的具体实现方法包含以下步骤：

3.根据权利要求1所述的基于多路径密集特征融合全卷积网络的目标检测方法，其特征在于：所述步骤2的具体实现方法包含以下步骤：

4.根据权利要求1所述的基于多路径密集特征融合全卷积网络的目标检测方法，其特征在于：所述步骤3的具体实现方法包含以下步骤：

⑶采用密集旁路连接方式融合所有高层特征。

5.根据权利要求1所述的基于多路径密集特征融合全卷积网络的目标检测方法，其特征在于：所述步骤5中的具体实现方法包含以下步骤：