CN107316058A

CN107316058A - 通过提高目标分类和定位准确度改善目标检测性能的方法

Info

Publication number: CN107316058A
Application number: CN201710450327.2A
Authority: CN
Inventors: 娄英欣; 周芸; 付光涛; 姜竹青; 门爱东
Original assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications
Current assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-11-03

Abstract

本发明涉及一种通过提高目标分类和定位准确度改善目标检测性能的方法，其主要技术特点是：根据卷积神经网络架构提取图像特征，并选择卷积层前M层输出进行特征融合，形成多特征的特征图；在卷积层M上进行网格划分，在每个网络中预测固定数目和大小的目标候选框；将候选框映射到特征图上进行裁剪，然后将裁剪结果进行多特征连接；将上述结果通过全连接层后，通过Softmax分类算法对图像特征进行分类，并用重叠面积损失函数进行在线迭代回归定位，得到最终目标检测的结果。本发明设计合理，通过卷积神经网络提取特征，并对图像特征进行多层融合，最后使用Softmax分类算法对图像特征进行分类，并采用重叠面积损失函数进行定位，获得了良好的目标检测结果。

Description

通过提高目标分类和定位准确度改善目标检测性能的方法

技术领域

本发明属于目标检测技术领域，尤其是一种通过提高目标分类和定位准确度改善目标检测性能的方法。

背景技术

人类在物质世界的感知工程中，有80％以上的信息来源于视觉。而图像是在某种意义上对客观实际的一种反映，它以不同的模式向人类传递信息，并且它作为一种重要的信息载体，具有直观、内容丰富和便于交流等特点，是多媒体的重要组成内容，因此，基于图像处理技术的各种应用就应运而生。图像目标识别与检测技术就是其中最典型的应用技术。计算机视觉研究目的是用计算机来实现人类对客观世界的感知、识别和理解，目标检测(Object Detection)是计算机视觉中最常见的问题，且在计算机视觉理论研究领域受到了广泛关注,具有广阔的应用前景。当机器“睁”开双眼看世界时，需要判断它的视野内存在哪些目标、分别是什么、在什么位置。基于视觉的目标检测是图像处理、计算机视觉、模式识别等众多学科的交叉研究课题。目标检测的目的是从不同复杂程度的背景中辨识出目标，并以包围框(Bounding Box)的形式将其标示出，从而完成跟踪、识别等后续任务。因此，目标检测是高层理解与应用的基础任务，其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高层任务的性能。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。因此,目标检测与识别是图像分析和理解的基础,深入研究目标检测与识别算法,在学术界和工业界都有着非常重要的意义。然而对于机器而言，由于复杂的识别背景和目标本身的动态变化增加了目标识别的难度，庞大的***参数和高维的矩阵运算占用大量的处理时间，目标检测和识别还存在较大的问题，如识别的准确度、实时性都有待于提高。

目标检测的主要任务是对图像序列中的目标物体进行自动检测，包括判断类别和识别位置。当今流行的目标检测算法，首先在一张图片上生成1K-2K的候选框，然后对于每个候选框使用CNN卷积神经网络提取特征，其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类，最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征，通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配，从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性，由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易，传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性，卷积神经网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到，预训练基于ILVCR 2012计算机视觉识别挑战赛的全部数据集进行训练，然后针对预训练模型基于PASCAL VOC 2007训练集进行调优训练，从而实现通过CNN网络提取图片特征。深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构，该框架在ILSVRC 2012比赛中取得了非常好的成绩，此后，卷积神经网络被广泛应用于各类图像相关领域。Geoffrey Hinton设计的AlexNet是一个8层CNN架构，包括5个卷积层和3个全连接层，将当时最好算法的错误率减半，它证明了CNN在复杂模型下的有效性，且GPU使得训练在可接受的时间范围内得到结果。在2014年，ChristianSzegedy提出了GoogleNet架构在ILSVRC 2014分类比赛中取得第一名，与AlexNet不同的是：GoogleNet的深度(层数)更深，宽度(层核或者神经元数)更宽。同年，Andrew Zisserman提出的VGG-Net架构在ILSVRC 2014定位比赛中取得第一名，与AlexNet不同的是：VGG-Net使用更多的层，通常有16－19层。在2015年，Kaiming He提出的Res-Net架构在ILSVRC 2015分类和定位比赛中取得第一名，该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注；同时，工业界加入深度学习的研究中来，百度、***、facebook纷纷建立深度学习实验室,通过深度学习，进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法，这些算法也取得了良好的效果，但是仍有许多方面有待改进，如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。

发明内容

本发明的目地在于克服现有技术的不足，提出一种设计合理、精度高且稳定性强的通过提高目标分类和定位准确度改善目标检测性能的方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种通过提高目标分类和定位准确度改善目标检测性能的方法，包括以下步骤：

步骤1、根据卷积神经网络架构提取图像特征，并选择卷积层前M层输出进行特征融合，形成多特征的特征图；

步骤2、在卷积层M上进行网格划分，在每个网络中预测固定数目和大小的目标候选框；

步骤3、将候选框映射到特征图上进行裁剪，然后将裁剪结果进行多特征连接；

步骤4、将上述结果通过全连接层后，通过Softmax分类算法对图像特征进行分类，并用重叠面积损失函数进行在线迭代回归定位，得到最终目标检测的结果。

所述步骤1的具体方法包括以下步骤：

⑴首先将带有物体真实包围框的图片输入到卷积神经网络架构中，通过Caffe提取图像通过卷积神经网络不同层的特征；

⑵将靠前的卷积层输出的图像特征进行最大池化操作，并将卷积层M输出的图像特征进行反卷积操作，实现输出的尺寸都与中间卷积层的输出特征大小一致；

⑶最后将所有卷积层输出的特征进行融合，得到图像的多特征提取的特征图。

所述步骤2的实现方法包括以下步骤：

⑴在卷积层M输出的特征图上进行6*6的网格划分；

⑵在每个单个的网络小格正中间预测4个可能包含物体的候选框，这4个候选框具有固定的大小和长宽比，长宽比分别为1:1、1:2和2:1，仅对于1:1长宽比的候选框，设定2种候选框大小0.6和0.9；

⑶在网络训练的过程中，我们将物体的真实包围框和候选框进行匹配，通过二者的IOU重叠面积大于等于0.7进行筛选，并删除掉超出图像边界的候选框；

⑷最后在卷积层M的特征图上生成了100个候选框。

所述步骤3的实现方法包括以下步骤：

⑴根据卷积层M的特征图上生成的100个候选框，根据其所在位置映射相应的多层特征图上，并在多层特征图上进行相应的裁剪；

⑵将裁剪后的特征图方块做1*1卷积，然后对卷积结果分别进行3*3卷积和5*5卷积；

⑶为了获取全文信息，将多层特征图经过最大池化层，然后经过1*1卷积层和激活层；

⑷将1*1卷积、3*3卷积、5*5卷积和全文信息的卷积输出结果按照前后顺序进行连接，形成候选框的多特征连接。

所述步骤4的具体实现方法包括以下步骤：

⑴通过全连接层后，通过Softmax分类算法对图像特征进行分类，基于目标检测的数据集，每类物体具有自己相应的精度；

⑵通过重叠面积损失函数对候选框进行回归定位，使得候选框更加靠近物体的真实包围框，该损失函数为候选框和真实包围框的交集面积除以并集面积；

⑶根据Softmax损失和重叠面积损失值进行排序，在线筛选出正样本和负样本的比例为3:1，更新样本库输入到多层特征图上继续进行迭代回归定位；

⑷迭代N次后，候选框更加靠近物体的真实包围框，模型训练好之后可以进行实际物体的测试。

本发明的优点和积极效果是：

1、本发明为了得到更多的图像信息，将图片输入VGG-16卷积神经网络中提取图像特征，然后对图像特征进行多层融合形成多特征图；为了快速得到物体候选框，在卷积层5特征图上按照一定长宽比和尺寸生成目标候选框，并映射到多特征图上进行裁剪；为了获得更多候选框的信息，将裁剪结果进行多特征连接，并输入到全连接层；为了实现精确提升的分类和定位，进行Softmax分类器分类和Overlap损失函数迭代回归定位，实现完整的目标检测的分类和定位，得到了优于其他主流目标检测框架如Fatser R-CNN的检测效果。

2、本发明设计合理，其利用深度学习框架进行多特征提取，得到图像的多层特征表示，可是实现更加准确的分类；且在定位中采用了一种新的Overlap重叠面积损失函数，能够更准确地检测出输入图片中目标区域物体的位置，在目标检测的数据集上得到了良好的效果。

附图说明

图1为本发明的整体框图；

图2为本发明在卷积层5特征图上生成固定长宽比和尺寸的候选框；

图3为本发明在定位中提出的候选框与真实包围框之间的Overlap损失函数；

图4为本发明不同的训练迭代次数对目标检测精度的影响；

图5为基于PASCAL VOC的目标检测精度表。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种通过提高目标分类和定位准确度改善目标检测性能的方法，如图1所示，首先，为了得到更多的图像信息，将带有物体真实包围框(Ground Truth)的图片输入到VGG-16卷积神经网络中提取图像特征，然后对图像特征进行多层融合形成多特征图；然后为了快速得到物体候选框，在卷积层5特征图上按照一定长宽比和尺寸生成目标候选框，并映射到多特征图上进行裁剪；接着为了获得更多候选框的信息，将裁剪结果进行多特征连接，并输入到全连接层；最后为了实现精确提升的分类和定位，进行Softmax分类器分类和Overlap损失函数迭代回归定位，实现完整的精度提高的目标检测的分类和定位。下面以一个具体实例进行说明：

S1、基于VGG-16卷积神经网络架构提取图像特征，并将卷积层1、2、3和5进行特征融合，形成多特征的特征图；

S2、在卷积层5上进行网格划分，在每个网络中预测固定数目和大小的目标候选框；

S3、将候选框映射到特征图上进行裁剪，然后将裁剪结果进行多特征连接；、

S4、上述结果通过全连接层后，通过Softmax分类算法对图像特征进行分类，并用Overlap面积损失函数进行在线迭代回归定位，得到最终目标检测的结果。

在本实施例中，所述步骤S1进一步包括：

S1.1、首先将带有物体真实包围框的图片输入到VGG-16卷积神经网络架构，通过Caffe提取图像通过卷积神经网络不同层的特征；

S1.2、将卷积层1、2输出的图像特征进行最大池化操作，并将卷积层5输出的图像特征进行反卷积操作，实现输出的尺寸都与卷积层3的输出特征大小一致；

S1.3、最后将卷积层1、2、3和5输出的特征进行融合，得到图像的多特征提取的特征图。

图2给出了本发明中在卷积层5特征图上进行网格划分，在每个网格中生成固定长宽比和尺寸的4个候选框，所述步骤S2进一步包括：

S2.1、在卷积层5输出的特征图上进行6*6的网格划分；

S2.2、在每个单个的网络小格正中间预测4个可能包含物体的候选框，这4个候选框具有固定的大小和长宽比，长宽比分别为1:1、1:2和2:1，仅对于1:1长宽比的候选框，我们设定2种候选框大小分别为32*32像素和64*64像素；

S2.3、在网络训练的过程中，我们将物体的真实包围框和候选框进行匹配，通过二者的IOU重叠面积大于等于0.7进行筛选，并删除掉超出图像边界的候选框；

S2.4、最后在卷积层5的特征图上生成了大约100个候选框。

在本实施例中，所述步骤S3进一步包括：

S3.1、根据卷积层5的特征图上生成的100个候选框，根据其所在位置映射相应的多层特征图上，并在多层特征图上进行相应的裁剪；

S3.2、将裁剪后的特征图方块做1*1卷积，目的是为了保留前一层的可视野，并减少计算量，然后对卷积结果分别进行3*3卷积和5*5卷积；

S3.3、为了获取全文信息，将多层特征图经过最大池化层，然后经过1*1卷积层和激活层，可以将计算量减半；

S3.4、将1*1卷积、3*3卷积、5*5卷积和全文信息的卷积输出结果按照前后顺序进行连接，形成候选框的多特征连接。

在本实施例中，所述步骤S4进一步包括：

S4.1、上述通过卷积层和多特征连接后的结果通过3层全连接层后，通过Softmax分类算法对图像特征进行分类，基于PASCAL VOC数据集，分类结果包含20类物体，每类物体具有自己相应的精度；

S4.2、通过Overlap面积损失函数对候选框进行回归定位，使得候选框更加靠近物体的真实包围框，该损失函数为候选框和真实包围框的交集面积除以并集面积，该数值越接近1说明二者越接近；

S4.3、根据Softmax损失和Overlap损失值进行排序，在线筛选出正样本和负样本的比例为3:1，更新样本库输入到多层特征图上继续进行迭代回归定位；

S4.4、迭代N次后，候选框更加靠近物体的真实包围框，模型训练好之后可以进行实际物体的测试。

图3显示出了本发明中在定位中提出的候选框与真实包围框之间的Overlap损失函数,所述步骤S4.2进一步包括：

S4.2.1、输入图片中包含物体的真实包围框(Ground Truth)，其左上角和右下角的坐标组成了一个4维向量，为通过本发明算法预测的物体候选框，其左上角()和右下角()的坐标组成了一个4维向量，为x＝(x₁,y₁,x₂,y₂)；

S4.2.2、传统的坐标损失函数为一维损失函数，将各个坐标点之间的损失求和来计算整体的位置偏移损失，但是传统的方法将坐标单独区分开来，不能整体的预测真实包围框和候选框之间的偏移损失，所述传统的一维坐标损失函数的公式为：

S4.2.3、为了整体的预测真实包围框和候选框之间的偏移损失，我们提出了Overlap损失函数，将4维坐标进行整体的回归计算，计算真实包围框和候选框之间的面积偏移损失。其中I表示二者之间的交集面积，U表示二者之间的并集面积，通过交集面积除以并集面积来评价二者之间的位置偏差，该数值越接近1，说明位置坐标回归效果越好。所述二维面积Overlap损失函数的公式为：

I＝(x₂′-x₁′)×(y₂′-y₁′)

图4显示出了本发明中不同的训练迭代次数对目标检测精度的影响，所述步骤S4.4进一步包括：

S4.4.1、在训练过程中根据Softmax损失和Overlap损失值进行排序，筛选出3:1的正负困难样本，并将该样本重新输入到多层特征图中进行裁剪，然后继续进行多特征连接，通过筛选困难样本，实现了提升本发明提出的***的鲁棒性和检测精度；

S4.4.2、通过图4可以看出，经过多次迭代训练后，目标检测的分类精度得到了很大的提升，1次迭代分类精度在42％左右，继续进行迭代可以观察到精度迅速增长，然而经过4次迭代后，精度的增长幅度较小，因此权衡精度和速度，我们选择***的迭代训练次数为4，获得目标检测的分类精度和回归精度的整体提高。

下面按照本发明的方法进行实验，说明本发明的实验效果。

测试环境：MATLAB 2014b；Caffe；Ubuntu14.04***；NVIDIA GTX 1070p GPU

测试序列：所选测试序列和其对应标准目标检测物体真实包围框(GroundTruth)，均来自目标检测的PASCAL VOC数据集(M.Everingham,L.Van Gool,C.K.Williams,J.Winn,and A.Zisserman,“The pascal visual object classes(voc)challenge,”International journal of computer vision,vol.88,no.2,pp.303–338,2007.)。其中包含的图例有20个类别，分别为人类；动物(鸟、猫、牛、狗、马、羊)；交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)；室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。选用目标均是日常中最常见的物体，为的就是能更好的体现算法的实用性，共包含9,963张图片，有24,640个被标记的目标物体。

测试指标：本发明使用了两种评价指标，分别为精度mAP(mean averageprecision)和速度fps(frames per second)。其中精度mAP是目标检测结果的平均准确度测量，与理想目标检测结果进行比较并对数据库中所有物体类别进行加权平均计算，对不同算法计算此参数值，证明本发明算法在目标检测领域得到较好的结果；速度fps是目标检测结果的速度的度量，通过在测试过程中每秒能处理多少帧图片来评定目标进测速度，对不同算法计算此参数值，证明本发明算法在目标检测领域的优越性。

测试结果如图5所示，图5是基于PASCAL VOC数据集中所有图像类别测试精度的平均结果，可以看出本发明算法在mAP上相比其他目标检测算法有明显提高，其中本发明4代表循环迭代训练4次，本发明6代表循环迭代训练6次。目前目标检测最好的结果Faster R-CNN的mAP为73.2％，本发明6的mAP为74.2％，比Faster R-CNN的检测精度提高了1.0％。而且，在小物体检测上，如瓶子、飞机和植物，本发明算法比其他算法得到更高的检测精度，例如针对小物体植物，本发明算法达到50.4％mAP,比Faster R-CNN高出11.6％mAP。上述结果表明本发明算法所产生的目标检测结果拥有更高的精度，而且能更好的解决小目标检测的难题。

表1 基于PASCAL VOC的目标检测速度

表1是基于PASCAL VOC数据集中所有图像类别检测速度的结果，可以看出本发明算法在fps上相比其他目标检测算法有明显提高，其中压缩代表将全连接层进行截断SVD(singular value decomposition)压缩。目前目标检测最好的结果Faster R-CNN的速度为7fps，压缩的本发明4的速度为12fps，比未压缩卷积层加快2fps，压缩的本发明6的速度为12fps，比未压缩卷积层加快2fps；且本发明算法的速度是Fast R-CNN的22倍，几乎接近实时检测。上述结果表明本发明所产生的目标检测结果拥有更高的速度，而且在目标检测的速度和精度两项指标中，均能达到最好的目标检测结果，说明本发明算法具有前沿性。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种通过提高目标分类和定位准确度改善目标检测性能的方法，其特征在于包括以下步骤：

2.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法，其特征在于：所述步骤1的具体方法包括以下步骤：

3.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法，其特征在于：所述步骤2的实现方法包括以下步骤：

⑴在卷积层M输出的特征图上进行6*6的网格划分；

⑷最后在卷积层M的特征图上生成了100个候选框。

4.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法，其特征在于：所述步骤3的实现方法包括以下步骤：

5.根据权利要求1所述的通过提高目标分类和定位的准确度改善目标检测性能，其特征在于：所述步骤4的具体实现方法包括以下步骤：