CN110321867B

CN110321867B - 基于部件约束网络的遮挡目标检测方法

Info

Publication number: CN110321867B
Application number: CN201910616951.4A
Authority: CN
Inventors: 张中强; 高大化; 刘丹华; 牛毅; 石光明; 张学聪; 姜嵩; 秦健瑞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2022-03-04
Anticipated expiration: 2039-07-09
Also published as: CN110321867A

Abstract

本发明公开了一种基于部件约束网络的遮挡目标检测方法，通过在目标检测网络中融入遮挡目标的部件特征，克服了现有技术都是基于对遮挡目标的全局特征进行学习，并没有关注到遮挡目标部件特征的学习的缺点。本发明实现的步骤是：(1)构建部件库；(2)生成训练样本集和测试集；(3)构建部件约束网络；(4)构建全局网络；(5)训练部件约束网络和全局网络；(6)对测试样本集进行检测识别。本发明具有在目标位置预测准确率更高、解决遮挡目标检测识别问题的优点，可用于自然图像的中的目标检测识别。

Description

基于部件约束网络的遮挡目标检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及目标检测技术领域中的一种基于部件约束网络的遮挡目标检测方法。本发明可用于对自然图像下具有难度的遮挡目标进行检测识别。

背景技术

自然图像是指通过相机等拍摄设备对自然场景进行拍摄得到的图片，对自然场景下获取的目标进行识别是指对获取的图像进行图像特征提取，依据获取的图像特征信息进行目标检测识别，这是计算机视觉领域中重要任务之一，在安全监控，病人监护***具有重要意义。然而自然图像中经常有一些目标会被其他目标或相似目标遮挡，有时候遮挡面积占到整个目标的1/4，1/2，3/4。这样就导致了图像的特征不全，信息缺失，进而影响了最终的目标检测结果。

Ren Shaoqing等人在其发表的论文“Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks”(IEEE Transactions on PatternAnalysis and Machine Intelligence,2017)中提出一种基于深度卷积神经网络对车、摩托车和飞机等20类不同目标的图像进行目标检测识别的方法。该Faster R-CNN网络由残差网络模块，区域建议模块，分类回归模块构成，残差网络模块从图像中提取出具有更高级别的特征，更高级别的特征是以加权的形式将较低级的特征组合在一起，即前一层的激活与下一层神经元的权重相乘并相加，然后传递到激励函数中，更高级别的特征用于后续的区域建议模块和分类回归模块使用。区域建议模块接收到残差模块特征图后首先生成一堆的anchor boxes，对其进行裁剪过滤后通过softmax层判断anchors属于前景(foreground)还是后景(background)。另一个边界框回归修正anchor boxes，形成较为精确的建议框。然后ROI Pooling层利用这些建议框和残差模块生成的特征图得到固定大小的ROI(region ofinterest)特征图进入到分类回归模块。该分类回归模块利用softmax层进行具体类别的分类，同时利用边界框回归操作获得物体的精确位置。但是，该方法仍然存在的不足之处是，该Faster R-CNN网络对于图像特征的连接权值是等价的，并没有关注到图像中一些目标部件特征的学习，从而导致该方法在目标发生遮挡时出现漏检或检测准确率不高的情况。

桂林电子科技大学在其申请的专利文献“一种利用特征图融合的目标检测方法”(专利申请号：CN 201810843493.3，申请公布号：CN 109034245A)中公开了一种针对自然图像的通用目标利用特征图融合方法进行检测。该方法的具体步骤是：首先利用ZF网络提取图像特征并得到一系列处于不同层次的特征图；其次将ZF网络提取的图像特征图中的最深层特征图和浅层特征图相融合得到新特征图；再次将新特征图输入到RPN(regionproposal network)模块汇总得到区域建议框；最后将新特征图和区域检测输入到ROIPooling层中得到区域建议的特征并同时对特征进行分类和对区域建议进行边框回归得到目标检测结果。但是，该方法仍然存在的不足之处是，该方法对于目标特征的连接是等价的，并没有关注到图像中遮挡目标的部件特征，从而导致对遮挡目标检测效果差。

除此上述列举的卷积神经网络目标检测方法之外，目前基于深度卷积网络的目标检测方法都与上述两个方法类似，但是他们都有一个共性，都是进行全局的图像特征学习，即对于目标特征的连接权值是等价的，并没有特别关注到目标中某些部件特征的学习，从而导致该方法在目标发生遮挡的情况下出现漏检或检测准确率不高的情况。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于部件约束网络的遮挡目标检测方法，以解决自然图像下具有难度的遮挡目标检测识别问题。

实现本发明目的的思路是，依据人眼视觉***对遮挡目标的识别：人眼很容易关注到复杂环境中遮挡目标的重要部件，当目标发生遮挡时，人眼依旧能够根据这些重要的部件信息来识别目标。以轿车和摩托车为例，其中轿车和摩托车共有的部件有车灯、车轮和反光镜。在轿车和摩托车发生遮挡时，这些部件往往还在人视野中，因此人眼依旧能够识别轿车和摩托车。这种机制主要是人在识别的时候依据了很多以前习得的先验知识，这些先验知识可以帮助现有的检测网络学习到重要的目标部件信息。本发明提出在目标检测网络的学习过程中，添加图像的重要部件特征(先验知识)，以使得网络在检测识别过程中能着重关注到这些重要的部件特征，本发明将模拟人利用先验知识这种机制，构建一种基于部件约束网络的遮挡目标检测模型。

这些先验信息主要指的是根据人们对遮挡目标的理解所构造的部件库，部件约束网络通过对部件库中所有标注遮挡目标部件坐标位置图片的学习来获得部件的特征。该特征用于对全局网络学习到的全局目标特征进行增强构建一种新型的针对遮挡目标检测识别的网络模型。该模型可以解决遮挡目标的问题。

为实现上述目的，本发明的具体步骤如下：

(1)构造部件库：

(1a)构造一个所有待检测目标类别的部件库，其中每一类别至少包含200张带有遮挡目标图片；

(1b)对每张含有遮挡目标图片标注遮挡目标部件的坐标位置；

(2)生成训练样本集和测试集：

将摄像机获取的至少10000张图像组成样本集，每张图像包含被遮挡目标，取样本集中的55％的样本组成训练集，其余的样本组成测试集；

(3)构建部件约束网络：

(3a)搭建一个VGG16特征提取模块并设置每层的参数；

(3b)搭建一个部件RPN感兴趣区域提取模块并设置每层的参数；

(3c)搭建一个部件分类回归模块并设置每层的参数；

(3d)将VGG16特征提取模块、部件RPN感兴趣区域提取模块、部件分类回归模块串联组成部件约束网络；

(4)构建全局网络：

(4a)搭建一个ResNet34特征提取模块并设置每层的参数；

(4b)搭建一个由两个子RPN模块并联组成的全局RPN模块并设置每层的参数；

(4c)搭建一个全局分类回归模块并设置每层的参数；

(4d)将ResNet34特征提取模块、全局RPN模块、全局分类回归模块串联组成全局网络；

(5)训练部件约束网络和全局网络：

(5a)将部件库中所有标注遮挡目标部件坐标位置的图片，输入到部件约束网络中，对部件约束网络参数更新迭代5000次，得到训练好的部件约束网络；

(5b)将训练好部件约束网络时的部件RPN模块参数，加载到全局网络的一个子RPN模块中，得到预训练后的全局网络；

(5c)将训练样本集中所有包含被遮挡目标的图像，输入到预训练后的全局网络中，对预训练的全局网络参数更新迭代8000次，得到训练好的全局网络；

(6)对测试样本集进行检测识别：

(6a)将测试样本集中所有包含被遮挡目标的图像，输入到训练好的全局网络中的ResNet34特征提取模块中，输出每个样本图像对应的高级特征图；

(6b)将所有样本图像的高级特征图输入到全局RPN模块，输出感兴趣区域ROI建议框，将感兴趣区域ROI建议框的坐标位置在高级特征图上做映射，生成感兴趣区域ROI目标特征图；

(6c)将感兴趣区域ROI目标特征图输入到全局分类回归模块中，得到遮挡目标的检测识别结果。

本发明与现有的技术相比具有以下优点：

第一，由于本发明构建了遮挡目标的部件库，用于训练部件约束网络，并将部件RPN模块参数加载到全局网络的一个子RPN模块中，在对遮挡目标检测时，克服了现有技术都是基于对遮挡目标的全局特征进行学习，并没有关注到遮挡目标中某些目标部件特征的学习的缺点。使得本发明提高了目标检测识别效率。

第二，由于本发明搭建的部件约束网络可从部件库中所有标注遮挡目标部件坐标位置的图片学习到遮挡目标部件特征，克服了现有技术中图像遮挡目标特征的连接权值都是等价的缺点，使得本发明对遮挡目标更加鲁棒。

第三，由于本发明在搭建的全局网络中加载了部件约束网络中部件RPN模块参数，克服了现有技术在目标定位时坐标位置不够准确的缺点，使得本发明经全局网络最后预测的目标位置更加准确，即在并集上的交集IOU阈值更高的情况下，全局网络依旧具有较高的检测识别准确率。

第四，由于本发明构建的部件库可根据不同的待检测遮挡目标来进行扩充。客服了现有技术中网络参数一旦固定则可识别的遮挡目标类别也固定的缺点，全局网络可以对更多的遮挡目标进行识别，泛化能力强。

附图说明

图1是本发明的流程图；

图2是本发明遮挡目标检测识别模型结构示意图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照附图1，对本发明的实现具体步骤做进一步的描述。

步骤1,构造部件库。

构造一个所有待检测目标类别的部件库，其中每一类别至少包含200张带有遮挡目标图片。

对每张含有遮挡目标图片标注遮挡目标部件的坐标位置。

步骤2,生成训练样本集和测试集。

将摄像机获取的至少10000张图像组成样本集，每张图像包含被遮挡目标，取样本集中的55％的样本组成训练集，其余的样本组成测试集。

步骤3,构建部件约束网络。

搭建一个VGG16特征提取模块并设置每层的参数。

所述VGG16特征提取模块的结构依次为：第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。

所述VGG16特征提取模块每层参数设置如下：将第一第二卷积层的卷积核大小设置为3*3，个数设置为64，将第三第四卷积层的卷积核大小设置为3*3,个数设置为128，将第五至第七卷积层的卷积核大小设置为3*3，个数设置为256，将第八至第十三卷积层的卷积核大小设置为3*3，个数设置为512；每个池化层均采用最大池化方式，每个池化层的卷积池化核大小均设置为2*2。

搭建一个部件RPN模块并设置每层的参数。

所述部件RPN模块的结构由三个卷积层构成，第一卷积层的卷积核为3*3，个数设置为512，第二卷积层和第三卷积层并联，第二卷积层的卷积核为1*1，个数设置为18，第三卷积层卷积核为1*1，个数设置为36。

搭建一个部件分类回归模块并设置每层的参数。

所述的部件分类回归模块由两个串联的全连接层和两个并联的全连接层构成，第一、第二全连接层串联且维度均为4096，第三全连接层和第四全连接层并联，第三全连接层的维度为21，第四全连接层的维度为84。

将VGG16特征提取模块、部件RPN模块、部件分类回归模块串联组成部件约束网络。

步骤4,构建全局网络。

搭建一个ResNet34特征提取模块并设置每层的参数。ResNet34特征提取模块用于获得输入图像的高级特征图，

所述ResNet34特征提取模块的结构依次为：第一卷积层—>第一池化层—>第二卷积层—>第三卷积层—>第四卷积层—>第五卷积层—>第六卷积层—>第七卷积层—>第八卷积层—>第八池化层—>第九卷积层—>第十卷积层—>第十一卷积层—>第十二池化层—>第十三卷积层—>第十四卷积层—>第十五卷积层—>第十六卷积层—>第十六池化层—>第十七卷积层—>第十八卷积层—>第十九卷积层—>第二十卷积层—>第二十一卷积层—>第二十二卷积层—>第二十三卷积层—>第二十四卷积层—>第二十五卷积层—>第二十六卷积层—>第二十七卷积层—>第二十八卷积层—>第二十八池化层—>第二十九卷积层—>第三十卷积层—>第三十一卷积层—>第三十二卷积层—>第三十三卷积层—>第三十三卷积层—>全连接。

所述ResNet34特征提取模块每层参数设置如下：将第一卷积层的卷积核大小为7*7，个数为64，第二至第七卷积层的卷积核大小设置为3*3，个数设置为64，将第八至第十五卷积层的卷积核大小设置为3*3,个数设置为128，将第十六至第二十七卷积层的卷积核大小设置为3*3，个数设置为256，将第二十八至第三十三卷积层的卷积核大小设置为3*3，个数设置为512；每个池化层均采用最大池化方式，每个池化层的卷积池化核大小均设置为2*2。

搭建一个由两个子RPN模块并联组成的全局RPN模块并设置每层的参数，全局RPN模块获得的感兴趣区域建议框与高级特征图做剪切操作获得ROI目标特征图。

所述的子RPN模块的结构由三个卷积层构成，第一卷积层的卷积核为3*3，个数设置为512，第二卷积层和第三卷积层并联，第二卷积层的卷积核为1*1，个数设置为18，第三卷积层卷积核为1*1，个数设置为36。

搭建一个全局分类回归模块并设置每层的参数，

所述的全局分类回归模块由两个串联的全连接层和两个并联的全连接层构成，第一、第二全连接层串联且维度均为4096，第三全连接层和第四全连接层并联，第三全连接层的维度为21，第四全连接层的维度为84。

将ResNet34特征提取模块、全局RPN模块、全局分类回归模块串联组成全局网络。

步骤5,训练部件约束网络和全局网络。

将部件库中所有标注遮挡目标部件坐标位置的图片，输入到部件约束网络中，对部件约束网络参数更新迭代5000次，得到训练好的部件约束网络。

将训练好部件约束网络时的部件RPN模块参数，加载到全局网络的一个子RPN模块中，得到预训练后的全局网络。使得全局网络具有了部件约束网络的部件特征提取能力，在训练全局网络时可以提取出遮挡目标的部件特征，进而增强全局网络的全局特征，可以更加准确的预测遮挡目标所在位置。

将训练样本集中所有包含被遮挡目标的图像，输入到预训练后的全局网络中，对预训练的全局网络参数更新迭代8000次，得到训练好的全局网络。

步骤6,对测试样本集进行检测识别。

将测试样本集中所有包含被遮挡目标的图像，输入到训练好的全局网络中的ResNet34特征提取模块中，输出每个样本图像对应的高级特征图。

将所有样本图像的高级特征图输入到全局RPN模块，输出感兴趣区域ROI建议框，将感兴趣区域ROI建议框的坐标位置在高级特征图上做映射，生成感兴趣区域ROI目标特征图。

将感兴趣区域ROI目标特征图输入到全局分类回归模块中，得到遮挡目标的检测识别结果。

参照附图2，对本发明的全局网络检测遮挡目标的过程做进一步的说明。

本发明的遮挡目标检测结果是基于部件约束网络下的全局网络预测值得到，全局网络是由ResNet34特征提取模块、全局RPN模块、全局分类回归模块组成的检测网络输出图像中遮挡目标的检测识别结果。

图2中首先将带有遮挡目标的自然图像输入到ResNet34特征提取模块中，获得图像的高级特征图，图像的高级特征图再输入到全局RPN模块中，获得感兴趣区域ROI建议框，感兴趣区域ROI建议框坐标位置在高级特征图上做映射，生成感兴趣区域ROI目标特征图，将感兴趣区域ROI目标特征图再输入到全局分类回归模块获得遮挡目标的检测识别结果。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：Inter core i7-6700,频率为3.4GHz,NvidiaGeForce GTX1080Ti。本发明的仿真实验的软件使用pytorch。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明和两个现有技术(Faster R-CNN方法、YOLOv3目标检测方法)分别对PASCAL VOC2012和COCO数据集中轿车和摩托车两类目标图片进行目标检测。本发明中使用PASCAL VOC2012中的1812张训练集，1856张测试集。使用的COCO数据集中1881张训练集，744张测试集。其中PASCAL VOC2012数据集是由英国牛津大学MarkEveringham等人建立的用于目标检测的自然图像数据集，本发明仿真实验所使用的数据集采自官网：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html。COCO数据集是由微软公司的Lin Tsung-Yi等人构造的用于目标检测的自然图像数据集，本发明仿真实验所使用的数据集采自官网：http://cocodataset.org/。

在仿真实验中，采用的两个现有技术是指：

Faster R-CNN方法是指：Ren Shaoqing等人在“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks”(IEEE Transactions onPattern Analysis and Machine Intelligence,2017)中提出的图像目标检测识别方法，简称Faster R-CNN方法。

YOLOv3目标检测方法是指：Joseph Redmon等人在“YOLOv3：An IncrementalImprovement”(http://arxiv.org/abs/1804.02767,2018)中提出的一种图像目标快速检测识别方法，简称YOLOv3方法。

为了验证本发明的高效性和良好的检测识别性能，采用在不同的并集上的交集IOU阈值下检测准确率AP和平均检测准确率mAP指标来评价本发明仿真实验的结果：第一个评价指标是针对轿车和摩托车的检测率，检测率数值越高，说明该类目标检测出来的越多。第二个评价指标是平均检测准确率，表示所有目标类别检测准确率的平均值，该值越大，说明该方法在相应数据集上检测效果越好，对每张图像来说，正确检测识别是指模型预测类别与图像目标标签相同且预测的边界框和真值边界框的交集大于设定的并集上的交集IOU。

仿真实验中并集上的交集IOU设置为0.5或0.9，AP@IOU,mAP@IOU分别指的是在并集上的交集IOU阈值下检测准确率AP和平均检测准确率mAP。并集上的交集IOU，检测准确率AP，平均检测准确率mAP的计算方式如下：

将本发明和两个现有技术在PASCAL VOC2012和COCO数据集中轿车和摩托车两类目标测试集上的计算结果绘制成表1：

表1不同数据集下本发明与现有技术目标检测结果的定量分析表

表1为本发明方法与Faster R-CNN、YOLOv3网络分别在PASCAL VOC2012和COCO数据集上训练后，对测试集识别准确率的比较情况，由表1可以看出，本发明的在PASCALVOC2012和COCO数据集下，获得较高的识别准确率，从表1可以看到我们的方法在两个数据集上均有较高的检测准确率。且在并集上的交集IOU＝0.5的情况下，在PASCAL VOC2012和COCO上，我们的模型比Faster R-CNN、YOLOv3高出1.49、5.98和3.22、3.53个百分点。而在并集上的交集IOU＝0.9时，这些数值变成了4.08、72.4和5.53、67.51个百分点。这直接说明了本发明所提出的方法可以更加准确的预测出目标所在的坐标位置。

以上仿真实验表明：本发明的方法利用构造的部件库，能够获取遮挡目标的部件坐标位置，利用搭建的部件约束网络，能够获得遮挡目标的部件特征，利用了搭建基于部件约束网络下的全局网络，能够提取、融合遮挡目标的部件特征和全局特征使得网络更加关注到遮挡目标的部件信息，解决了现有技术方法中存在的只用全局空间特征信息、并没有关注到遮挡目标的部件特征，从而导致在目标发生遮挡时出现漏检或检测准确率不高的情况，是一种非常实用的针对遮挡目标的检测识别方法。

Claims

1.一种基于部件约束网络的遮挡目标检测方法，其特征在于，构造一个部件库，搭建部件约束网络，搭建全局网络，将训练好的部件约束网络的部件RPN模块参数加载到全局网络中，用训练集训练全局网络；该方法的具体步骤包括如下：

(1)构造部件库：

(1b)对每张含有遮挡目标图片标注遮挡目标部件的坐标位置；

(2)生成训练样本集和测试集：

(3)构建部件约束网络：

(3a)搭建一个VGG16特征提取模块并设置每层的参数；

(3b)搭建一个部件RPN感兴趣区域提取模块并设置每层的参数；

(3c)搭建一个部件分类回归模块并设置每层的参数；

(4)构建全局网络：

(4a)搭建一个ResNet34特征提取模块并设置每层的参数；

(4c)搭建一个全局分类回归模块并设置每层的参数；

(5)训练部件约束网络和全局网络：

(6)对测试样本集进行检测识别：

2.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法，其特征在于，步骤(3a)中所述VGG16特征提取模块的结构依次为：第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层；

所述VGG16特征提取模块每层参数设置如下：将第一第二卷积层的卷积核大小设置为3*3，个数设置为64，将第三第四卷积层的卷积核大小设置为3*3,个数设置为128，将第五至第七卷积层的卷积核大小设置为3*3，个数设置为256，将第八至第十三卷积层的卷积核大小设置为3*3，个数设置为512；每个池化层均采用最大池化方式，每个池化层的池化核大小均设置为2*2。

3.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法，其特征在于，步骤(3b)中所述部件RPN感兴趣区域提取模块的结构由三个卷积层构成，第一卷积层的卷积核为3*3，个数设置为512，第二卷积层和第三卷积层并联，第二卷积层的卷积核为1*1，个数设置为18，第三卷积层卷积核为1*1，个数设置为36。

4.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法，其特征在于，步骤(3c)中所述的部件分类回归模块由两个串联的全连接层和两个并联的全连接层构成，第一、第二全连接层串联且维度均为4096，第三全连接层和第四全连接层并联，第三全连接层的维度为21，第四全连接层的维度为84。

5.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法，其特征在于，步骤(4a)中所述ResNet34特征提取模块的结构依次为：第一卷积层—>第一池化层—>第二卷积层—>第三卷积层—>第四卷积层—>第五卷积层—>第六卷积层—>第七卷积层—>第八卷积层—>第八池化层—>第九卷积层—>第十卷积层—>第十一卷积层—>第十二池化层—>第十三卷积层—>第十四卷积层—>第十五卷积层—>第十六卷积层—>第十六池化层—>第十七卷积层—>第十八卷积层—>第十九卷积层—>第二十卷积层—>第二十一卷积层—>第二十二卷积层—>第二十三卷积层—>第二十四卷积层—>第二十五卷积层—>第二十六卷积层—>第二十七卷积层—>第二十八卷积层—>第二十八池化层—>第二十九卷积层—>第三十卷积层—>第三十一卷积层—>第三十二卷积层—>第三十三卷积层—>第三十三卷积层—>全连接；

6.根据权利要求1所述的基于部件约束网络的遮挡目标检测方法，其特征在于，步骤(4c)中所述的全局分类回归模块由两个串联的全连接层和两个并联的全连接层构成，第一、第二全连接层串联且维度均为4096，第三全连接层和第四全连接层并联，第三全连接层的维度为21，第四全连接层的维度为84。