CN111460980A

CN111460980A - 基于多语义特征融合的小目标行人的多尺度检测方法

Info

Publication number: CN111460980A
Application number: CN202010237758.2A
Authority: CN
Inventors: 薛涛; 郭卫霞
Original assignee: Xian Polytechnic University
Current assignee: Zhongfu Software (Xi'an) Co.,Ltd.
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111460980B

Abstract

本发明公开了基于多语义特征融合的小目标行人的多尺度检测方法，步骤1：对选取的行人公共数据集进行预处理，将其划分为训练集和测试集；步骤2：对Faster R‑CNN网络模型进行改进，提取并融合浅层特征和深层抽象特征后得到feature maps，将feature maps进行激活，同时将feature maps送入P‑RPN网络生成候选框，对RPN网络中anchor box进行优化，然后将ROI Pooling得到的特征向量进行降维操作，得到多语义特征融合的小目标行人的多尺度检测模型；步骤3：进行多语义特征融合的小目标行人的多尺度检测模型的训练；步骤4：进行小目标行人检测。本发明提升了网络模型对小目标行人的检测效果。

Description

基于多语义特征融合的小目标行人的多尺度检测方法

技术领域

本发明属于基于深度学习的计算机视觉技术领域，具体涉及基于多语义特征融合的小目标行人的多尺度检测方法。

背景技术

传统的行人检测方法基于人工提取特征，如梯度方向直方图(Histogram ofOriented Gradient,HOG)特征、局部二值模式(Local Binary Patterns,LBP)特征、聚合通道特征(Aggregated Channel Features,ACF)等，然后将这些提取到样本行人特征输入到分类器模型中来实现目标检测。2003年Viola等人提出VJ算法，采用Haar特征+Adaboost分类器实现快速的行人检测。Dalal等人在2005年提出的HOG特征+SVM分类器检测方法，很有效地提高了行人检测的准确度。之后出现的很多传统行人检测算法都是基于HOG进行改进和扩展，如2008年Felzenszwalb等人提出的DPM(Deformable Parts Model)模型，对于行人检测的准确度和速度都有了很大的提升。尽管以上基于人工提取特征的传统检测方法在诸多行人检测任务中都取得了可观的检测效果，但手工设计特征需要依赖资深的设计经验，更新迭代速度较慢，并且人工设计的特征对于行人的多样性变化没有很好的鲁棒性。

近年来随着深度学习的快速发展，基于神经网络的图像目标检测算法逐渐成为主流，主要分为两类：一类是单阶段检测算法，包括YOLO(You Only Look Once)、YOLOv2、SSD(Single Shot MultiBox Detector)等。该类算法的核心思想是将目标检测任务转化为一个回归问题进行求解，输入原始图像直接输出其位置及类型的判别结果，这使得单阶段算法在检测速度方面具有一定的优势，但对于小目标和相互靠的很近的物体检测效果不佳。另一类是双阶段检测算法，包括基于区域的卷积神经网络(Region-based ConvolutionalNeural Network,R-CNN)及其系列优化算法Fast R-CNN、Faster R-CNN等。这类算法主要是通过Region Proposal生成若干目标候选区域，并利用卷积神经网络(ConvolutionalNeural Network,CNN)自动提取图像特征，最后进行目标类型的判别以及标记其位置。相比于单阶段检测算法，双阶段方法具有较高的检测精度，但检测速度相对较慢。由于双阶段RCNN系列算法对于不同尺度目标都具有良好的检测性能，它们被广泛应用到各类目标检测任务中。利用Faster R-CNN、RSS(Random Sampling Softmax)损失函数、OIM(OnlineInstance Matching)损失函数实现行人检测与再识别一体化；基于Faster R-CNN分别与ZF、VGG-16、ResNet-101 3种卷积神经网络结合，提高车型识别能力；通过引入多任务学习，特征金字塔和特征串联等策略改进Faster R-CNN，实现不同尺度的人脸检测。

目前行人检测已经取得了大量的研究结果，在Fast R-CNN模型的基础上引入多个内置子网，用于检测不相交范围内的多尺度行人，提出HyperLearner框架，融合行人特征和额外的通道特征，提高行人检测质量；引入了新的数据集PRW,并通过将模型检测得分结合到相似性测量的置信加权相似性度量(Confidence Weighted Similarity,CWS)，用来评估原始图像中的行人再识别；以Faster R-CNN为基础，提出一种金字塔RPN结构，来解决井下行人的多尺度问题，同时在算法中加入特征融合，增强井下小目标行人的检测性能。

以上方法在一些场景下取得了很好的效果，但由于行人图像大多来源于监控视频、车载摄像头等，行人的检测存在分辨率低、尺寸偏小、多尺度等问题，这使得精准检测更加困难。

发明内容

本发明的目的是提供基于多语义特征融合的小目标行人的多尺度检测方法，解决了现有技术中得到的行人存在分辨率低、尺寸偏小、多尺度等问题，这使得精准检测更加困难。

本发明所采用的技术方案是，

基于多语义特征融合的小目标行人的多尺度检测方法，具体包括以下几个步骤：

步骤1：选取行人公共数据集，对行人公共数据集进行预处理，进行数据文件格式的转换，并扩充图像数据集，将行人公共的数据集划分为训练集和测试集；

步骤2：对Faster R-CNN网络模型进行改进，构建浅层特征提取网络LLFM，并用VGG16网络提取行人深层抽象特征，将LLFM提取到的浅层特征和VGG16提取到的深层抽象特征进行融合后得到feature maps，将feature maps送入激活块进行激活，同时将featuremaps送入P-RPN网络生成候选框，对RPN网络中anchor box进行优化，然后将ROI Pooling得到的特征向量进行降维操作，得到多语义特征融合的小目标行人的多尺度检测模型；

步骤3：将步骤1得到的所述训练集输入步骤2得到的多语义特征融合的小目标行人的多尺度检测模型，优化损失函数，直到损失函数收敛，完成多语义特征融合的小目标行人的多尺度检测模型的训练；

步骤4：将步骤1中的所述测试集输入步骤3中训练后的多语义特征融合的小目标行人的多尺度检测模型，输出检测结果，完成小目标行人检测。

本发明的特点还在于，

步骤1中，所述训练集和测试集按照行人公共数据集的前后顺序划分，将行人公共的数据集的视频文件转换为png格式的图像，行人公共的数据集的描述文件转换为xml格式，训练集采用每10帧保存一张，测试集每30帧保存一张，进行左右翻转扩充数据集，并将测试集按照行人高度的不同进行划分，得到预处理后的训练集和测试集。

步骤2中，所述构建的浅层特征提取网络LLFM，是选用VGG16网络的Conv2_2、Conv3_3以及Conv4_3，分别对所述Conv2_2、Conv3_3以及Conv4_3执行通道数为32、48、64，卷积核为3×3的卷积操作，并通过Concat方法两两连接，以及3个池化层，最终提取到浅层特征。

步骤2中，所述LLFM提取到的浅层特征和VGG16提取到的深层抽象特征进行融合采用Concat方法。

步骤2中，所述降维操作是在ROI Pooling层之后增加t-SNE降维模块。

步骤2中，所述P-RPN网络是对RPN中生成anchor box的比例和尺度进行优化。

步骤2中，所述激活块包括一个全连接层、一个ReLU层和一个Dropout层。

本发明的有益效果是，本发明基于多语义特征融合的小目标行人的多尺度检测方法，首先通过对公共数据集的一系列预处理措施，增强了训练样本的多样性，也提升了检测效果的有效性，其次设计的LFMM模块提取图像中较为具象的浅层特征，并采用特征融合技术将深层特征和浅层特征进行融合，增强网络模型对小目标行人的特征提取性能，同时采用了降维操作降低特征参数增多对检测速度的影响；此外，针对行人特征对RPN结构进行了改进，解决行人的多尺度问题，最终提升网络模型对小目标行人的检测效果。

附图说明

图1是本发明基于多语义特征融合的小目标行人的多尺度检测方法的流程图；

图2是本发明基于多语义特征融合的小目标行人的多尺度检测方法网络结构示意图；

图3是本发明基于多语义特征融合的小目标行人的多尺度检测方法的图2网络中的LFMM模块结构图；

图4是本发明基于多语义特征融合的小目标行人的多尺度检测方法的图2网络中深浅层特征融合结构图；

图5是本发明基于多语义特征融合的小目标行人的多尺度检测方法中构造的网络模型与原模型在Small测试集下的P-R曲线对比示意图；

图6是本发明基于多语义特征融合的小目标行人的多尺度检测方法中构造的网络模型与原模型在Reasonable测试集下的P-R曲线对比示意图；

图7是本发明基于多语义特征融合的小目标行人的多尺度检测方法中构造的网络模型与原模型在All测试集下的P-R曲线对比示意图。

具体实施方式

下面结合附图和具体实施方式对本发明基于多语义特征融合的小目标行人的多尺度检测方法进行详细说明。

进一步地，步骤1中，所述训练集和测试集按照行人公共数据集的前后顺序划分，将行人公共的数据集的视频文件转换为png格式的图像，行人公共的数据集的描述文件转换为xml格式，训练集采用每10帧保存一张，测试集每30帧保存一张，进行左右翻转扩充数据集，并将测试集按照行人高度的不同进行划分，得到预处理后的训练集和测试集。

进一步地，步骤2中，所述构建的浅层特征提取网络LLFM，是选用VGG16网络的Conv2_2、Conv3_3以及Conv4_3，分别对所述Conv2_2、Conv3_3以及Conv4_3执行通道数为32、48、64，卷积核为3×3的卷积操作，并通过Concat方法两两连接，以及3个池化层，最终提取到浅层特征。

进一步地，步骤2中，所述LLFM提取到的浅层特征和VGG16提取到的深层抽象特征进行融合采用Concat方法。

进一步地，步骤2中，所述降维操作是在ROI Pooling层之后增加t-SNE降维模块。

进一步地，步骤2中，所述P-RPN网络是对RPN中生成anchor box的比例和尺度进行优化。

进一步地，步骤2中，所述激活块包括一个全连接层、一个ReLU层和一个Dropout层。

下面通过具体的实施例对本发明基于多语义特征融合的小目标行人的多尺度检测方法进行进一步详细说明。

实施例

本发明的基于Faster R-CNN的小目标行人的多尺度检测方法，具体步骤如图1所示：

步骤1：实验数据集的准备

实验数据采用加州理工大学的公共数据集Caltech Pedestrian，该数据集是利用车载摄像头在城市道路环境中拍摄采集，共有11段视频集，总时长约10h，数据集共有约250000帧图像(约137分钟)，350000余个行人标注框，2300个不同的行人，图像分辨率为640×480像素。

步骤2：实验数据集预处理

Caltech Pedestrian共有11段视频集，本发明选择其中Set00-Set05前6段作为训练集，Set06-Set10后5段作为测试集。

源数据集每段视频集分为两部分，一部分为seq格式的视频文件，一部分为vbb格式的描述文件。本发明将视频文件转换为png格式的图像，描述文件转换为xml格式。

由于视频采集帧与帧之间连续性较强，特征差异不明显，为了提高训练的有效性，本发明选择每10帧保存一张图像，得到训练集12963张，测试集采用每30帧保存一张，总共4088张。为了扩充数据集，采用左右翻转的方式将得到的数据集扩增一倍，最终的训练集和测试集分别为25926和8176张。

本发明按照行人的尺寸将测试集划分为不同级别，方便对比检测效果，测试集的属性如表1所示。

表1测试集属性表

测试集	测试集属性	图像数量
			All	测试集所有图像	8176
Small	行人高度小于等于50像素	4498
			Reasonable	行人高度大于50像素	3678

步骤3：网络模型改进

本发明改进的行人检测网络结构如图2所示，输入的图像先通过VGG16和LFMM(浅层特征提取网络)分别提取图像的深层和浅层特征，特征融合后送入P-RPN网络生成候选框，同时送入激活块(Activate Block,AB)进行激活操作，增加网络的非线性表达能力，防止过拟合问题的发生。由于浅层特征的加入增加了网络的计算参数，因此在将ROI Pooling得到的特征向量送入全连接层之前进行了降维操作。同时本发明也对RPN网络中anchorbox的比例和尺度进行了修改，使其更符合小目标行人的特征。

步骤3.1：构建浅层特征提取模块

本发明选择VGG16作为特征提取网络，具体网络参数如表2所示。整个网络包含了13个卷积层，层数较深，且每层通道数较多，因而能够提取到较为丰富和抽象的高级语义特征；其网络结构非常规整，每个卷积层统统使用了3×3的卷积核，使得网络收敛速度较快；网络一共分为5层，包含了5个池化层，以此来减少特征参数，提高效率，但同时也由于过多的池化降维会造成图像中目标的特征丢失。本发明在选择用VGG16网络提取深层抽象特征的同时，设计了一个浅层特征提取模块用来获取图像浅层较为具象的基础特征，并将深层、浅层特征进行融合，(本发明选择与Conv5_3卷积后的feature map进行融合，去掉了第5层的Pooling操作)，一起送入全连接层，使得小目标行人的检测结果更加精确。

表2 VGG16网络结构参数表

数据集图像中的小目标行人分辨率较低，仅使用深层特征检测时容易将其混为背景，浅层特征包含图像中目标的颜色、纹理等局部特征，能够帮助网络更好地确定行人的位置。本发明所设计的浅层特征提取模块(Low-level Feature Map Module,LFMM)，不选用VGG16最后一层Conv5_3的feature map，而是选用Conv2_2、Conv3_3以及Conv4_3这三层可以反映图像low level信息的feature maps，然后将这些浅层特征做concat处理。LFMM模块的具体操作如图3所示，分别对Conv2_2、Conv3_3、Conv4_3这三层执行channel数为32、48、64，卷积核都为3×3的卷积操作，concat连接层将输入的两个特征图在channel维度上作堆叠，整个模块一共经过3个池化层，最终完成输入图像浅层特征的提取。

步骤3.2：特征融合

为了使检测网络可以同时利用浅层和深层的特征，需要将LFMM提取到的浅层特征和Conv5_3得到的深层特征进行融合。特征融合即是将不同卷积层得到的信息以某些特定的方式进行聚合，如图4所示，本发明使用concat进行特征融合，即将深层特征和浅层特征在channel维度上作堆叠，具体操作如下：

Concat层的作用就是将两个及以上的特征图在channel维度上进行拼接，并没有eltwise层的运算操作，即作为输入的feature map除了channel维度可以不一样，其余维度必须一致(也就是N、H、W一致)，如：需要concat的两个feature map的channel分别为k1、k2，则执行concat操作后的输出可表示为：

N*(k₁+k₂)*H*W

其中，N为featuremap的图像数量，通为是minibatch的数目，H为输入图像的高度，W为输入图像的宽度，feature map的channel也就是filter的数量。

步骤3.3：构建激活块

如图4所示，特征融合后加入了一个激活块(Active Block,AB)，包含一个全连接层、一个ReLU层和一个Dropout层，通过为网络加入大量的非线性表达来抑制过拟合问题，提升网络泛化能力。

全连接的核心操作就是矩阵向量乘积，可以转化为卷积核为1x1的卷积，计算公式为：

其中，x_i为模型的输入，w，b都为神经元参数，w_i为权值，b为偏置，函数f(x)为激活函数，用来决定输出的值域。

ReLU函数的作用是增加神经网络各层之间的非线性关系，函数定义为：

ReLU是分段的线性函数，通过将输入的负值转换为0而正值不变的操作来实现单侧抑制，使得神经网络中的各级神经元具有稀疏激活的特性，能更好的拟合训练数据。在深度神经网络模型中，神经元激活率与模型层数成反比，例如当模型增加N层时，ReLU神经元的激活率则相应降低2的N次方倍。通过ReLU实现稀疏后的模型能更好地挖掘相关特征，拟合训练数据。

Dropout是在前向传播过程中对神经元进行取舍，其中舍弃概率为p，留存概率为1-p。舍弃的神经元以零为结果输出，将以此得出的损失值在保留的神经元上进行反向传播，并采用随机梯度下降法SGD对参数(w,b)进行更新。随机舍弃不同的隐藏神经元好比在训练不同的网络，它们会产生不同的过拟合，其中互反拟合会相互抵消，从而在整体上减少过拟合现象。

训练阶段每个神经元都可能被随机舍弃，但测试时每个神经元都必须存在此时需要重新调整权值：

其中，p为舍弃概率，W^(l)为训练阶段的权值，

为得到的测试阶段的权值。

步骤3.4：构建P-RPN网络

Faster R-CNN中，RPN网络通过3×3的滑动窗口在特征图上进行卷积，可以得到一个目标候选框的集合。以特征图的每一个像素点为中心，分别使用3种比例(aspectratios)1:1/1:2/2:1，3种尺度(scales)128/256/512，共生成9种不同大小的anchorboxes。在本发明的行人检测任务中，通用的anchor box尺寸并不能特别精确地生成目标行人的特征框，本发明通过k-means聚类算法确定行人的anchor box比例。

本文针对Caltech数据集，通过K-means聚类算法确定行人的anchor box比例，提高生成候选框的准确性。首先需要通过K-means计算出anchor boxes的width和height，此时计算出的width和height都是相对于整张输入图片的比例，由于卷积神经网络具有平移不变性，可以直接将其转换为相对于特征图的比例，转换公式如下：

其中，downsamples表示下采样的倍率，width_input和height_input为输入图像的宽和高，width_anchor和height_anchor为anchor box相对于输入图像的宽和高，w和h为anchorbox相对于特征图的宽和高。

K-means中原本使用的距离度量公式为欧氏距离，这会使得在进行边框回归时，anchor box的尺寸较大时产生的误差也更大，为了使得误差和anchor box的大小无关，本文选用以下距离公式来代替欧氏距离：

d(box,centroid)＝1-IoU(box,centroid)

其中，IoU(box,centroid)为生成的anchor box和参考框之间的交并比，d(box,centroid)为anchor box和参考框之间的相似度。

最终确定anchor的比例ratio为1:1/1:2/1:3。

为了使网络对小目标行人更加敏感，本文修改anchor scale为64/128/256，最终对每一个滑动窗口生成9种更符合小目标行人特征的候选框。本发明将这种RPN结构称为P-RPN(RPN for Pedestrian)。

步骤3.5：降维

浅层特征的加入，增加了网络的计算参数，原始的Faster R-CNN仅在Conv5_3输出的特征图上做池化并送入全连接层，本发明进行特征融合后，网络增加了128张浅层特征图，ROI Pooling后特征图大小为20×15，全连接层增加了4096×128×20×15＝157286400，约15000万个参数。为了降低计算成本，不影响检测速度，本发明对ROI Pooling后得到的特征向量采用t-SNE方法进行降维，如图4所示。t-SNE属于非线性降维的一种，主要是保证高维空间中相似的数据点在低维空间中尽量挨得近。

步骤4：训练网络模型

通过步骤1到步骤3已经构建好了图像训练集、测试集以及整个网络模型，在此步骤需要根据提供的训练数据集对步骤3得到的网络模型进行训练调整网络模型的权值来优化loss，直到训练loss收敛，获得最终的权值得到训练完成的模型，如图1中的“1→2→3→4→5”所示。

本发明选择深度学***台进行测试，平台软硬件配置如下：操作***为Ubuntu 16.04，16G内存，GPU为NVIDIA GeForce GTX Titan Xp，GPU加速库为CUDA 9.0和CUDNN 7.6。

网络载入利用ImageNet预训练过的VGG16网络来初始化特征提取网络的权重，训练过程中选用SGD随机梯度下降算法优化网络模型，学习率初始值设为0.001，动量系数为0.9，5万次迭代后学习率衰减为0.0001。

步骤5：模型检测效果

将步骤4得到训练完成的网络模型应用到没有标注的测试图像样本，前向传播获得该图像估计的类标签及概率，达到图像识别的目的，其步骤流程如图1中的“1→6→7→8→9”所示，图像输入网络模型进行前向传播，输出是否为行人的概率，最终完成行人检测任务。

本发明通过行人的检测效果和检测速度两个方面来验证改进模型的有效性。

通过实验对比了原始的Faster R-CNN(图中用FRCNN表示)及其分别与本发明改进的LFMM和P-RPN模块结合之后的模型，在All、Small、Reasonable这三个测试集上的检测效果。实验结果如表3所示，从测试结果可以看出本发明改进的LFMM和P-RPN模块均能使检测效果得以提升，同时也可得出将LFMM和P-RPN都与原模型进行结合可以获得更高的检测准确率。

表3不同模型在Caltech数据集上的检测效果

通过对比不同模型在不同测试集上的P-R曲线可以更直观地看出各模型的检测性能。在Small、Reasonable、All三个测试集上不同模型的P-R曲线分别如图5、图6和图7所示，可以看出本发明改进后的模型对于小目标行人的检测效果提升明显，检测性能较原模型提升约4.12％。改进模型对于一般行人和目标较为清晰的行人检测效果也略有提升。

为了测试改进算法的检测速度，本发明对比了不同模型的平均单张图像的检测速度，结果如表4所示，可以发现当加入LFMM模块后整体网络的检测速度变缓，因为浅层特征提取网络的加入增加了特征图的数量，使得网络的计算成本增大了，在通过t-SNE进行特征降维后，网络的检测速度和原模型相比基本保持不变，因此本发明改进后的算法在提高行人检测精度的同时不会降低检测速度。

表4不同模型的检测速度对比

本发明基于多语义特征融合的小目标行人的多尺度检测方法，通过对公共数据集的一系列预处理措施，增强了训练样本的多样性，也提升了测试效果的有效性；其次设计的LFMM模块提取图像中较为具象的浅层特征，并采用Concat特征融合技术将深层特征和浅层特征进行融合，增强网络模型对小目标行人的特征提取性能；同时采用了t-SNE降维操作降低特征参数增多对检测速度的影响；网络模型中还设计了Activate Block，增加网络的非线性表达能力，防止过拟合问题的发生；此外，针对行人特征对RPN结构进行了改进，解决行人因多尺度影响检测效果的问题。本发明基于多语义特征融合的小目标行人的多尺度检测方法，通过针对小目标行人的特点对Faster R-CNN模型进行优化，最终提升网络模型对小目标行人的检测效果。

Claims

1.基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，具体包括以下几个步骤：

步骤2：对Faster R-CNN网络模型进行改进，构建浅层特征提取网络LLFM，并用VGG16网络提取行人深层抽象特征，将LLFM提取到的浅层特征和VGG16提取到的深层抽象特征进行融合后得到feature maps，将feature maps送入激活块进行激活，同时将feature maps送入P-RPN网络生成候选框，对RPN网络中anchor box进行优化，然后将ROI Pooling得到的特征向量进行降维操作，得到多语义特征融合的小目标行人的多尺度检测模型；

2.根据权利要求1所述的基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，步骤1中，所述训练集和测试集按照行人公共数据集的前后顺序划分，将行人公共的数据集的视频文件转换为png格式的图像，行人公共的数据集的描述文件转换为xml格式，训练集采用每10帧保存一张，测试集每30帧保存一张，进行左右翻转扩充数据集，并将测试集按照行人高度的不同进行划分，得到预处理后的训练集和测试集。

3.根据权利要求1所述的基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，步骤2中，所述构建的浅层特征提取网络LLFM，是选用VGG16网络的Conv2_2、Conv3_3以及Conv4_3，分别对所述Conv2_2、Conv3_3以及Conv4_3执行通道数为32、48、64，卷积核为3×3的卷积操作，并通过Concat方法两两连接，以及3个池化层，最终提取到浅层特征。

4.根据权利要求1所述的基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，步骤2中，所述LLFM提取到的浅层特征和VGG16提取到的深层抽象特征进行融合采用Concat方法。

5.根据权利要求1所述的基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，步骤2中，所述降维操作是在ROI Pooling层之后增加t-SNE降维模块。

6.根据权利要求1所述的基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，步骤2中，所述P-RPN网络是对RPN中生成anchor box的比例和尺度进行优化。

7.根据权利要求1所述的基于多语义特征融合的小目标行人的多尺度检测方法，其特征在于，步骤2中，所述激活块包括一个全连接层、一个ReLU层和一个Dropout层。