CN109271852A

CN109271852A - 一种基于深度神经网络的行人检测再识别的处理方法

Info

Publication number: CN109271852A
Application number: CN201810888879.6A
Authority: CN
Inventors: 张磊; 何贞苇; 刘方驿
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2019-01-25

Abstract

本发明公开了一种基于深度神经网络的行人检测再识别的处理方法，它在Faster‑RCNN物体检测网络的基础上，按以下步骤改进：步骤1、改进Faster‑RCNN：1）、将Faster‑RCNN添加了一个额外的区域推荐网络，2）、在改进的网络最后添加了一个256个神经元的全连接层用于提取行人身份相关的特征，并添加特征存储模块用于损失函数的计算；3）、在用于行人再识别的全连接层之后添加了在线匹配损失函数OLP和难样本优先损失函数HEP；步骤2、改进后Faster‑RCNN的训练；步骤3、改进后Faster‑RCNN的测试。本发明的技术效果是：一是将行人检测与行人再识别整合到一起，提升了基于行人检测网络的行人再识别的性能；二是提高了行人搜索任务的准确度。

Description

一种基于深度神经网络的行人检测再识别的处理方法

技术领域

本发明属于行人检测与行人再识别领域。

背景技术

随着摄像头监控数据的急剧增多，行人检测与行人再识别技术应运而生。行人检测技术主要应用于智能驾驶、辅助驾驶和智能监控等相关领域，行人再识别技术广泛的应用于刑侦监控，图像检索领域。“行人检测”主要的目的是检测图像或视频中是否存在行人，而不需要判断该行人与其他行人是否属于同一个行人，而“行人再识别”又称为“行人搜索”，主要目的是判断某个摄像头中的某个行人是否曾经出现在其他的摄像头中，即需要将某个行人特征与其他行人特征进行对比，判断是否属于同一个行人。在解决行人搜索任务时，现有方法将行人检测和行人再识别当作两个分离的步骤进行，目前行人再识别方式都是基于提取好的行人图像。

在实际监控的行人检测中，无法捕捉到行人的脸部有效信息，通常使用行人的整体信息进行再识别。而在对行人再识别过程中，由于行人的姿态，光照，摄像头角度等多个因素的影响，可能使不同行人的特征比同一行人的特征更为相似，这样造成了行人再识别存在误检等问题。

学习更好的特征表达是一种比较有效的方式，深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层特征表示，以解决复杂的计算机视觉问题。

深度卷积网络就是一种监督学习下的机器学习模型，其训练和测试的基本步骤如下：

1、准备数据，准备带对应标签的训练和测试数据；

2、把准备好的训练数据送入网络进行训练，训练的时候利用随机梯度下降(SGD)对网络参数进行优化。根据Bouvrie,J..Notes on convolutional neural networks.(深度卷积网络的说明)Neural Nets.中记载的BP算法可以对深度神经网络中的各层的参数进行求导(即计算)。假设网络的损失函数为:其中为损失函数，f(.)为神经网络的拟合的函数，xⁱ,w分别为输入样本和神经网络的参数，yⁱ为样本的标签。每一个样本对w求取偏导数来更新网络的参数；

3、在训练至网络收敛以后，利用测试集样本输入网络，计算出网络的输出结果并且和真实标签进行比较，最终可以测试出网络的结果。

“Faster-RCNN：Towards Real-Time Object Detection with Region ProposalNetworks”(“Faster-RCNN：利用区域推荐网络进行实时物体检测”)Shaoqing Ren,KaimingHe，Ross Girshick，and Jian Sun，International Conference on Neural InformationProcessing Systems.MIT Press,2015:91-99记载了Faster-RCNN物体检测网络，它是一个基于深度学习的物体检测网络结构，在输入一张图片之后，Faster-RCNN物体检测网络可以输出检测框坐标和检测框所属的物体类别。首先，网络根据输入的图片，RPN子网络会生成大量的推荐框proposal用于后续的检测和分类任务，然后，推荐区域池化层ROIpooling会提取相关的特征对检测物体进行识别和分类(是否为待检测物体)，并且对物体的检测框进行修正。

本发明针对Faster-RCNN物体检测网络进行改进，以实现行人检测与行人再识别，提高行人再识别的准确度。

本专利申请中所述的“行人检测再识别”是指行人检测与行人再识别的整合，输入为两张包含相同目标行人的图片、输出图片中行人的位置坐标，并且对检测到的每一个行人输出为一个256维行人再识别特征；行人检测的功能是对目标行人进行搜索，输出建议提取框，行人再识别的功能是对行人检测输出的建议提取框进行特征提取和比较。

发明内容

本发明所要解决的技术问题就是提供一种基于深度神经网络的行人检测再识别的处理方法，它将行人检测与行人再识别整合到一起，既便于执行行人再识别任务，又提升基于行人检测网络的行人再识别的性能，提高行人搜索任务的准确度。

本发明的构思是：构造一种端到端的行人检测与行人再识别结合的网络结构，所谓端到端，就是将行人检测网络与行人再识别任务通过深度网络整合到一起，直接从图片场景中找到目标人物而不需要人工切分图像，按照Faster-RCNN模型中网络的检测部分，生成建议窗口，放入后续的网络进行特征提取以及通过损失函数对特征进行度量学习。

为解决上述技术问题，本发明是在Faster-RCNN物体检测网络的基础上，利用以下步骤对网络结构进行改进：

步骤1、改进Faster-RCNN

1)、将Faster-RCNN添加了一个额外的区域推荐网络RPN，使改进的Faster-RCNN网络能够同时输入两张图片，且得到各图片对应的推荐区域；

2)、在网络的最后，添加了一个256个神经元的全连接层用于提取行人身份相关的特征，并添加特征存储模块用于损失函数的计算；

3)、在用于行人再识别的全连接层之后添加了在线匹配损失函数OLP和难样本优先损失函数HEP，用于对行人再识别的特征进行学习；

步骤2、改进后Faster-RCNN的训练

把两张含有相同行人的图片输入改进Faster-RCNN网络，利用双路的区域推荐网络RPN分别提取两路网络的推荐框proposals，再利用推荐区域池化层ROIpooling把卷积层上推荐框对应位置的特征送入全连接层，全连接层对推荐框实行进一步的筛选、修正，同时提取行人再识别特征，在线匹配损失函数OLP和难样本优先的损失函数HEP添加在用于提取行人再识别特征的256维全连接层后面，监督整个网络的学习；

步骤3、改进后Faster-RCNN的测试

向改进的Faster-RCNN中输入一张测试图片，利用训练好的网络参数进行计算，得出最终的行人检测结果和行人再识别所需的特征。

与现有的方法相比，本发明具有以下优点：

1、本发明将行人检测与行人再识别整合，为行人搜索提供了一种新技术方案；

2、本发明提高了行人搜索的准确率。

附图说明

本发明的附图说明如下：

图1为改进Faster-RCNN的结构简化图；

图2为OLP损失函数的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

本发明是在Faster-RCNN物体检测网络的基础上，按以下步骤改进：

步骤1、改进Faster-RCNN

如图1所示，改进Faster-RCNN同时接受两张包含相同身份行人的图片作为输入，两张图片分别进入两路共享权值参数的区域推荐网络RPN进行计算，同时得到两张图片的推荐框，再把两张图片的推荐框区域对应的特征分别送入推荐区域池化层ROIpooling进行池化操作，把处理后的特征送入ROIpooling之后的全连接层进行进一步的处理，最终利用一个256维的全连接层提取用于行人再识别的特征，同时输出检测框的坐标和对应检测框的分数。

改进Faster-RCNN是在Faster-RCNN物体检测网络的基础上有三点改进：

1)、把单路的RPN改进为双路共享权重的RPN；

2)、在推荐区域池化层之后，添加了新的256个神经元的全连接层，用于提取行人再识别的相关特征；

3)、在用于提取行人再识别的全连接层之后，设置在线匹配损失函数OLP和难样本优先的损失函数HEP，用于监督行人再识别特征的训练。

步骤2、改进后Faster-RCNN的训练

首先根据数据集标注的检测框和对应标签把具有相同行人的图片进行配对，在训练的每次迭代过程中，把配对好的图片成对输入改进的Faster-RCNN中；

两张图片分别经过区域推荐网络之后，得到两张图片分别的推荐框的坐标，利用推荐区域池化层把推荐框所对应的卷积层特征，输入至全连接层，利用全连接层提取用于行人再识别的特征；

在线匹配损失函数OLP和难样本优先的损失函数HEP对行人再识别的特征进行训练，提取可以用于行人再识别任务的特征。

如图2所示，OLP的损失计算经历了三个步骤：

1)、把新添加的全连接层中用于行人再识别的特征及其对应的行人身份标签ID存储到特征存储模块里面；

2)、在全连接层中的行人再识别特征中寻找参考样本和正样本，从特征存储模块中寻找标签与参考样本不同的样本作为负样本；

3)、由以上两个步骤寻找到的正样本和负样本对应的特征进行损失函数计算，OLP损失函数的计算如下：

式中，代表第i个参考样本的特征，代表对应的正样本的特征，从网络提取，代表负样本的特征，从特征存储模块中提取，n_j代表负样本的编号，m为参考样本的个数，K为负样本的个数，d(.)代表计算两个特征之间的余弦距离。

在这个损失函数中，把由RPN网络生成的每个推荐区域都看成是一个样本。

对损失函数计算梯度，可以得到下面的式子：

式中：

l＝1,2,……,K

代表负样本的特征，从特征存储模块中提取，n_l代表负样本的编号。

利用神经网络中的反向传播算法，本发明利用了随机梯度下降SGD的方式来更新网络中的参数。

HEP的损失函数如下：

HEP损失函数利用分类的方式进一步学习行人再识别的特征，本发明根据数据集标记好的行人的身份ID来对RPN生成的感兴趣区域进行分类，最终一共可以分为N+1类，其中，N代表了数据集中含有的行人的身份的数目，而添加的一类则是背景类。每次迭代中，从中选择C类(C≤N+1)进行损失计算，假设C类组成的类别集合为L，被选取的类别L由以下三个步骤所确定：

1)、把输入图像中现有的所有ID选为待选的类别，放入L；

2)、对于每个样本，选取中离正样本最近的样本，将其对应的类别放入L；

3)、如果集合L中的类别数目仍然小于C，随机地选择其它的ID，并存储在类别集合L中；则HEP损失函数的表达式为：

式中，m为参考样本的个数，C为选取的类别数目，1(.)表示如果括号类的式子满足，这结果为1，反之为0；label代表参考样本的标签(其对应的类别)；表示网络所输出的第i个参考样本的属于第k类的分数，表示网络所输出的第i个参考样本的属于第j类的分数。

同样的，利用神经网络的反向传播算法和随机梯度下降SGD算法，可以利用HEP损失函数对Faster-RCNN的参数进行更新。

在损失函数中，分别对和求导，则对于单个样本，有：

对梯度进行BP反向回传，并且利用随机梯度下降SGD对权重参数进行更新，可以更新网络的最终参数。

在OLP、HEP和Faster-RCNN本身的检测相关的损失函数的共同作用之下，整个Faster-RCNN得以训练起来。

步骤3、改进后Faster-RCNN的测试

输入一张测试图片之后，经由训练好的参数，可以得到最终的检测框坐标及其对应的被检测的行人的特征；计算不同图片中检测框所对应的行人再识别特征的余弦距离并进行比较，余弦距离最大的两个行人检测框即可判断来自同一个行人。

实施例：

1、数据集

使用CUHK-SYSU数据集，数据集中一共有18184张不同场景的图片。本数据集由街拍图片和电影上的图片标注而成，比较适合行人的检测和行人的再识别任务的训练和测试。

2、实验设置

训练集有11206张图片，包含5532个标注的不同身份的行人，测试集有6978张图片，包含2900个标注的不同身份的行人。

在训练过程中，我们输入的图像对是基于被标注的5532个行人身份对图片进行配对，最终形成了16000个图像对。

3、训练测试方法

训练阶段：将匹配好的图像成对的输入网络中进行训练，每两对样本计算一次梯度的平均值，进行一次SGD更新网络中的参数。迭代60000次后结束得到网络的最终结果。

测试阶段：我们将测试图片输入训练好的网络模型，检测行人的位置并且提取对应的特征，评价方法按照CUHK-SYSU的评价方法进行，计算mAP(mean Average Precision)和Top-1指标。

mAP指标和下文的AP，Recall指标，记载于The pascal visual object classes(voc)challenge.(Pascal VOC物体类别挑战)Everingham,M.,Gool,L.V.,Williams,C.K.I.,Winn,J.,&Zisserman,A.(2010).International Journal of Computer Vision,88(2),303-338.

识别准确率比较

为了验证本发明的有效性，本实施例结合不同的行人检测和行人再识别方法作为本发明的对比，用于比较的行人检测有四种：CCF、ACF、Faster-RCNN(CNN)、GT；

现有行人再识别方法有以下几种：

1、三种行人再识别特征提取方法DSIFT、BoW、LOMO与四种特征度量方法Euclidean、KISSME、Cosine、XQDA组合；

2、两个端到端的行人检测和再识别***OIM和NPSM模型。

四种行人检测方法依据：

1、“Convolutional Channel features”(卷积频道特征)Yang,B.,Yan,J.,Lei,Z.,&Li,S.Z.(2015)中记载的CCF方法；

2、“Fast feature pyramids for object detection”(用于物体检测的快速特征金字塔)Dollar,P.,Appel,R.,Belongie,S.,&Perona,P.(2014).IEEE Transactions onPattern Analysis&Machine Intelligence,36(8),1532-45.中记载的ACF方法；

3、Faster-RCNN(简称CNN)；

4、GT(人工提取的检测目标)。

三种行人再识别特征提取方法依据：

1、"Unsupervised Salience Learning for Person Re-identification."(用于行人再识别的无监督显著性学习)Zhao,Rui,W.Ouyang,and X.Wang.IEEE Conference onComputer Vision and Pattern Recognition IEEE Computer Society,2013:3586-3593.中记载的DSIFT方法；

2、“Scalable Person Re-identification:A Benchmark”(升级的行人再识别任务：一个新的数据集)Zheng,L.,Shen,L.,Tian,L.,Wang,S.,Wang,J.,&Tian,Q.(2016).IEEE International Conference on Computer Vision(pp.1116-1124).IEEE.中记载的BoW方法；

3、“Person re-identification by Local Maximal Occurrencerepresentation and metric learning”.(基于局部最大表示和度量学习的行人再识别方法)Liao,S.,Hu,Y.,Zhu,X.,&Li,S.Z.(2015).IEEE Conference on Computer Vision andPattern Recognition(Vol.8,pp.2197-2206).IEEE中记载的LOMO方法。

四种特征度量方法依据：

1、Euclidean(欧式距离)；

2、“Large scale metric learning from equivalence constraints.”(基于等价约束的度量学习)Hirzer,M.(2012).IEEE Conference on Computer Vision andPattern Recognition(pp.2288-2295).IEEE Computer Society.中记载的KISSME方法；

3、Cosine(余弦距离)；

4、Liao,S.,Hu,Y.,Zhu,X.,&Li,S.Z.(2015).IEEE Conference on ComputerVision and Pattern Recognition(Vol.8,pp.2197-2206).IEEE中记载的XQDA方法。

两个端到端的行人检测和再识别***依据：

1、“Joint Detection and Identification Feature Learning for PersonSearch”(同时用于检测和行人再识别的特征来进行行人检索).Xiao,T.,Li,S.,Wang,B.,Lin,L.,&Wang,X.(2017).Computer Vision and Pattern Recognition(pp.3376-3385).IEEE.中记载的OIM模型；

2、“Neural person search machines”(基于神经网络的行人检索机).Liu,H.,Feng,J.,Jie,Z.,Jayashree,K.,Zhao,B.,&Qi,M.,et al.(2017).493-501.中记载的NPSM模型。

训练测试的结果见表1：

表1、本发明与其他再识别方法比较

表2、本发明与OIM检测效果的比较

方法	AP(％)	Recall(％)
			OIM	74.9	79.1
本发明	79.6	82.2

从表1和表2可以看出：本发明(I-net)在行人数据集上取得的效果比现有的行人检测与再识别方法的效果好。

表3、几种损失函数的组合的性能比较

损失类型	mAP(％)	Top-1(％)
			在线匹配损失函数	73.6	76.2
在线匹配损失函数+softmax	79.0	81.2
			在线匹配损失函数+难样本优先的损失函数	79.5	81.5

表4、OLP的存储模块存储特征数目的性能比较

从表3和表4可以看出，本发明使用在线匹配损失函数+难样本优先的损失函数可以取得更好的效果。

Claims

1.一种基于深度神经网络的行人检测再识别的处理方法，在Faster-RCNN物体检测网络的基础上，其特征是，还包括以下步骤：

步骤1、改进Faster-RCNN

2)、在网络的最后添加了一个256个神经元的全连接层用于提取行人身份相关的特征，并添加特征存储模块用于损失函数的计算；

步骤2、改进后Faster-RCNN的训练

步骤3、改进后Faster-RCNN的测试

2.根据权利要求1所述的基于深度神经网络的行人检测再识别的处理方法，其特征是，在线匹配损失函数OLP的损失计算经历以下三个步骤：

3)、由以上两个步骤寻找到的正样本和负样本对应的特征进行损失函数计算，

OLP损失函数的计算如下：

3.根据权利要求2所述的基于深度神经网络的行人检测再识别的处理方法，其特征是，利用随机梯度下降SGD来更新网络中的参数，对OLP损失函数计算梯度式子如下：

式中：

4.根据权利要求3所述的基于深度神经网络的行人检测再识别的处理方法，其特征是，

行人的身份ID一共分为N+1类，每次迭代中，从N+1类中选择C类进行损失计算，C类组成的类别集合为L，被选取的类别L由以下三个步骤所确定：

1)、把输入图像中现有的所有ID选为待选的类别，放入L；

式中，m为参考样本的个数，C为选取的类别数目，1(.)表示如果括号类的式子满足，这结果为1，反之为0；label代表参考样本的标签；表示网络所输出的第i个参考样本的属于第k类的分数,表示网络所输出的第i个参考样本的属于第j类的分数。