CN109063649A

CN109063649A - 基于孪生行人对齐残差网络的行人重识别方法

Info

Publication number: CN109063649A
Application number: CN201810876899.1A
Authority: CN
Inventors: 周勇; 郑沂; 赵佳琦; 姚睿; 刘兵; 夏士雄; 刘栩宁
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-21
Anticipated expiration: 2038-08-03
Also published as: CN109063649B

Abstract

本发明公开了一种基于孪生行人对齐残差网络的行人重识别方法，包括以下步骤：S1、构建基础分支孪生残差网络；S2、构建行人对齐分支孪生残差网络；S3、利用已构造好的训练数据集对构建好的基础分支孪生网络和行人对齐分支孪生残差网络进行参数训练，将训练好的基础分支孪生残差网络中基础分支原型和行人对齐分支孪生残差网络中行人对齐分支原型取出进行行人重识别的分类模型。本发明提升了原有算法行人重识别的准确度。

Description

基于孪生行人对齐残差网络的行人重识别方法

技术领域

本发明属于图像检索技术领域，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，更进一步涉及行人重识别技术领域中的一种基于孪生行人对齐残差网络的行人重识别方法。

背景技术

在监控视频中，由于背景遮挡和行人距摄像头较远导致的低分辨率等原因，经常无法得到可以用于人脸识别的图像。而当人脸识别技术无法正常使用得情况下，行人重识别就成为了一个非常重要的替代品技术。行人重识别有一个非常重要的特性就是跨摄像头，所以学术论文里评价性能的时候，是要检索出不同摄像头下的相同行人图像。行人重识别已经在学术界研究多年，但直到最近几年随着深度学习的发展，才取得了非常巨大的突破。

传统基于图像的通过特征表达方法进行行人重识别的算法大致分为如下几类：

(1)底层视觉特征：这种方法基本上都是将图像划分为多个区域，对每个区域提取多种不同的底层视觉特征，组合后得到鲁棒性更好的特征表示形式，最常用的就是颜色直方图；

(2)中层语义属性：通过语义信息判断两张图象中是否属于同一行人，比如颜色、衣服以及携带的包等信息，相同的行人在不同的视频拍摄下语义属性很少变化；

(3)高级视觉特征：特征的选择技术对行人重识别的识别率进行提升。使用深度学习进行行人重识别的方法与传统方法最大的区别在于，它不需要人工的选取特征，通过端到端的学习，自动的学习行人图像中的各种特征。

因此，在行人重识别领域，依靠人工选择用于进行行人重识别的特征，由于特征数量众多，实际由摄像头拍到的画面也可能千差万别等原因，很难确定某种特定的特征对所有的图像都有良好的表现。因此，相较于人工选取行人特征，基于深度学习模型的方法能够达到较好的效果。

现有的深度学习模型主要属于卷积神经网络的类别，通常使用的模型有CaffeNet、VGGNet及残差网络等。

发明内容

本发明提出了一种基于基于孪生行人对齐残差网络的行人重识别方法。能够有效的提高整个网络的精度，提高行人重识别的准确率。

同时，网络采取双通道结构，行人图像成对输入，图像对包括同类图像和不同类图像，提供正负样本的反馈，使网络学习到具有判别力的特征。

为了实现上述技术目的，本发明采用如下具体技术方案：

一种基于孪生行人对齐残差网络的行人重识别方法，包括以下几个步骤：

S1、构建基础分支孪生残差网络；

S1.1、构造第一基础分支深度残差网络，采用迁移学习策略，导入在ImageNet数据集上预训练的残差网络参数，将其作为第一基础分支深度残差网络的基础参数；

S1.2、通过复制第一基础分支深度残差网络的模型结构和参数得到第二基础分支深度残差网络；

S1.3、计算两个基础分支深度残差网络输出的特征向量差值的平方，利用卷积层和分类器进行二分类，判断上述两个基础分支深度残差网络的输入是否是同一类别的图像；

S2、构建行人对齐分支孪生残差网络；

S2.1、构造第一行人对齐分支深度残差网络，使用经过训练的第一基础分支深度残差网络或第二基础分支深度残差网络中的任意一个，删除用于将高维特征图像返回为特征向量的残差块；

将输出的高维特征图像结果经由一个残差块返回用于进行仿射变换的参数，对输出的低维特征图像进行仿射变换，得到经过对齐的行人图像；

将经过训练的第一基础分支深度残差网络或第二基础分支深度残差网络中的任意一个，删去用于得到进行仿射变换的低维特征图像及其之前的残差块，并用来训练得到的经过对齐的行人图像；

S2.2、复制第一行人对齐分支深度残差网络的模型结构和参数得到第二行人对齐分支深度残差网络；

S2.3、计算上述两个行人对齐分支深度残差网络输出的特征向量差值的平方，利用卷积层和分类器进行二分类，判断两个分支网络的输入是否是同一类别的图像；

S3、利用已构造好的训练数据集对构建好的基础分支孪生网络和行人对齐分支孪生残差网络进行参数训练，将训练好的基础分支孪生残差网络中基础分支原型和行人对齐分支孪生残差网络中行人对齐分支原型取出进行行人重识别的分类模型；

S3.1、利用构造好的训练数据集采用批量梯度下降法分别对构造好的基础分支孪生残差网络和行人对齐分支孪生残差网络进行参数训练；

S3.2、训练好参数之后分别将任意一个基础分支孪生残差网络和行人对齐分支孪生残差网络取出作为行人图像分类模型；

S4、构建测试样本和查询样本；

S5、测试样本分类：将测试样本分别送入训练好的基础分支深度残差网络和行人对齐分支深度残差网络中进行特征提取；

S6、将两个分支网络得到的特征进行特征连结；

S7、对测试样本的图像和查询样本的图像进行欧式距离的计算得到排序列表；

S8、在重排序的基础上进行行人重识别。

步骤S1.1具体如下：

S1.1.1、输出经过平均池化后得到的2048维向量f₁；

S1.1.2、设置卷积层的特征映射图数为行人类别数目n,卷积层将f₁映射成为n维向量，由全连接分类器输出最终类别预测；

S1.1.3对于基础分支孪生残差网络的输入和输出,定义第一损失函数：

其中，softmax代表一个分类器函数，ο代表一个卷积运算，θ_I代表所使用的卷积层的参数，t为行人类别，f为经过基础分支深度残差网络进行特征提取后得到的特征向量，为分类器函数输出的特征向量f属于某个行人类别t的概率，对于任一图像i和某一行人类别t,p_i代表图像i是否属于行人类别t，如果属于，则p_i＝1，否则p_i＝0，为任一图像i经过softmax函数处理后得到的概率值。

步骤S1.3具体如下：

S1.3.1、设置平方层，将两个基础分支深度残差网络输出的特征向量f₁、f₂取差值平方，得到f_s＝(f₁-f₂)²

S1.3.2、设置特征映射图数为2的卷积层，将f_s映射成为2维向量；

S1.3.3、全连接至二分类器对S1.3.2的输出产生最终预测，即输入图像对是否来自同一类别；

S1.3.4、对于相同类别或不同类别的输入图像对q,定义第二损失函数：

其中，softmax代表一个分类器函数，ο代表一个卷积运算，θ_S代表所使用的卷积层的参数，s为相同或不相同两个类别，f_s为经过平方层后卷积得到的特征向量，为分类器函数输出的特征向量f_s是否是同一类行人θ_S的概率，f₁、f₂分别为由构成基础分支孪生残差网络的两个基础分支深度残差网络提取到的特征，如果f₁、f₂是同一人，q₁＝1，q₂＝0；否则q₁＝0，q₂＝1，经过卷积层和softmax函数处理之后，将f_s映射为一个二维向量这个二维向量代表输入的两个图像是否属于同一个行人类别的概率，其中

步骤S2.1具体如下：

S2.1.1输出经过平均池化后得到的2048维向量f_a；

S2.1.2设置卷积层的特征映射图数为行人类别数目n,卷积层将f₁映射成为n维向量，由全连接分类器输出最终类别预测；

S2.1.3对于行人对齐分支深度孪生残差网络的输入和输出,定义第三损失函数：

其中，softmax代表一个分类器函数，ο代表一个卷积运算，θ_I代表所使用的卷积层的参数，t为行人类别，f_a为经过基础分支深度残差网络进行特征提取后得到的特征向量，为分类器函数输出的特征向量f属于某个行人类别t的概率，对于任一图像i和某一行人类别t,代表图像i是否属于行人类别t，如果属于，则否则为任一图像i经过softmax函数处理后得到的概率值。

步骤S2.3具体如下：

S2.3.1、设置平方层，将两个行人对齐分支深度残差网络输出的特征向量取差值平方，得到

S2.3.2、设置特征映射图数为2的卷积层，将f_s映射成为2维向量；

S2.3.3、全连接至二分类器对S1.3.2的输出产生最终预测，即输入图像对是否来自同一类别；

S2.3.4、对于相同类别或不同类别的输入图像对q,定义第四损失函数：

其中，softmax代表一个分类器函数，ο代表一个卷积运算，θ_s代表所使用的卷积层的参数，s为相同或不相同两个类别，为经过平方层后卷积得到的特征向量，为分类器函数输出的特征向量是否是同一类行人θ_s的概率，分别为由构成基础分支孪生残差网络的两个基础分支深度残差网络提取到的特征，如果是同一人，否则经过卷积层和softmax函数处理之后，将f_s映射为一个二维向量这个二维向量代表输入的两个图像是否属于同一个行人类别的概率，其中

本发明与现有技术相比具有以下有点：

第一，本发明采用了卷积神经网络中的识别模型和验证模型，有效结合了这两种模型的优点，其中，识别模型用于提取图像特征，验证模型检测输入图像对的相似度，这两种模型的互补使得整个网络学习到更有判别力的特征描述，有效避免过拟合的发生。

第二，本发明使用行人对齐网络，在高维特征图上将关键的行人特征映射到低维特征图上，使得整个神经网络能够在一开始就更加专注于行人特征的学习；同时，有效得减少了行人图像中多余背景以及行人图像部分缺失所带来得干扰，提升了神经网络识别的准确性。

第三，本发明在进行行人重识别的时候同时使用了基础分支深度残差网络和对齐分支深度残差网络的两组特征，相较于单独使用基础分支深度残差网络提取的特征和单独使用行人对齐分支深度残差网络提取的特征，此方法能更进一步提升行人重识别的精度。

附图说明

图1是本发明的网络结构图；

图2是本发明的步骤图。

具体实施方式

下面结合附图对本发明的技术方案做进一步详细的描述。

S1构建基础分支孪生残差网络；删除残差网络的全连接层，添加卷积层和分类层，得到基础分支深度残差网络原型；复制网络原型，并添加一个二分类网络，得到基础分支孪生残差网络。

构建行人对齐分支孪生残差网络。在训练好的基础分支深度残差网络上，删除最后一个残差块，添加一个网格网络，并叠加除去第一个残差块的基础分支深度残差网络，得到行人对齐分支深度残差网络原型；复制网络原型，并添加一个二分类网络，得到行人对齐分支孪生残差网络。

利用构造好的训练数据集对基础分支孪生网络和行人对齐分支孪生残差网络进行参数训练，将训练好的基础分支原型和行人对齐分支原型取出进行行人重识别的分类模型。

在训练阶段，首先训练基础分支孪生残差网络，使用两个共享权值的基础分支深度残差网络原型组成基础分支孪生残差网络对输入的图像对中的两幅图像分别进行特征提取，对得到的特征通过一个二分类网络进行欧式距离的计算，判断其是否是同一个行人类别，其结果与图像标签进行对比，用于调整整个基础分支孪生残差网络的参数；

然后训练由两个共享权值的对齐分支深度残差网络组成的深度孪生残差网络，对齐分支深度残差网络是在训练好的基础分支深度残差网络上加入一个网格网络，其作用是生成用于行人对齐的仿射变换的六个参数，并将输入的行人图像经过仿射变换之后得到对齐的行人图像，然后对其进行特征提取，得到的成对的特征进行欧式距离的计算，判断其是否属于同一类别，用于整个对齐分支深度孪生残差网络的参数调整；

在测试阶段，分别使用基础分支孪生残差网络和对齐分支深度孪生残差网络的其中一个进行特征提取，得到的两种特征进行特征融合，用于判断行人类别。

参照图1，本发明实现的具体步骤如下：

步骤S1构建基础分支孪生残差网络：

S1.1构造第一基础分支孪生残差网络，采用迁移学习策略，导入在ImageNet数据集上预训练的残差网络参数，将其作为第一基础分支深度残差网络的基础参数；

S1.2通过复制第一基础分支深度残差网络的模型结构和参数得到第二基础分支深度残差网络；

S1.3计算两个基础分支深度残差网络输出的特征向量差值的平方，利用卷积层和分类器进行二分类，判断两个基础分支深度残差网络的输入是否是同一类别的图像；

步骤S2构造行人对齐分支孪生残差网络：

S2.1构造第一行人对齐分支深度残差网络，使用经过训练的基础分支深度残差网络基础分支深度残差网络，删除最后一个残差块；

S2.2将第四个残差块的输出结果经由一个残差块返回为六个参数，将此作为进行仿射变换的参数，对第二个残差块输出的图像进行仿射变换，得到对齐的行人图像；

S2.3将经过训练的基础分支深度残差网络基础分支深度残差网络删去第一个残差块，并用来训练得到的经过对齐的行人图像；

S2.4复制第一行人对齐分支深度残差网络的模型结构和参数得到第二行人对齐分支深度残差网络；

S2.5计算两个行人对齐分支深度残差网络输出的特征向量差值的平方，利用卷积层和分类器进行二分类，判断两个分支网络的输入是否是同一类别的图像；

步骤S3构造训练数据集并分步进行基础分支孪生残差网络和行人对齐分支深度孪生残差网络的训练：

S3.1利用构造好的训练数据集采用批量梯度下降法分别对基础分支孪生残差网络和行人对齐分支深度孪生残差网络进行参数训练；

S3.2训练好参数之后分别将任意一个基础分支深度残差网络和行人对齐分支深度残差网络模型取出作为行人图像分类模型。

步骤S4构建测试样本和查询样本。

步骤S5测试样本分类：将测试样本分别送入基础分支深度残差网络和行人对齐分支深度残差网络中进行特征提取。

步骤S6将两个分支网络得到的特征进行权重为0.5的特征连结。

步骤S7对测试样本的图像和查询样本的图像进行欧式距离的计算得到排序列表。

步骤S8在重排序的基础上进行行人重识别。

步骤S1中所述的深度残差网络模型结构可分为五个残差块，每个残差块结构分别如下：

输入为原始行人图像，特征映射图谱数目为3，即图像的三个颜色通道；

残差块一由四层网络组成，分别为卷积层，批归一化层，线性整流函数层和最大池化层，输出特征映射图谱数目为64；

残差块二至残差块五分别由多个身份块组成，每个身份块的结构均为三个卷积层、批归一化层线、性整流函数层和一个和函数层经过排列组成；

残差块二包含三个身份块，输出特征映射图谱数目为256；

残差块三包含四个身份块，输出特征映射图谱数目为512；

残差块四包含六个身份块，输出特征映射图谱数目为1024；

残差块五包含三个身份块，输出特征映射图谱数目为2048；

对输出的2048维的特征图谱进行平均池化，得到2048维的特征向量；

通过全连接层和分类器层将特征向量映射到大小为行人类别个数的维度的向量。

进一步的，步骤S1.1具体如下：

S1.1.1输出经过平均池化后得到的2048维向量f₁；

S1.1.2设置卷积层的特征映射图数为行人类别数目n,卷积层将f₁映射成为n维向量，由全连接分类器输出最终类别预测；

进一步的，步骤S1.3具体如下：

S1.3.1.设置平方层，将两个深度残差网络模型输出的特征向量f₁、f₂取差值平方，得到f_s＝(f₁-f₂)²

S1.3.2.设置特征映射图数为2的卷积层，将f_s映射成为2维向量；

S1.3.3.全连接至二分类器对S1.3.2的输出产生最终预测，即输入图像对是否来自同一类别；

S1.3.4.对于输入图像对q(相同类别/不同类别),定义第二损失函数：

步骤S2中所述的深度残差网络模型结构可分为八个残差块和一个网格残差块，每个残差块结构分别如下：

残差块二至残差块四分别由多个身份块组成，每个身份块的结构均为三个卷积层、批归一化层线、性整流函数层和一个和函数层经过排列组成；

残差块二包含三个身份块，输出特征映射图谱数目为256；

残差块三包含四个身份块，输出特征映射图谱数目为512；

残差块四包含六个身份块，输出特征映射图谱数目为1024；

网格网络块包含三个身份块和一个平均池化层，但是其输出为六个维度的变换参数，用于产生图像网格，进行行人对齐；

将残差块二输出的图像进行网格对齐，得到的对齐的行人图像的特征映射图谱数目为256；

残差块五包含四个身份块，输出特征映射图谱数目为512；

残差块六包含六个身份块，输出特征映射图谱数目为1024；

残差块七包含三个身份块，输出特征映射图谱数目为2048；

进一步的，步骤S2.1-S2.3具体如下：

S2.1.1输出经过平均池化后得到的2048维向量f₁；

S2.1.3对于基础分支孪生残差网络的输入和输出,定义第三损失函数：

进一步的，步骤S2.5具体如下：

S2.3.1.设置平方层，将两个深度残差网络模型输出的特征向量f₁、f₂取差值平方，得到f_s＝(f₁-f₂)²

S2.3.2.设置特征映射图数为2的卷积层，将f_s映射成为2维向量；

S2.3.3.全连接至二分类器对S1.3.2的输出产生最终预测，即输入图像对是否来自同一类别；

S2.3.4.对于输入图像对q(相同类别/不同类别),定义第四损失函数：

进一步的，步骤S3.1具体如下：

S3.1.1.如何构建训练集：打乱训练数据集中图像的顺序，产生训练数据对；

S3.1.2.采用批量下降法对S1.1.3、S1.3.4、S2.1.3、S2.3.4的4个损失函数进行最优化；

S3.1.3.设置4个损失函数的权重，分别为λ₁，λ₂，λ₃，λ₄；

S3.1.4.经过一系列实验进参数调试，确定最优的权重值；

进一步的，步骤S3.2具体如下:

S3.2.1.将4个损失函数训练到最优即最小化损失函数；

S3.2.2.取出训练好的深度残差网络作为下一步的分类模型；

步骤S4如何构建测试样本如下:

S4-1.将行人重识别数据集中剩下的图像作为测试样本；

S4-2.将测试样本中的每张图像调整尺寸调整为224×224；

步骤S4具体如下:

S4-1.分类模型是单个深度残差网络模型,对应的输入为单张图像；

S4-2.分类标准采用总体正确率和首次识别正确率,分别为分类正确的图像数占测试样本的百分比以及第一次识别同一类别行人即正确识别的百分比。

下面对本发明的效果做进一步的说明：

1、实验条件：

本发明的实验是在NVIDIA GTX 1080Ti GPU、I7-8700K CPU的硬件环境和MATLAB2017的软件环境下进行的。

本发明的实验使用了三个行人重识别数据集Market-1501、DukeMMC、以及CUHK03。

Market-1501数据集收集在清华大学的一家超市前面。共使用六台相机，其中包括5台高分辨率相机和一台低分辨率相机。不同相机之间存在重叠。总体而言，此数据集包含32,668个标识边界框，其中包含1,501个标识。在这个开放***中，每个身份的图像最多由六台摄像机拍摄。确保每个注释标识至少存在两台摄像机中，以便进行跨摄像机搜索。

Duke提供了一种在摄像机内部和跨摄像机工作的跟踪***，一个由8个同步摄像机记录的新型大规模高清视频数据集，其中包含7,000多个单摄像机轨迹和2,000多个独特身份，以及一种新的性能评估方法。

CUHK03包括1,360个行人的13,164张图像，整个数据集由六台监控摄像机拍摄。每个身份由两个不相交的相机拍摄，该数据集在香港中文大学内采集，图像来自2个不同摄像头。该数据集提供机器检测和手工检测两个数据集。其中检测数据集包含一些检测误差，更接近实际情况。平均每个人有9.6张训练数据。

2、结果分析

本发明的仿真实验采用本发明方法与(1)未使用行人对齐网络的孪生网络和(2)未使用孪生结构的行人对齐网络对三个数据集进行分类，并将分类效果进行对比分析。

表1是本发明的实验采用三种卷积神经网络模型和本发明方法对总体正确率进行对比的统计表。表1中的“Data Set”表示采用的行人重识别数据集类型、“result”表示重识别结果，“Accuracy”表示分类的正确率，Rank-1表示第一次识别即为正确行人的概率，“Verif+identif”表示未使用行人对齐网络的孪生网络，“Base+Align”表示未使用孪生结构的行人对齐网络，“(Base+Verif)+(Align+Verif)”表示本发明使用的方法。

表1行人重识别结果比较一览表

从表1可以看出，本发明方法在三个数据集上结果均优于其他两种方法。

Claims

1.一种基于孪生行人对齐残差网络的行人重识别方法，其特征在于，包括以下几个步骤：

S1、构建基础分支孪生残差网络；

S2、构建行人对齐分支孪生残差网络；

S4、构建测试样本和查询样本；

S6、将两个分支网络得到的特征进行特征连结；

S8、在重排序的基础上进行行人重识别。

2.根据权利要求2所述基于孪生行人对齐残差网络的行人重识别方法，其特征在于，步骤S1.1具体如下：

S1.1.1、输出经过平均池化后得到的2048维向量f₁；

其中，softmax代表一个分类器函数，代表一个卷积运算，θ_I代表所使用的卷积层的参数，t为行人类别，f为经过基础分支深度残差网络进行特征提取后得到的特征向量，为分类器函数输出的特征向量f属于某个行人类别t的概率，对于任一图像i和某一行人类别t,p_i代表图像i是否属于行人类别t，如果属于，则p_i＝1，否则p_i＝0，为任一图像i经过softmax函数处理后得到的概率值。

3.根据权利要求1所述基于孪生行人对齐残差网络的行人重识别方法，其特征在于，步骤S1.3具体如下：

其中，softmax代表一个分类器函数，代表一个卷积运算，θ_S代表所使用的卷积层的参数，s为相同或不相同两个类别，f_s为经过平方层后卷积得到的特征向量，为分类器函数输出的特征向量f_s是否是同一类行人θ_s的概率，f₁、f₂分别为由构成基础分支孪生残差网络的两个基础分支深度残差网络提取到的特征，如果f₁、f₂是同一人，q₁＝1，q₂＝0；否则q₁＝0，q₂＝1，经过卷积层和softmax函数处理之后，将f_s映射为一个二维向量这个二维向量代表输入的两个图像是否属于同一个行人类别的概率，其中

4.根据权利要求1所述基于孪生行人对齐残差网络的行人重识别方法，其特征在于，步骤S2.1具体如下：

S2.1.1输出经过平均池化后得到的2048维向量f_a；

其中，softmax代表一个分类器函数，代表一个卷积运算，θ_I代表所使用的卷积层的参数，t为行人类别，f_a为经过基础分支深度残差网络进行特征提取后得到的特征向量，为分类器函数输出的特征向量f属于某个行人类别t的概率，对于任一图像i和某一行人类别t,代表图像i是否属于行人类别t，如果属于，则否则为任一图像i经过softmax函数处理后得到的概率值。

步骤S2.3具体如下：

其中，softmax代表一个分类器函数，代表一个卷积运算，θ_S代表所使用的卷积层的参数，s为相同或不相同两个类别，为经过平方层后卷积得到的特征向量，为分类器函数输出的特征向量是否是同一类行人θ_S的概率，分别为由构成基础分支孪生残差网络的两个基础分支深度残差网络提取到的特征，如果是同一人，否则经过卷积层和softmax函数处理之后，将f_s映射为一个二维向量这个二维向量代表输入的两个图像是否属于同一个行人类别的概率，其中