CN111738048B

CN111738048B - 一种行人再识别的方法

Info

Publication number: CN111738048B
Application number: CN202010163685.7A
Authority: CN
Inventors: 葛永新; 谢佳宏; 徐玲; 洪明坚; 杨梦宁; 黄晟; 王洪星; 陈飞宇; 张小洪; 杨丹
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-08-22
Anticipated expiration: 2040-03-10
Also published as: CN111738048A

Abstract

本发明涉及一种行人再识别的方法，首先获取原始图像集，并给每张原始图像标上类别标签；将每张原始图像处理成灰度图像和低分辨率图像；将每个训练样本的原始RGB图像，灰度图像和低分辨率图像作为LRAN模型的输入，对LRAN模型的参数进行优化得到最终LRAN模型；最后行人再识别，将两张行人图像经过处理后输入最终LRAN模型得到两张图像的特征ff1和特征ff2，计算特征ff1和特征ff2的距离两张原始图像之间的相似度。本方法考虑到了行人图像质量的变化，从原始RGB图像、灰度图像和低分辨率图像中提取并融合三种深度行人特征融合为一个更鲁棒的特征，在一定程度上就消除了图像质量差异在行人再识别过程中带来的影响。

Description

一种行人再识别的方法

技术领域

本发明涉及图像识别技术领域，特别涉及种行人再识别的方法。

背景技术

行人再识别(re ID)是计算机视觉中的一项基本任务，其目的是从非重叠的摄像机视图中确定图像或视频序列中是否存在特定的行人。在这个领域存在着很多挑战，例如，利用人工标记或检测算法得到的行人检测结果不够准确，随着行人姿态、视角和光照度的显著变化，行人图像的外观也发生了巨大的变化。另外，同一身份的行人在不同的镜头下拍摄时可能会显得非常不同，而具有相似颜色的衣服或相似体型的行人的身份也很难得到区分。

行人再识别技术在公共安全和监控领域具有潜在应用价值，因此受到了学术界和工业界的广泛关注。近年来，深度学习的广泛应用使得行人再识别取得了显著的进步。现有的行人再识别方法大致可以分为度量学习和表征学习两大类。前者侧重于学习一个度量空间，该度量空间使正样本之间的距离接近，使负样本之间的距离尽可能远。后者侧重于学习某种不受光照、姿态、视角等因素影响的鲁棒性特征。全局特征学习是一种直接的行人表征方法，它从整个人的图像中提取判别性特征，目的是捕捉最显著的外貌线索来表征不同行人的身份。全局特征的缺点是会忽略一些细节信息。相反，基于局部特征的方法可以有效地捕捉细节信息，提高Re-ID的性能，其中包括基于部分的方法和基于注意力的方法。然而，上述特征学习方法主要针对遮挡、视角和姿态变化带来的影响，没有考虑行人图像质量的变化。由于摄像机与目标行人之间的距离是不同的，原始监控画面中目标行人所占的像素数目是不相等的，导致当行人检测框被放缩到统一尺寸时，得到的行人图像质量不同。一般的深度特征不能消除不同图像质量的影响。如图1所示，左边是低质量图像和高质量图像的例子。右边是采用resnet-50模型在Market-1501数据集上的检索结果。每行的第一个图像是待查询行人图像，其他图像是排序列表中的前5位。浅色框表示与待询图像具有相同身份，深色框表示与待询图像具有不同身份。可以发现，当待查询图像的质量较低时，与待查询图像的质量相同的图像往往位于排序列表的前而，即使它们具有不同的身份。因此亟需一种方法可以有效解决图像质量差异在行人再识别中的影响。

发明内容

针对现有技术存在的上述问题，本发明的要解决的技术问题是：提供一种可以有效解决图像质量差异在行人再识别中影响的方法。

为解决上述技术问题，本发明采用如下技术方案：一种行人再识别的方法，包括如下步骤：

S100:原始图像集的获取

采集大量行人的RGB图像作为原始图像集，该原始图像集中包括多个行人的图像，且每个行人具有多张图像；

给每张原始图像标上类别标签，其中同一行人的每张原始图像上标注相同的类别标签；

S200:分析图像生成

将S100采集的原始图像集中的每张原始图像对应的处理成灰度图像和低分辨率图像；

所述每张原始图像，对应的处理成灰度图像和低分辨率图像构成该原始图像的分析图像；

S300:模型构建

S310:构建LRAN模型，所述LRAN模型包括三个并列的征提取器和一个分类器；

S320:将原始图像集中的所有原始图像分成训练集和测试集；

S330:训练集中每个原始RGB图像均为一个训练样本，将每个训练样本的原始RGB图像，对应的灰度图像和低分辨率图像分别作为输入，分别输入到一个特征提取器中，然后对应的得到三个特征图，再通过平均全局池化层和拼接操作，将每个特征图对应的转化为一维向量，分别为fg、fo和fl，再将该三个一维向量拼接为一个联合特征向量ff；

S340:遍历训练集中的所有训练样本，利用联合特征向量ff和损失函数，更新特征提取器中的参数，得到优化的特征提取器，该优化的特征提取和分类器构成优化的LRAN模型；

S350:将测试集中的测试样本分别作为输入，依次输入到优化的LRAN模型中，优化的LRAN模型输出的测试样本属于某一类别的最大概率所对应的类别为该测试样本的预测类别；

S360：设置预测准确率阈值，当优化的LRAN模型对测试样本集中的所有测试样本的预测准确率不小于该预测准确率阈值时，则该优化LRAN模型即最终LRAN模型，并执行S400，否则执行S370；

S370：将原始图像集中的所有图像重新划分为训练集和测试集，并使用该新的训练集和测试集更新原来的训练集和测试集，返回S330；

S400:行人再识别

将两张行人图像分别经过S200的处理，得到每张行人图像的灰度图像和低分辨率图像，将行人一的原始RGB图像，对应的灰度图像和低分辨率图像输入最终LRAN模型得到行人一的特征ff1，再将行人二的原始RGB图像，对应的灰度图像和低分辨率图像输入最终LRAN模型得到行人一的特征ff2，将特征ff1和特征ff2的距离即得行人一的原始图像与行人二的原始图像之间的相似度。

作为改进，所述S200中每张原始图像生成灰度图像的过程如下：

Grey(i,j)＝0.299×R(i,j)+0.587×G(i,j)+0.114×B(i,j) (1)；

其中，Grey(i,j)表示灰度图像中第i行和第j列的像素值，R，G和B是原始RGB图像中的三个通道。

作为改进，所述S200中每张原始图像生成低分辨率图像的过程如下：

其中，X是原始图像，Low是生成的低分辨率图像。

作为改进，所述S310中的LRAN模型中，特征提取器由基础CNN组成，分类器由全

连接

层和softmax函数构成。

作为改进，所述S340中利用联合特征ff和损失函数，更新特征提取器中的参数，得

到优

化的特征提取器的过程如下：

S341：所述损失函数如公式(3):

其中，Li为使用特征fi计算出的交叉熵损失,i＝g,o,l,f,交叉熵损失函数如公式(4)：

其中，C是训练集中包含的类别标签的总数，p_i(k)由特征向量f_i经过分类器计算得到，，f_i,i＝g,o,l,f，设f_i＝[x₁,x₂,...,x_n]，f_i经分类器的全连接层后得C维向量f_i'＝[y₁,y₂,...,y_C],再由分类器的softmax函数得f_i”＝[p_i(1),p_i(2),...p_i(k)...,p_i(C)]，p_i(k)表示LRAN模型预测的输入LRAN模型的原始图像属于类别k的概率，q(k)表示输入LRAN模型的原始图像属于类别k的真实概率；当输入LRAN模型的原始图像的真实类别标签为k，则q(k)＝1，否则q(k)＝0

S342：损失函数值为最小，则停止LRAN模型中的参数的更新，得到优化的特征提取器。

相对于现有技术，本发明至少具有如下优点：

本发明方法考虑到了行人图像质量的变化，从原始RGB图像、灰度图像和低分辨率图像中提取并融合三种深度行人特征融合为一个更鲁棒的特征，这样，在一定程度上就消除了图像质量差异在行人再识别过程中带来的影响。在Market1501和DukeMTMC-reID数据集上的大量实验表明，该方法达到了最先进的性能。

附图说明

图1为本发明方法的流程简图。

图2为本发明方法与现有的方法在mAP(平均精度)和CMC(累计匹配曲线)指标上的对比。

图3为现有方法行人再识别的结果图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

为了解决图像质量差异带来的问题，我们利用通过降低原始RGB图像分辨率所产生的低分辨率图像来协助行人再识别任务。图像中包含的信息量与其图像质量之间应该是正相关的。降低图像分辨率会使得原始图像的信息损失一部分，但在相对高质量的图像中，损失的信息比在相对低质量的图像中要多。结果是，各图像的图像质量在一定程度上变得接近。

为了有效地利用低分辨率图像，本文提出了一种低分辨率辅助三流网络(LRAN)来提取和融合行人特征。首先，我们设计了一个以原始RGB图像、灰度图像和低分辨率图像为输入的三流网络。特别地，灰度图像是通过简单地变换原始RGB图像生成的。然后，我们将原始RGB、灰度和低分辨率图像的特征拼接起来作为最终的行人表示，计算行人图像之间的相似度。

参见图1，一种行人再识别的方法，包括如下步骤：

S100:原始图像集的获取

S200:分析图像生成

为了构造更鲁棒的行人特征，除了原始的RGB图像外，本发明还利用了低分辨率图像和灰度图像的特征。

在大多数常见的行人再识别模型中，很容易过度依赖颜色信息，导致识别精度下降。也就是说，即使两个人的图像有不同的行人身份，由于他们的衣服颜色非常相似，模型往往也会推断他们属于同一个人。本发明利用灰度图像提供的信息，可以在一定程度上避免这种错误。

所述S200中每张原始图像生成灰度图像的过程如下：

Grey(i,j)＝0.299×R(i,j)+0.587×G(i,j)+0.114×B(i,j) (1)；

此外，为了弥补图像质量差异，我们提取了低分辨率图像的特征来补充原始特征，在大多数情况下，行人数据集中的图像质量差异是由于行人在原始监控画面中所占的比例不同造成的。在真实场景中，行人越靠近摄像机，行人的实际像素数在整个监控画面中所占的比例就越大，反之亦然。在制作完成的行人数据集中，所有图像都被放大或缩小，使得尺寸大致相同，从而导致各图像名义上的分辨率相等，但实际分辨率并不相等。解决这个问题的方法是直观的，我们采用统一的比例来降低原始图像的分辨率，使各图像名义分辨率的下降幅度相同，但对于高质量图像，实际分辨率的下降幅度较大，而对于低质量图像，实际分辨率的下降幅度较小。这样，在降低分辨率后的图像中，实际分辨率比较接近，在一定程度上弥合了图像质量的差异。我们使用2x2最大池化来降低行人图像的分辨率。

所述S200中每张原始图像生成低分辨率图像的过程如下：

其中，X是原始图像，Low是生成的低分辨率图像。

与基于GAN的数据增广方法相比，直接使用生成灰度图像和低分辨率图像有两个优点：一是简单有效，不用引入额外的需要大量训练时间的网络模型，生成的图像可以为原始图像提供补充信息，形成鲁棒性特征。第二，没有由于GAN模型的不精确性而引起的身份偏差。众所周知，GAN模型很难训练到收敛，因此GAN生成的人物图像不能完全保持同一个人的身份信息。相反，灰度图像和低分辨率图像虽然丢失了一些信息，但仍能保持身份信息的完整性。

与仅仅使用原始图像相比，运用灰度图像可以避免模型过度依赖颜色信息进行识别的问题，运用低分辨率图像可以避免由于图像质量差异引起的错误识别。因此采用了三个网络分别提取三种图像的深度特征，然后进行融合，这样得到的综合特征进行识别的准确性更高。

对于数据集中的每个原始RGB图像，对于一个批次的训练数据，网络分别将原始RGB图像、灰度图像和低分辨率图像作为三个支流的输入。在每个支流中，输入图像都通过了由某一基础CNN组成的特征提取器。得到特征图之后，通过平均全局池化层和拼接操作，将从基础CNN提取的特征转化为一维向量。三个流生成fg、fo、fl三种特征，再将它们拼接为一个联合特征ff。在训练阶段，fg、fo、fl、ff分别输入到四个分类器中，每一个分类器由FC层和随后的softmax函数构成，以预测输入图像的ID。在测试阶段，利用ff作为行人图像的表征，计算图像之间的相似度。

此处的基础CNN可以具体为MHN-6或Resnet-50。

S300:模型构建

S310:构建LRAN模型，所述LRAN模型包括三个并列的征提取器和一个分类器。

S320:将原始图像集中的所有原始图像分成训练集和测试集。

S330:训练集中每个原始RGB图像均为一个训练样本，将每个训练样本的原始RGB图像，对应的灰度图像和低分辨率图像分别作为输入，分别输入到一个特征提取器中，然后对应的得到三个特征图，再通过平均全局池化层和拼接操作，将每个特征图对应的转化为一维向量，分别为fg、fo和fl，再将该三个一维向量拼接为一个联合特征向量ff；通过平均全局池化层和拼接操作，将每个特征图对应的转化为一维向量属于现有技术，此处不再赘述。

S340:遍历训练集中的所有训练样本，利用联合特征向量ff和损失函数，更新特征提取器中的参数，得到优化的特征提取器，该优化的特征提取和分类器构成优化的LRAN模型。

所述S340中利用联合特征ff和损失函数，更新特征提取器中的参数，得到优化的特征提取器的过程如下：

S341：所述损失函数如公式(3):

其中，C是训练集中包含的类别标签的总数，p_i(k)由特征向量f_i经过分类器计算得到，即一个全连接层和softmax函数归一化计算得到，f_i,i＝g,o,l,f，设f_i＝[x₁,x₂,...,x_n]，f_i经分类器的全连接层后得C维向量f_i'＝[y₁,y₂,...,y_C],再由分类器的softmax函数得f_i”＝[p_i(1),p_i(2),...p_i(k)...,p_i(C)]，p_i(k)表示LRAN模型预测的输入LRAN模型的原始图像属于类别k的概率，q(k)表示输入LRAN模型的原始图像属于类别k的真实概率；当输入LRAN模型的原始图像的真实类别标签为k，则q(k)＝1，否则q(k)＝0。

最小化交叉熵损失等价于最大化预测结果中对应于真实标签类别的概率，因此在训练阶段只要约束这个损失函数最小化，就能使网络参数优化。

设置预测准确率阈值，当优化的LRAN模型对测试样本集中的所有测试样本的预测准确率不小于该预测准确率阈值时，则该优化LRAN模型即最终LRAN模型，并执行S400，否则执行S360；

S360：将原始图像集中的所有图像重新划分为训练集和测试集，并使用该新的训练集和测试集更新原来的训练集和测试集，返回S330；

S400:行人再识别

将两张行人图像分别经过S200的处理，得到每张行人图像的灰度图像和低分辨率图像，将行人一的原始RGB图像，对应的灰度图像和低分辨率图像输入最终LRAN模型得到行人一的特征ff1，再将行人二的原始RGB图像，对应的灰度图像和低分辨率图像输入最终LRAN模型得到行人一的特征ff2，将特征ff1和特征ff2的距离即得行人一的原始图像与行人二的原始图像之间的相似度。特征ff1和特征ff2的距离可以是余弦距离或欧氏距离等，根据行人一的原始图像与行人二的原始图像之间的相似度即可确定两张原始图像中的为同一行人的可能性，从而达到行人再识别的目的。

测试实验

数据集：为了验证方法的有效性，我们使用了两个公共数据集Market-1501和DukeMTMC-reID进行评估。Market-1501包含12936个训练图像，具有751个不同的身份。测试集中gallery和query分别有19732和3368个图像，具有750个身份。DukeMTMC reID包含16522张702个身份的训练图像，2228个query和17661张gallery，具有其他702个身份。为了评估我们的方法的性能，使用CMC和mAP。

实施细节

我们使用两种CNN模型，Resnet-50和MHN-6，它们是在ImageNet上预训练过的。对于Resnet-50，所有输入图像的大小都调整为384×128。我们改变最后一个卷积层的步长，使得全局平均池层之前的特征图的大小为24×8。在Resnet-50中的全局平均池层之后，我们附加一个全连接层，然后是批归一化层和ReLU。附加FC层的输出维度被设置为1536。然后我们应用dropout层，丢失率为0.5。Batch大小设置为32。训练100个epoch，初始学习率为0.001，每经过一个epoch学习率下降为前一学习率的0.96倍。对于MHN-6，我们采用动量因子为0.9的SGD优化器，将初始学习率设置为0.01，共70个epoch，每20个epoch学习率降低0.1倍。输入图像大小调整为336×168，batch设置为32。

本发明方法与其他方法的比较

我们将所提出的方法与10种最先进的方法进行比较。如表1和表2所示，我们的方法使Rank-1/mAP在Market-1501上达到了95.4％/86.9％，在DukeMTMC-reID上达到了89.6％/78.8％。与使用局部特征的多分支框架PCB-RPP相比，该方法在两个数据集上的精度分别提高了1.6％/6.3％和5.3％/9.6％。与基于生成图像的DG-Ne相比，我们的方法在rank1和mAP中分别提高了0.6％/0.5％和0.9％/4.0％。可以观察到，我们提出的方法在两个数据集上都有明显的优势。

表1在Market-1501数据集上与最先进方法的比较

表2在DukeMTMC-reID数据集上与最先进方法的比较

图2以直方图的形式展示了本方法与现有的几个代表方法的识别率性能对比。在CMC(累积匹配曲线)指标中的Rank-1、Rank-5、Rank-10命中率上，以及mAP(平均精度)指标上，本方法都超过了没有考虑图像质量差异的现有方法。识别率的提高说明了融合低分辨率特征对于行人再识别任务是有效的。

消融实验

为了进一步验证低分辨率图像在我们提出的模型中的辅助作用，我们在Market-1501数据集上进行了一些额外的实验。如表3所示，对于Resnet-50，使用原始数据集作为输入的单流网络上rank1和mAP的精度分别为90.3％和74.5％。当网络扩展到两个支流并使用灰度图像作为第二个流的输入时，rank1上升到92.5％，mAP上升到79.2％。然后将低分辨率图像作为输入加入第三流支流，结果在rank1和mAP中分别提高了1.3％和4.3％。同样，对于相对更高性能的MHN-6，在rank1和mAP中分别达到了94.6％和85.2％，而三流网络在rank1和mAP中分别比单流网络的性能好0.8％和1.7％。识别率的提高可以充分证明灰度支流和低分辨率支流都是有效的。

表3网络是否采用灰度和低分辨率支流的实验结果

本文提出了一种三流深度网络LRAN，从原始RGB图像、灰度图像和低分辨率图像中提取并融合三种深度行人特征。与已有的方法相比，我们的方法考虑到了行人图像质量的变化。在Market1501和DukeMTMC-reID数据集上的大量实验表明，该方法达到了最先进的性能。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种行人再识别的方法，其特征在于，包括如下步骤：

S100:原始图像集的获取

S200:分析图像生成

S300:模型构建

S320:将原始图像集中的所有原始图像分成训练集和测试集；

S400:行人再识别

2.如权利要求1所述的行人再识别的方法，其特征在于,所述S200中每张原始图像生成灰度图像的过程如下：

Grey(i,j)＝0.299×R(i,j)+0.587×G(i,j)+0.114×B(i,j) (1)；

3.如权利要求1所述的行人再识别的方法，其特征在于,所述S200中每张原始图像生成低分辨率图像的过程如下：

其中，X是原始图像，Low是生成的低分辨率图像。

4.如权利要求1-3任一项所述的行人再识别的方法，其特征在于,所述S310中的LRAN模型中，特征提取器由基础CNN组成，分类器由全连接层和softmax函数构成。

5.如权利要求4所述的行人再识别的方法，其特征在于,所述S340中利用联合特征ff和损失函数，更新特征提取器中的参数，得到优化的特征提取器的过程如下：

S341：所述损失函数如公式(3):

其中，C是训练集中包含的类别标签的总数，p_i(k)由特征向量f_i经过分类器计算得到，f_i,i＝g,o,l,f，设f_i＝[x₁,x₂,...,x_n]，f_i经分类器的全连接层后得C维向量f_i'＝[y₁,y₂,...,y_C],再由分类器的softmax函数得f”_i＝[p_i(1),p_i(2),...p_i(k)...,p_i(C)]，p_i(k)表示LRAN模型预测的输入LRAN模型的原始图像属于类别k的概率，q(k)表示输入LRAN模型的原始图像属于类别k的真实概率；当输入LRAN模型的原始图像的真实类别标签为k，则q(k)＝1，否则q(k)＝0