CN114511881A

CN114511881A - 基于层次注意力多任务深度模型的行人再识别方法

Info

Publication number: CN114511881A
Application number: CN202210106070.XA
Authority: CN
Inventors: 王其聪; 黄艳; 秦启峰
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-17

Abstract

基于层次注意力多任务深度模型的行人再识别方法，涉及计算机视觉。包括以下步骤：根据行人再识别数据集构建焦点图；设计层次注意力的多任务深度模型的行人再识别网络模型，通过该模型推断出行人间的相似性；计算两个子任务的分类损失和，通过反向传播和随机梯度下降法对网络模型进行端到端的训练，得到训练好的模型；利用训练好的网络模型测试行人再识别的识别效果，输出行人间的相似度，并按照其大小降序排序。能充分共享在底层细节和高层语义方面具有不同区分力的层次特征提升深度相似性学习性能。在焦点图节点多层近邻聚合间引入注意力机制，使每层近邻聚合后具有区分性的节点通道信息更具重要性，促进对样本间复杂相似性关系的深度推断。

Description

基于层次注意力多任务深度模型的行人再识别方法

技术领域

本发明属于计算机视觉领域，尤其是涉及一种基于层次注意力多任务深度模型的行人再识别方法。

背景技术

由于公共安全需求的增加和大量监控设备的使用，行人再识别任务受到了越来越多的关注并成为计算机视觉领域中的研究热点之一。行人再识别任务的目标是，当视频监控中出现了目标任务时，它会去判断目标是否在另一个地方或时间被另一个监控设备观察到。正是因为行人再识别的跨设备识别要求，它的研究难点在于以下几个方面。首先，由于各个监控设备的地点不同，因此，拍摄的行人往往具有不同的角度和姿势，若角度和姿势的变化导致和目标差异多大，会增加再识别的难度。其次，拍摄行人时，可能处于白天，而该目标可能在晚上出现在另一个监控设备的画面中，所以目标会出现强烈的明暗变化，这也会导致识别难度增加。此外，由于监控设备所在之处的人流量难以控制，当人流量大时，难免会对目标造成某种程度的遮挡，而这会导致目标图像中混入噪声，因此对再识别算法也提出了更高的要求。

目前基于相似性学习的再识别方法是解决上述问题的研究热点之一。相似性学习的目的是学习一个映射空间，使得样本在这个空间中，同类的样本相互靠近，异类的样本相互远离。由于仅优化相似性学习方法容易产生次优解，因此，大部分相似性学习方法与多任务学习方法结合以解决这个问题，即增加一个分类任务，通过多任务学习机制同时优化分类任务和相似性学习任务，并提升相似性学习任务的性能。但大多数现有方法仍然存在着两个问题：

1)大多数方法仅从深层CNN中利用最后一个全连接层中提取一个深层特征。然而实际上网络中的低层会提取一些边缘特征，高层可以进行形状或目标的认知，仅用单层的特征会导致特征对于某些变化敏感，例如视角、光照等。

2)目前多任务相似性学习方法大多将样本组织成一些样本组来考虑样本间的相关性，例如一对、三元组、四元组等。这些方法在损失函数中嵌入距离信息，通过计算样本组内相关样本的距离迫使类内距离缩小，类间距离增大。但是，由于样本组内考虑的信息有限，以这种方式学习到的嵌入空间也许会存在一些问题，即，某些样本特征在样本组内是具有区分性的，但从整个嵌入空间来看，这种区分性会丢失，导致样本特征具有局部可区分性。虽然也有部分学者考虑利用图结构进行相似性学习，以考虑更丰富的样本关系，但是这类方法没有充分利用共享特征，忽略了共享特征对于任务性能提升的重要性，使得性能受限。

因此在行人再识别方法中，不仅要考虑多层次特征带来的细节和语义信息，还要考虑样本间更丰富的关系进行相似性学习，并且需要设计共享特征的方式进行端到端训练，使得子任务之间能够相互提升。

发明内容

本发明针对上述问题和技术分析，提供一种基于层次注意力多任务深度模型的行人再识别方法。

本发明包括以下步骤：

1)根据行人再识别数据集构建焦点图；

2)设计层次注意力的多任务深度模型的行人再识别网络模型，通过该模型推断出行人间的相似性；

3)计算两个子任务的分类损失和，通过反向传播和随机梯度下降法对网络模型进行端到端的训练，最终得到训练好的模型；

4)利用训练好的网络模型测试行人再识别的识别效果，输出行人间的相似度，并按照其大小降序排序。

在步骤1)，所述根据行人再识别数据集构建焦点图的具体步骤可为：

1.1首先，利用预训练的ResNet-50网络(K.He,X.Zhang,S.Ren,and J.Sun,“Deepresidual learning for image recognition,”in Computer Vision and PatternRecognition(CVPR), 2016,pp.770–778)提取训练集中所有行人图像的深度特征；

1.2将每一个特征都当作是一个焦点，计算每个焦点和其他所有节点的欧氏距离并当作相似度，求得每个焦点的前k个近邻；

1.3针对每个焦点和它的近邻集，为它们之间建立连接以构建焦点图；建立连接的具体规则为：若某个近邻的近邻集中存在节点，也在当前焦点的近邻集中，就将这些节点和这个近邻相连，则对于当前焦点，它的焦点图建立完毕，然后对其他所有焦点重复1.2和1.3步骤，即可得到所有的焦点图。

在步骤2)中，所述设计层次注意力的多任务深度模型的行人再识别网络模型，通过该模型推断出行人间的相似性，具体步骤可为：

2.1在第一个节点分类任务中，ResNet-50模型为主干网络，提取焦点图中节点的特征， ResNet-50在第一次卷积之后被分成三个阶段，分别是第二、三、四层残差层；每个阶段后增加了一个特征增强模块。特征增强模块内部，首先对输入的特征分别进行全局平均池化和全局最大池化，并将两个池化结果相加后，进行批正则化，激活后再进入一个神经元个数为512 的全连接层中，最后输出该阶段的特征。在第一个卷积和所有残差层之后，增加特征通道注意力学习模块，在该特征通道注意力学习模块中，学习每个通道特征的权重，权重大小控制在0～1之间，然后将权重和原特征相乘，再进行下一阶段的操作。

2.2在相似性推断任务中，设计了关系增强图卷积网络；焦点图的特征和邻接矩阵输入后，首先经过图卷积对节点特征矩阵进行邻域聚合和转换，对特征进行全局平均池化，压缩后输入到两个全连接层中，最后通过激活函数将其大小限制在0～1之间，然后在乘上图卷积输出之后的特征，并作为下一阶段的输入。最后的节点特征会经过两个全连接层，最后一个全连接层的神经元个数是2，表示将对特征进行二分类。

在步骤3)中，计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练，具体步骤为：

3.1节点分类任务中，三个阶段的特征按列拼接后，融合成一个共享特征，该共享特征经过一个全连接层，对其进行分类训练，损失函数为交叉熵损失。相似性推断任务中，关系增强图卷积之后的特征经过两个全连接层，对其进行二分类，用于预测节点之间是否应当连接。

3.2两个任务的损失相加作为总损失，通过反向传播和随机梯度下降法对网络模型进行训练更新。

与现有的技术相比，本发明具有以下突出的优点：

本发明提出一种端到端的层次注意力的多任务深度模型框架，其可以利用节点分类任务辅助相似性推断任务。其中，为了解决单一特征的敏感性问题，我们还设计了具有特征增强功能的网络，使得整个模型能够充分共享在底层细节和高层语义方面具有不同区分力的层次特征来提升深度相似性学习的性能。此外，本发明设计了一种焦点图来表达数据间丰富的相关性，进而提出了关系增强图卷积网络，其在焦点图节点多层近邻聚合间引入注意力机制，使每层近邻聚合后具有区分性的节点通道信息更具重要性，可促进对样本间复杂相似性关系的深度推断。

附图说明

图1为构建焦点图示意图。

图2为本发明实施例的框架图。

图3为特征通道注意力学习模块框架图。

图4为特征增强模块框架图。

具体实施方式

下面将结合实施例和附图，对本发明的方法详细说明。

本发明实施例包括以下步骤：

1)根据行人再识别数据集构建焦点图。给定一个行人图像，该步骤的目的是为该行人建立一个焦点图，获取该图中节点对应的行人图像和该图的邻接矩阵。假设所有图像的集合为 D＝{v₁,v₂,…,v_o}，其中o表示所有样本的数量。以一张焦点图为例，我们现在对图像v_f建立它的焦点图，它可以表示为

其中，V_(f)表示以v_f为焦点而采样的图像，A_(f)表示该图的邻接矩阵。为了获取V_(f)，首先利用一个预训练的ResNet-50提取数据集中的所有图片特征，然后计算节点v_f和其他所有图像之间的欧式距离：

表示节点v_f对应特征的第i个通道，d(v_f,v_j)表示节点v_f和v_j之间的欧式距离。然后从这些距离中，选出距离v_f最近的前k个节点，即可得V_(f)：

min^(k)表示选择前k个最小值。然后，为了获得A_(f)，需要确定图内节点确立怎样的关系。具体建立连接的规则如图1所示。图中v_f为焦点，其余节点组成了它的节点集V_(f)，对于其中的某个节点

来说，它也存在自己的点集，假设节点

同样也在

的节点集中，那么就将

与

建立连接。对V_(f)中的每一个节点都做这样的评估，就可以得到A_(f)，

也就由此建立。

2)设计基于层次注意力的多任务深度模型的行人再识别网络模型，通过该模型推断出行人间的相似性。整体网络模型参见图2。

2.1在节点分类任务中，ResNet-50模型为主干网络，它主要由卷积层、最大池化层和四个残差块组成；在四个残差块前分别加上对应维度的特征通道注意力学习模块，然后对第二、三、四模块的输出做特征增强处理。

特征通道注意力学***均池化操作(GAP)来获得每个通道对应的权重

因此，第i个阶段对应的特征的权值为：

然后利用激活函数将权值限制在0和1之间，得到Z⁽ⁱ⁾；最后将特征和通道在对应位置相乘，得

特征增强模块的结构参见图4。已知骨干网络第二、三、四个残差块之后的图内某个节点的特征分别为X⁽ⁱ⁾∈R^W×H×C，分别用全局平均池化和全局最大池化对X⁽ⁱ⁾处理，得到

和

然后将

和

相加，并经过一个全连接层，得到

最后将获取的m⁽²⁾，m⁽³⁾，m⁽⁴⁾按行拼接得到m，即网络的结果。同样的，可以得到图

中节点集的特征嵌入M_(f)，且

2.2在相似性推断任务中，关系增强图卷积网络以

的节点特征M_f和邻接矩阵A_(f)作为输入，并经过4层图卷积网络，图卷积网络可以表示为：

其中，上标l表示图卷积的层号，W^(l-1)表示第l-1层的图卷积参数，

D 表示A_(f)的对角度矩阵，

然后对

的维度拓展，即

之后经过全局平均池化，得到特征通道的初始权重cw。cw经过压缩维度后，利用批标准化处理、全连接层、非线性激活函数学习，最后利用一个sigmoid激活函数得到处于0和1之间的值，即

然后将

和

对应位置相乘，即可得到带有注意力机制的节点特征矩阵

并作为下一层的输入。

3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练。首先对于节点分类，在得到节点特征矩阵M_(f)后，会经过一个具有类别数量神经元的全连接层。然后利用一个多分类的交叉熵损失函数进行节点分类任务：

Cls表示节点的类别数，若当前节点i属于第j类，那t_ij就为1，否则为0。在相似性推断任务中，首先利用节点特征

初始化边的特征E_(f)，然后利用一个全连接层转换边的特征，经过激活函数后，对边的特征利用一个全连接层进行二分类。最后一个全连接层的神经元数量为 2，然后，利用一个二分类的交叉熵损失函数训练，即：

其中，y_ci表示中心节点v_c与它的第i个邻居v_i之间是否真实连接，连接则为1，否则为0。

表示模型预测出的v_c与v_i连接的概率。因此我们模型的联合损失即为L＝L₁+L₂，通过计算L的损失值，并通过反向传播和随机梯度下降法的端到端训练，整个网络模型会迭代更新参数值直至最优。

在Market-1501、DukeMTMC-reID行人再识别数据集上，本发明提出的方法和其他行人再识别实验结果对比如表1和表2所示。

表1

表2

其中：

MHN对应B.Chen等人提出的方法(B.Chen,W.Deng,J.Hu,Mixed high-orderattention network for person re-identification,in:Proceedings of the IEEEInternational Conference on Computer Vision,2019,pp.371–381.)；

CBN对应Z.Zhuang等人提出的方法(Z.Zhuang,L.Wei,L.Xie,T.Zhang,H.Zhang,H.Wu, H.Ai,Q.Tian,Rethinking the distribution gap of person re-identificationwith camera-based batch normalization,in:ECCV,2020.)；

SAN对应C.Shen等人的方法(C.Shen,G.Qi,R.Jiang,Z.Jin,H.Yong,Y.Chen,andX.Hua, “Sharp attention network via adaptive sampling for person re-identification,”IEEE Transactions on Circuits and Systems for VideoTechnology,vol.29,no.10,pp.3016–3027,2019.)

PCB+RPP对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,Y.Yang,Q.Tian,andS.Wang, “Beyond part models:Person retrieval with refined part pooling(and astrong convolutional baseline),”in Proceedings of the European Conference onComputer Vision(ECCV),September 2018,pp.480–496.)；

MuDeep对应X.Qian等人提出的方法(X.Qian,Y.Fu,T.Xiang,Y.G.Jiang,X.Xue,Leader-based multi-scale attention deep architecture for person re-identification,IEEE Transactions on Pattern Analysis and Machine Intelligence42(2)(2020)371–385.)；

DLPA对应L.Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProceedings of the IEEE International Conference on Computer Vision(ICCV),Oct2017,pp.3219–3228.)；

MVP对应H.Sun等人提出的方法(H.Sun,Z.Chen,S.Yan,L.Xu,Mvp matching:Amaximum-value perfect matching for mining hard samples,with application toperson re-identification,in:Proceedings of the IEEE International Conferenceon Computer Vision,2019, pp.6737–6747.)；

Pyramidal对应F.Zheng等人提出的方法(F.Zheng,C.Deng,X.Sun,X.Jiang,X.Guo,Z.Yu, F.Huang,R.Ji,Pyramidal person re-identification via multi-lossdynamic training,in:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2019,pp.8514–8522)；

SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,S.Wang,Svdnet forpedestrian retrieval,in:2017 IEEE International Conference on Computer Vision(ICCV),2017,pp. 3820–3828.)；

Structural对应X.Yang等人提出的方法(X.Yang,P.Zhou,M.Wang,Personreidentification via structural deep metric learning,IEEE Transactions onNeural Networks and Learning Systems 30(10)(2019)2987–2998.)；

Group-shuffling对应Y.Shen等人提出的方法(Y.Shen,H.Li,T.Xiao,S.Yi,D.Chen,X. Wang,Deep group-shuffling random walk for person re-identification,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018.)；

SGGNN对应Y.Shen等人提出的方法(Y.Shen,H.Li,S.Yi,D.Chen,X.Wang,Personre-identification with deep similarity-guided graph neural network,in:Proceedings of the European Conference on Computer Vision(ECCV),2018.)；

CACE-Net对应X.Jiang等人提出的方法(X.Jiang,F.Yu,Y.Gong,S.Zhao,X.Guo,F.Huang,W.-S.Zheng,X.Sun,Devil’s in the detail:Graph-based key-point alignmentand embedding for 760 person re-id,arXiv preprint arXiv:2009.05250.)；

P2-Net对应J.Guo等人提出的方法(J.Guo,Y.Yuan,L.Huang,C.Zhang,J.-G.Yao,and K. Han,“Beyond human parts:Dual part-aligned representations for personreidentification,”in Proceedings of the IEEE/CVF International Conference onComputer Vision(ICCV),October 2019, pp.3642–3651)

SPReID对应M.M.Kalayeh等人提出的(M.M.Kalayeh,E.Basaran,M.G¨okmen,M.E.Kamasak,and M.Shah,“Human semantic parsing for person re-identification,”inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2018,pp. 1062–1071.)

PIE对应L.Zheng等人提出的方法(L.Zheng,Y.Huang,H.Lu,Y.Yang,Pose-invariant embedding for deep person re-identification,IEEE Transactions onImage Processing 28(9)(2019) 4500–4509.)；

AVA-reID对应L.Wu等人提出的方法(L.Wu,R.Hong,Y.Wang,and M.Wang, “Cross-entropy adversarial view adaptation for person re-identification,”IEEETransactions on Circuits and Systems for Video Technology,vol.30,no.7,pp.2081–2092,2020.)

CL对应W.Wang等人提出的方法(W.Wang,W.Pei,Q.Cao,S.Liu,G.Lu,and Y.W.Tai,“Push for center learning via orthogonalization and subspace masking forperson re-identification,” IEEE Transactions on Image Processing,vol.30,pp.907–920,2021.)。

Claims

1.基于层次注意力多任务深度模型的行人再识别方法，其特征在于包括以下步骤：

1)根据行人再识别数据集构建焦点图；

2.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法，其特征在于在步骤1)中，所述根据行人再识别数据集构建焦点图的具体步骤为：

1.1利用预训练的ResNet-50网络提取训练集中所有行人图像的深度特征；

1.3针对每个焦点和它的近邻集，为它们之间建立连接以构建焦点图；建立连接的具体规则为：若某个近邻的近邻集中存在节点，也在当前焦点的近邻集中，则将这些节点和这个近邻相连；那么对于当前焦点，它的焦点图建立完毕，然后对其他所有焦点重复1.2和1.3步骤，即得到所有的焦点图。

3.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法，其特征在于在步骤2)中，所述设计层次注意力的多任务深度模型的行人再识别网络模型，通过该模型推断出行人间的相似性，具体步骤为：

2.1在第一个节点分类任务中，ResNet-50模型为主干网络，提取焦点图中节点的特征，ResNet-50在第一次卷积之后被分成三个阶段，分别是第二、三、四层残差层；每个阶段后增加了一个特征增强模块；特征增强模块内部，首先对输入的特征分别进行全局平均池化和全局最大池化，并将两个池化结果相加后，进行批正则化，激活后再进入一个神经元个数为512的全连接层中，最后输出该阶段的特征；在第一个卷积和所有残差层之后，增加特征通道注意力学习模块，在该特征通道注意力学习模块中，学习每个通道特征的权重，权重大小控制在0～1之间，然后将权重和原特征相乘，再进行下一阶段的操作；

2.2在相似性推断任务中，设计了关系增强图卷积网络；焦点图的特征和邻接矩阵输入后，首先经过图卷积对节点特征矩阵进行邻域聚合和转换，对特征进行全局平均池化，压缩后输入到两个全连接层中，最后通过激活函数将其大小限制在0～1之间，然后在乘上图卷积输出之后的特征，并作为下一阶段的输入；最后的节点特征会经过两个全连接层，最后一个全连接层的神经元个数是2，表示将对特征进行二分类。

4.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法，其特征在于在步骤3)中，计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练，具体步骤为：

3.1节点分类任务中，三个阶段的特征按列拼接后，融合成一个共享特征，该共享特征经过一个全连接层，对其进行分类训练，损失函数为交叉熵损失；相似性推断任务中，关系增强图卷积之后的特征经过两个全连接层，对其进行二分类，用于预测节点之间是否应当连接；