CN115631513B

CN115631513B - 基于Transformer的多尺度行人重识别方法

Info

Publication number: CN115631513B
Application number: CN202211404764.8A
Authority: CN
Inventors: 姜明; 何铃杰; 张旻
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-07-11
Anticipated expiration: 2042-11-10
Also published as: US20240161531A1; CN115631513A

Abstract

本发明公开了基于Transformer的多尺度行人重识别方法。本发明提出了一种基于多尺度行人特征提取和Transformer的行人重识别网络。首先，我们设计了一个多尺度特征级联模块，旨在挖掘行人不同深度，不同尺度下的细节特征信息，从而获得更强壮的特征表达。其次，构建了基于transformer的特征提取，从全局范围学习行人特征。最后将Transformer输出的特征进行聚合，以获得更好的行人特征表达，从而提升模型的辨别能力。结果表明，这种方法具有更好的鲁棒性和自适应能力，有效的增强了模型的泛化能力。

Description

基于Transformer的多尺度行人重识别方法

技术领域

本文发明涉及行人重识别技术，具体来讲是一种基于Transformer的多尺度行人重识别方法，属于计算机视觉领域。

背景技术

行人重识别旨在对不同摄像头捕获的行人图像进行关联，实现跨摄像头跨场景下的行人识别与检索，被广泛应用于智能监控领域。近年来，基于深度卷积网络的行人重识别方法取得了优秀的成果，但CNN受限于每次只能处理相邻特征并且在下采样等过程中容易丢失行人的细粒度特征，造成识别率的下降。同时，Transformer展现出对空间和序列数据的优秀建模能力。与CNN相比，Transformer移去了下采样操作，能保留更多的细粒度特征。

大多数基于Transformer的行人重识别方法，通常将整张图片分割后作为图片序列送入Transformer网络，然后使用全局token作为行人特征。然而，采用直接分割图片的方式既忽略了部分结构信息，也使得transformer网络收敛速度慢；将单一尺度的行人特征划分为特征序列后作为transformer网络的输入，忽略了行人特征的多尺度表达；在网络输出部分，丰富的行人局部特征仍未得到充分利用，而这部分特征提供了对行人重识别至关重要的细粒度信息。

基于上述，本发明提出了一种基于Transformer的多尺度行人重识别方法，利用多个尺度的图像特征所包含的丰富信息来优化对行人图像的特征提取。

发明内容

本发明的目的是针对现有技术的不足，提出了一种基于Transformer的多尺度行人重识别方法。通过构建特征级联模块,在保留行人低维度细节特征的同时引入高维特征的支持，并获得多个尺度的行人特征，缓解了Transformer网络对于大训练数据集的要求，能够帮助模型快速收敛并提升性能。同时，本方法将多个尺度的行人特征划分后构建多尺度特征序列并为其加上代表不同尺度的编码信息后输入同一个Transformer网络，引导模型关注输入的不同尺度下的行人信息。其次，构建局部特征多尺度融合模块，充分利用网络输出的多尺度行人细粒度局部特征，为每一个行人构建多尺度特征组，引导模型从局部到全局、浅层到深层挖掘更健壮的行人特征表达。

本发明解决其技术问题所采用的技术方案如下：

步骤(1)在残差网络ResNet50中引入特征级联分支，将相邻层不同尺度的特征图进行特征融合；

步骤(2)将(1)中融合后各个不同尺度的特征图进行特征分割，然后为每一个分割后的特征组加上可学***，再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN]，作为transformer的输入；

步骤(3)构建基于标准Transformer的行人特征提取网络，将(2)中获得的特征子图向量输入网络，获得行人特征；

步骤(4)构建局部特征多尺度融合模块，将步骤(3)得到特征进行切分，将[CLS_TOKEN]向量作为全局特征，同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征；

步骤(5)使用步骤(4)中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练，得到最终的ReID模型

进一步的，所述步骤(1)具体实现过程如下：

1-1采用在ImageNet上预训练过的ResNet50作为骨干网络，保留第一个池化后的阶段和主干部分的前三个阶段，去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层；

1-2从ResNet50中获得1-1中保留的一共4个阶段的特征信息，并构建多尺度特征级联模块，通过相邻层之间的两两融合获得行人特征信息。首先对阶段1获得的特征进行上采样和1x1卷积，特征图大小变为原来的两倍。然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合，如公式(1)(2)所示；

F_sc＝Contact(UpSample(F_s),F_b) (1)

F_agg＝conv_1×1(F_sc) (2)

其中F_s，F_b表示两个需要融合的特征，UpSample表示上采样操作，Contact为向量连接操作，F_agg为获得的融合特征。

进一步的，所述步骤(2)具体实现过程如下：

2-1对于获得的融合特征F_agg，按照子特征图大小ps进行分割，生成特征图序列

N为可分割的数量,再对x_P加上一个可学习的[SCALE_TOKEN]，[SCALE_TOKEN]的维度大小与x_P相同，如公式(3)所示：

其中

为第k个尺度生成的特征图序列；E_scale为[SCALE_TOKEN]，表示可学习的特征尺度；

综上对1-2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z，如公式(4)所示；

其中，x_cls为[CLS_TOKEN]全局特征向量；

分别为三个尺度的特征序列；E_pos为[POS_TOKEN]，表示空间位置。

进一步的，所述步骤(3)具体实现过程如下：

3-1为了充分利用多尺度信息，构建基于Transformer的行人多尺度特征提取模型。模型主要由多层堆叠的Transformer块构成，单个Transformer层由多头注意力机制(MSA)、层归一化(LN)和多层感知器(MLP)构成，单个Transformer块可公式化为(5)(6)：

Z′_l＝MSA(LN(Z_l-1))+Z_l-1 l＝1…L (5)

Z_l＝MLP(LN(Z′_l))+Z′_l l＝1…L (6)

其中，Z_l表示第l层Transformer块输出的特征，Z′_l为Transformer块内的中间结果,L为总层数。对于每张图像生成的多尺度特征Z，作为Transformer网络的输入，得到网络输出结果即为最后一层的输出特征。

进一步的，所述步骤(4)具体实现过程如下：

4-1获得Transformer模型输出特征Z_L后，将特征Z_L切分即可得到四组特征向量，即全局特征f_cls和三个不同尺度的特征f_{scale_1}、f_{scale_2}、f_{scale_3}。将不同尺度的特征进行双线性插值，再通过1*1卷积进行特征融合得到最终的局部特征f_final。之后按照行人结构，可将f_final划分为4个局部特征f₁、f₂、f₃、f₄。

进一步的，所述步骤(5)具体实现过程下：

5-1使用行人重识别数据集中标注数据作为监督信息，对每个训练批次采用ID损失和困难三元组损失训练网络。ID损失采用交叉熵损失训练网络，其公式如下：

其中N为行人类别数，q_i是监督标签，p_i是预测标签；

困难三元组损失通过随机采样P个身份，每个身份抽取K个实例，组成一个大小为P*K的mini batch；依次选取批次中的每个图片x_a作为锚点，选出批次中距离最远的正样本图片x_p和距离最近的负样本图片x_n组成三元组来训练网络，增强网络的泛化能力；其公式为：

5-2根据步骤(4)中提取的特征，ReID模型的整体损失函数利用全局特征和局部特征计算L_id和L_triplet来训练网络，具体可公式化为如下：

其中，k表示输出特征组数量；

5-3当模型稳定后，得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取，对比查询图片特征与测试集图片是否属于同一类，输出同类的行人图片。

本发明有益效果如下：

本发明设计了一个基于Transformer的多尺度行人重识别方法，通过基于ResNet特征级联模块采集不同尺度下的行人特征，不丢失低维度细节特征并引入高维度语义特征，这有利于模型从中学习更加健壮的行人特征，同时多尺度信息能够引导模型关注不同尺度下的行人特征，该模型从全局到局部，从浅层到深层挖掘行人潜在信息。其次，为充分利用行人细粒度局部特征，本发明设计了一个局部特征多尺度融合模块，将网络输出的各个尺度信息进行融合并切分，使得模型关注于行人不同部分、不同尺度下的特征信息。结果表明，这种方法提取的特征具有更好的鲁棒性，有效的提升了模型的泛化能力。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的基于ResNet50特征级联模块示意图；

图3是本发明的特征分割处理示意图；

图4是本发明的Transformer网络示意图；

图5是本发明的多尺度局部特征融合模块示意图；

图6是本发明的整体结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，本发明通过构建基于ResNet特征级联模块提取图像不同尺度的特征并两两级联，在保留细节特征的同时获得上层特征的支撑，并为每个patches加入[SCALE_TOKEN]，用于在transformer网络中指示不同尺度的特征信息。此外，充分利用网络的多尺度局部特征，挖掘不同部分、不同尺度下的行人之间潜在的信息，有效增强了模型的泛化能力。如图6所示的本发明包括以下步骤：

步骤(1)如图2所示，在残差网络ResNet50中引入特征级联分支，将相邻层不同尺度的特征图进行特征融合；

步骤(2)如图3所示，将(1)中融合后各个不同尺度的特征图进行特征分割，然后为每一个分割后的特征组加上可学***，再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN]，作为transformer的输入；

步骤(3)如图4所示，构建基于标准Transformer的行人特征提取网络，将(2)中获得的特征子图向量输入网络，获得行人特征；

步骤(4)如图5所示，将步骤(3)得到特征进行切分，将[CLS_TOKEN]向量作为全局特征，同时将不同尺度的局部特征进行融合并重新切分得到最终特征；

进一步的，所述步骤(1)具体实现过程如下：

F_sc＝Contact(UpSample(F_s),F_b) (1)

F_agg＝conv_1×1(F_sc) (2)

进一步的，所述步骤(2)具体实现过程如下：

其中

其中，x_cls为[CLS_TOKEN]全局特征向量；

进一步的，所述步骤(3)具体实现过程如下：

Z′_l＝MSA(LN(Z_l-1))+Z_l-1 l＝1…L (5)

Z_l＝MLP(LN(Z′_l))+Z′_l l＝1…L (6)

进一步的，所述步骤(4)具体实现过程如下：

进一步的，所述步骤(5)具体实现过程下：

其中N为行人类别数，q_i是监督标签，p_i是预测标签；

其中，k表示输出特征组数量；

Claims

1.一种基于Transformer的多尺度行人重识别方法，其特征在于包括以下步骤：

步骤一，在残差网络ResNet50中引入特征级联分支，将相邻层不同尺度的特征图进行特征融合；

步骤二，将步骤一中融合后各个不同尺度的特征图进行特征分割，然后为每一个分割后的特征组加上可学***，再加上表示位置的POS_TOKEN和全局特征CLS_TOKEN，作为transformer的输入；

步骤三，构建基于标准Transformer的行人特征提取网络，将步骤二中获得的特征子图向量输入网络，获得行人特征；

步骤四，将步骤三得到特征进行切分，将CLS_TOKEN向量作为全局特征，同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征；步骤4-1，获得Transformer模型输出特征Z_L后，将特征Z_L切分即可得到四组特征向量，即全局特征f_cls和三个不同尺度的特征f_{scale_1}、f_{scale_2}、f_{scale_3}；将不同尺度的特征进行双线性插值，再通过1*1卷积进行特征融合得到最终的局部特征f_final；之后按照行人结构，可将f_final划分为4个局部特征f₁、f₂、f₃、f₄；

步骤五，使用步骤四中得到的CLS_TOKEN向量和多尺度融合向量按照训练策略训练，得到最终的ReID模型；

步骤5-1，使用行人重识别数据集中标注数据作为监督信息，对每个训练批次采用ID损失和困难三元组损失训练网络；ID损失采用交叉熵损失训练网络，其公式如下：