CN113051962B

CN113051962B - 基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法

Info

Publication number: CN113051962B
Application number: CN201911366078.4A
Authority: CN
Inventors: 何小海; 苏婕; 卿粼波; 吴小强; 许盛宇; 吴晓红; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-11-04
Anticipated expiration: 2039-12-26
Also published as: CN113051962A

Abstract

本发明公开了一种基于联合注意力机制孪生Margin‑Softmax网络的行人重识别方法。首先提出一个具有空间‑通道联合注意力机制的AAM‑Softmax识别模型，将局部特征和全局特征进行结合，并将度量学习融于分类中，有利于提升特征的辨别力。然后提出一个结合识别损失和验证损失的孪生Margin‑Softmax网络，将训练好的AAM‑Softmax识别模型作为两个权值共享子网络的特征编码器以提取图像对特征，在识别损失和验证损失的联合监督下进行训练该网络，可有效学习出具有辨别力的特征用于行人重识别。与主流行人重识别方法相比，本发明方法可获得更优的性能。本发明可有效应用于智能监控及公共安全等领域。

Description

基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法

技术领域

本发明涉及行人重识别技术，具体涉及一种基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法，属于计算机视觉领域。

背景技术

行人重识别(Person re-ID)是计算机视觉的重要研究课题，目前已广泛用于视频监控和公共安全领域。行人重识别是利用计算机视觉技术，跨设备检索图像/视频序列中是否存在特定行人的技术。行人重识别研究主要集中于特征表示(Feature Representation)和度量学习(Metric Learning)两方面。随着深度学习的发展，行人重识别取得了很大的突破。深度度量学习旨在通过网络学习深度嵌入特征之间的相似度(同一行人的不同图像相似度高于不同行人的不同图像)，其方法是缩小特征类内距离，同时增大特征类间距离。但是，度量学习对所选样本对的依赖性较高，并且只考虑了部分样本，而没有考虑特征空间样本的全局结构。在深度特征表示方面，通过卷积神经网络(Convolutional NeuralNetwork，CNN)自动提取图像的特征表示。行人重识别通常被看作是分类/识别问题或验证问题。分类/识别任务是指利用行人的ID或属性作为标签来训练分类网络，而验证任务是指是判断输入图像对是否属于同一个人。识别模型具有丰富的ID标签，但其训练目标并未考虑相似性度量，而验证模型在训练阶段进行相似性度量，但其训练标签很弱(相同/不同两类标签)，而且没有考虑图像对与数据集中其他图像之间的关系。因此，将两种模型的优势进行结合，可以有效训练出具有辨别力的嵌入特征。

发明内容

本发明为解决上述问题提供了一种基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法。该网络具有两个权值共享的子网络，分别识别一对输入图像的ID；同时，计算两个子网络提取的嵌入特征之间的距离，用以验证输入图像对是否属于同一个人。该网络在识别损失和验证损失(均为Margin-Softmax损失)的联合监督下进行训练，可有效地学习出具有辨别力的嵌入特征用于行人重识别。

本发明通过以下技术方案来实现上述目的：

1、本发明提供一个具有空间-通道联合注意力机制的AAM-Softmax识别模型，其步骤及要求如下：

(1)提供一个AAM-Softmax识别模型，该模型的特征嵌入模块(Feature EmbeddingModule)由ImageNet预训练的Resnet_50、全局平均池化(Global Average Pooling，GAP)层和批归一化(Batch Normalisation，BN)层以及空间-通道联合注意力机制构成，用于从原始输入图像中提取特征。采用附加角度余量Softmax(Additive Angular Margin Softmax，AAM-Softmax)作为分类器，在训练阶段，以每个行人的ID作为标签进行训练。AAM-Softmax通过对Softmax施加附加角度余量惩罚，可在超球面空间上同时提升类内特征的紧凑性和类间特征的差异性，从而学习具有辨别力的特征。Softmax分类器已广泛用于深度学习中，softmax损失表达式如式(1)所示：

在softmax损失函数中，

被称为目标logit(target logit)。AAM-Softmax损失将标准softmax损失中的偏置b_j设置为常数0。target logit

则可以表示为

其中θ_j是W_j和x_i之间的夹角。分别将W_j和x_i进行l₂正则化处理(||W_j||＝1，||x_i||＝1)，即分别将W_j和x_i映射到超球面流形(Hypersphere Manifold)上。因此，target logit

等价于余弦距离

然后在角度空间上对

施加一个附加角度余量约束m，以提高特征的辨别力。然后对所有的logit项乘以特征缩放因子s进行重新缩放。因此，softmax损失转换为AAM-Softmax损失，其表达式如式(2)所示：

(2)空间-通道联合注意力机制，该联合注意力机制在不增加任何额外的学习参数的情况下，可对空间和通道中含有重要信息的局部特征进行关注。首先将Resnet_50提取的特征图谱

通过空间注意力机制，对每一个通道的对应位置进行求和操作，得到空间求和矩阵

其表达式如式(3)所示：

将A(i，j)重新整形成向量a(i，j)，并通过softmax激活函数，便可得到每一空间位置的权重，其表达式如式(4)所示：

将空间位置权重与特征图谱对应点相乘，所得结果再与原始特征图谱相加，便可得到空间注意力特征图谱

表达式如式(5)所示：

通过GAP层，空间注意力特征图谱

被池化为向量

然后再将其输入通道注意力机制，最终便可得到嵌入特征向量

通道注意力机制与空间注意力机制原理相同，其表达式如式(6)～(7)所示：

2、本发明提供一个结合识别损失和验证损失的孪生Margin-Softmax分类网络，用于行人重识别，该网络不仅考虑了每个样本之间的关系，而且在训练过程中考虑了特征之间的相似性度量。其步骤及要求如下：

(1)提过一个孪生网络，该网络的两个子网络权值共享。用AAM-Softmax损失函数预训练的识别模型作为子网络的特征编码器(Feature Encoder)，用于从输入图像对提取深度特征

将f_a,f_b输入定义为f_s＝(f_a-f_b)²的距离测量模块(DistanceMeasurement Modul)，从而得到距离特征

(2)在识别损失和验证损失的共同监督下，训练此网络。一方面，分别识别深度特征f_a,f_b所属ID；另一方面，将距离特征f_s输入二分类网络(相同/不同)，验证输入图像对是否属于同一人的ID。验证损失和识别损失均采用组合余量Softmax(Combined Margin-Softmax)，其表达式如(8)所示：

其中，m₁,m₂和m₃分别代表乘性角度余量、附加角度余量和余弦余量。网络的总损失函数如式(9)所示：

L_total＝αL_iden1+βL_iden2+γL_ver (9)

其中，α,β,γ分别代表验证损失1、2和识别损失的权重。

附图说明

图1是本发明提出的具有空间-通道联合注意力机制的AAM-Softmax识别模型

图2是本发明提出的空间-通道联合注意力机制示意图

图3是本发明提出的结合识别损失和验证损失的孪生Margin-Softmax网络行人重识别方法

具体实施方式

下面结合附图对本发明作进一步说明：

如图1所示，具有空间-通道联合注意力机制的AAM-Softmax识别模型的行人重识别方法，具体可以分为以下三个步骤：

(1)构建具有空间-通道联合注意力机制的AAM-Softmax识别模型；

(2)利用训练图像，训练步骤(1)中构建的模型；

(3)对该模型进行测试，以评估该模型的性能。

具体地，所述步骤(1)中，构建如图1所示的具有空间-通道联合注意力机制的AAM-Softmax识别模型。所构建的模型由特征嵌入模块和具有AAM-Softmax分类器的全连接层构成。特征嵌入模块包括由ImageNet预训练的Resnet_50、全局平均池化层和批归一化层以及空间-通道联合注意力机制，用于从原始输入图像中提取2048维特征。

所述步骤(2)中，我们首先将数据库训练集图像尺寸调整为256×128，输入步骤(1)中所构建的模型，以输入图像的ID作为标签来训练模型。损失函数采用AAM-Softmax损失(在本发明中，s＝30，m＝0.005)，通过参数迭代完成模型训练；

所述步骤(3)中，对步骤(2)训练的模型性能进行测试，分别提取查询图像集和图库图像集的特征，并一一计算两者之间的相似性，按照最近邻搜索方法进行排序。采用Rank-1得分和平均精度均值(mean Average Precision，mAP)作为评估指标，以评估模型的性能。

为了验证本发明方法的有效性，在三个行人重识别数据集Market1501、DukeMTMC-reID和CUHK03-NP上进行实验。并进行三组对比实验，对比实验①：图像尺寸调整为224×224，模型为无联合注意力机制的模型，以Softmax损失训练模型；对比实验②：图像尺寸调整为224×224，模型为联合注意力机制的模型，以AAM-Softmax损失训练模型；对比实验③：图像尺寸调整为256×128，模型为无联合注意力机制的模型，以AAM-Softmax损失训练模型。表一为四组实验方法在三个数据集上的评估结果。

表一

从表一可看出，本发明提出的具有空间-通道联合注意力机制的AAM-Softmax识别模型在两个评估指标上都取得了最高的值，并且提升比较明显。分析实验结果，可以得出结论，AAM-Softmax方法可以获得比标准softmax方法更好的性能。这是因为AAM-Softmax中的附加角角度余量约束可在超球面空间中缩小类内特征距离并同时扩大类间特征距离，从而将度量学习集成到分类中，以增强特征的辨别力。另外，由于输入的宽高比更符合自然情况，因此使用图像(尺寸为256×128)训练的模型要优于使用图像(尺寸为224×224)训练的模型。此外，由于联合空间-通道注意力机制可以将局部特征与全局特征相结合，以学习更强的辨别特征，因此本发明提出的具有联合空间-通道注意力机制的AAM-Softmax识别模型可以获得更好的性能。

如图2所示，空间-通道联合注意力机制示意图，该联合注意力机制包括空间注意力机制和通道注意力机制两部分。该联合注意力机制在没增加任何额外学习参数的情况下，引导模型关注空间和通道中重要的局部信息，有利于更好地学习具有辨别力的特征。

如图3所示，结合识别损失和验证损失的孪生Margin-Softmax网络的行人重识别方法，具体可以分为以下三个步骤：

(1)构建结合识别损失和验证损失的孪生Margin-Softmax网络；

(2)利用训练图像对，训练步骤(1)中构建的网络；

(3)对该网络进行测试，以评估本发明方法的性能。

具体地，所述步骤(1)中，构建如图3所示的结合识别损失和验证损失的孪生Margin-Softmax网络。所构建的孪生网络具有两个权值共享的子网络。采用图1中AAM-Softmax损失函数预训练的识别模型作为子网络的特征编码器，用于从输入图像对提取深度特征f_a,f_b(2048维)。一方面，分别识别深度特征f_a,f_b所属ID；另一方面，计算f_a,f_b的距离特征f_s(2048维)输入二分类网络(相同/不同)，验证输入图像对是否属于同一人的ID。

所述步骤(2)中，我们首先将数据库训练集以图像对的形式输入(尺寸调整为256×128)。网络总损失函数由识别损失1、2和验证损失(均采用Combined Margin-Softmax)共同构成(在本发明中，α＝0.5,β＝0.5,γ＝1)。表二、表三为识别损失和验证损失中Combined Margin-Softmax的参数设置，通过参数迭代完成模型训练。

表二

表三

所述步骤(3)中，对步骤(2)训练的网络进行测试，采用Rank-1得分和mAP作为评估指标，以评估模型的性能。

为了验证本发明方法的有效性，在三个数据集Market1501、DukeMTMC-reID和CUHK03-NP上进行实验。表四为实验评估结果与其他主流行人重识别方法在三个数据集上的对比。

表四

从表四可以看出，与几种主流行人重识别方法相比，本发明方法在Market-1501、DukeMTMC-reID和CUHK03-NP数据集上可以得到更高的性能，证明了本发明方法的有效性。

Claims

1.基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法，其特征在于包括以下步骤：

步骤一：构建具有空间-通道联合注意力机制的AAM-Softmax识别模型，所构建的模型由特征嵌入模块和具有AAM-Softmax分类器的全连接层构成，特征嵌入模块包括由ImageNet预训练的Resnet_50、全局平均池化层和批归一化层以及空间-通道联合注意力机制，用于从原始输入图像中提取2048维特征；

步骤二：利用训练图像，训练步骤一中构建的模型，首先将数据库训练集图像尺寸调整为256×128，输入步骤(1)中所构建的模型，以输入图像的ID作为标签来训练模型；损失函数采用AAM-Softmax损失，通过参数迭代完成模型训练；

步骤三：利用步骤二中训练好的模型作为特征编码器，构建结合识别损失和验证损失的孪生Margin-Softmax网络，该网络的两个子网络权值共享，用AAM-Softmax损失函数预训练的识别模型作为子网络的特征编码器(Feature Encoder)，用于从输入图像对提取深度特征

将f_a,f_b输入定义为f_s＝(f_a-f_b)²的距离测量模块(Distance MeasurementModul)，从而得到距离特征

步骤四：在识别损失和验证损失的共同监督下，训练此网络；一方面，分别识别深度特征f_a,f_b所属ID，另一方面，将距离特征f_s输入相同或不同的二分类网络，验证输入图像对是否属于同一人的ID；验证损失和识别损失均采用组合余量Softmax(Combined Margin-Softmax)，其表达式如(1)所示：

其中，m₁,m₂和m₃分别代表乘性角度余量、附加角度余量和余弦余量，网络的总损失函数如式(2)所示：

L_total＝αL_iden1+βL_iden2+γL_ver (2)

其中，α,β,γ分别代表验证损失1、2和识别损失的权重；

步骤五：对步骤四中训练的网络进行测试，采用Rank-1得分和mAP作为评估指标，以评估该网络的性能。

2.根据权利要求1所述的基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法，其特征在于步骤一中所构建的识别模型加入空间-通道联合注意力机制，在不加入任何额外学习参数的情况下，关注空间和通道重要的局部特征。

3.根据权利要求1所述的基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法，其特征在于步骤一中所采用AAM-Softmax损失对模型进行训练，将度量学习融于分类器中，从而提升特征的辨别力。

4.根据权利要求1所述的基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法，其特征在于步骤三中所构建的孪生网络结合识别损失和验证损失(均为CombinedMargin-Softmax损失)，在两者的共同监督下训练网络。