CN111832348B

CN111832348B - 基于像素和通道注意力机制的行人重识别方法

Info

Publication number: CN111832348B
Application number: CN201910310802.5A
Authority: CN
Inventors: 王敏杰; 李现�; 张加焕; 肖江剑
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2022-05-06
Anticipated expiration: 2039-04-17
Also published as: CN111832348A

Abstract

本发明公开了一种基于像素和通道注意力机制的行人重识别方法，包括：根据人物的boundingbox(检索框)来提取行人的全局特征；将行人图片平均分为两部分和三部分，分别提取行人的局部特征；将提取到的人物特征与Gallery中的人物信息进行匹配，找出所需要的人物信息。其利用通道和像素注意力模块来进行特征提取，有效降低背景信息对检索结果的影响；同时，进一步为该神经网络设计了中层监督，在特征提取过程中，使用多损失函数对中层特征信息进行监督，加快网络收敛；本发明所提出的基于通道注意力机制，像素注意力机制和中间层监督的行人重识别网络，能够有效删除人物boudingbox中的冗余信息，使人物信息得到有效聚合，从而显著提高检索精度。

Description

基于像素和通道注意力机制的行人重识别方法

技术领域

本发明涉及一种行人重识别方法，特别涉及一种基于像素和通道注意力机制的行人重识别方法，属于图像处理技术领域。

背景技术

目前，国内国外的各种犯罪行为对社会的持续稳定发展造成了非常大的威胁。在商场、车站、机场和步行街等人流量比较大的场所，遍布着大大小小的监控设备，但是如何从这些监控信息中精确找出我们所需要的人或信息仍然是一个巨大的挑战。特别是在刑侦工作中，民警需要从大量长时间的监控信息中找到犯罪嫌疑人信息，及时了解其情况并进行控制。但是这些监控信息，数量庞大，内容复杂而且监控的视场角较小，快速准确地找出目标人物变得非常困难。尽管目前人脸识别技术已经非常成熟，被广泛应用于各个领域。但是在监控视频中由于相机分辨率和拍摄角度问题，我们无法捕捉到清晰有效的人脸图片，也就无法使用人脸识别技术来检索人物信息。

为了解决在复杂情况下的人物检索问题，行人重识别也称行人再识别技术应运而生。该技术使用计算机来检索人物信息，能够节省大量的人力物力。随着深度学习的发展，基于深度学习的重识别方法也成为行人重识别技术的主流。目前基于深度学习的重识别方法主要分为以下五类：基于表征学习、基于度量学习、基于局部特征、基于视频序列和基于GAN造图的重识别方法。

这些方法被广泛应用于人物重识别研究中，但是这些方法也存在着许多问题。基于表征学习的方法，使用全局特征作为特征向量，在特征提取上会损失很多细节特征，导致检索结果出现误差。基于度量学习的方法是通过神经网络来比较两张图片的相似距离，如何准确计算图片间的相似度仍然是一个需要研究的课题。基于局部特征的方式目前应用比较广泛，该方法将人物图片在垂直方向上分为几个部分，然后分别提取图片的局部特征。但是在划分图片时常常会因为人物的姿态等导致划分不准确的问题，严重影响***精确度。基于视频序列的重识别技术在如何删除冗余帧的问题上也需要进一步探索。基于GAN的方法生成的图片，目前一般只能作为负样本来使用，失真比较严重。

除了上述方法各自的缺陷之外，相机的低分辨率、遮挡、视角、姿态和光照变化等等因素也会对重识别***造成许多不良影响。目前基于深度学***均池化，对待图片中的各个通道和像素信息都“一视同仁”。特别是在boundingbox(检索框)中，包含了人物信息和背景信息，神经网络无法将两者进行区分，导致特征提取时将背景信息也作为人物特征的一部分，这会对整个重识别***的精度带来极大的负面影响。如何有效降低背景信息对重识别技术的影响，是一个巨大的挑战。

为了有效降低背景信息对检索结果的影响，本发明提出利用通道和像素注意力模块来进行特征提取。在最大池化和平均池化操作之前，应用通道和像素注意力模块，删除冗余信息，提高图片特征向量的有效性；同时，本发明基于神经网络提取行人的全局和局部特征，还进一步为该神经网络设计了中层监督，在特征提取过程中，使用多损失函数对中层特征信息进行监督，加快网络收敛，提高检索精度。

发明内容

本发明的主要目的在于提供一种基于像素和通道注意力机制的行人重识别方法，以克服现有技术中的不足。

为实现前述发明目的，本发明采用的技术方案包括：

根据人物的boundingbox(检索框)来提取行人的全局特征；

将行人图片平均分为两部分和三部分，分别提取行人的局部特征；

将提取到的人物特征与Gallery中的人物信息进行匹配，找出所需要的人物信息。

优选地，基于神经网络提取行人的全局和局部特征，所提取的行人的全局特征包括颜色和边缘特征，所提取的行人的局部特征包括行人在垂直方向上不同区域的颜色和边缘特征。

优选地，在提取行人的局部特征的过程中使用通道注意力模块和像素注意力模块来聚合人物特征信息，所述提取到的人物特征是经过神经网络进行特征聚合得到的人物特征信息，所述Gallery中人物信息是将Gallery中的图片输入已训练好的模型后输出的人物特征信息。

优选地，所述的基于神经网络提取行人的全局和局部特征，具体包括：

使用ResNet-50网络作为基础网络来提取图片特征，使用ResNet-50网络的前三层；之后将整个网络分为三个分支，在第一个分支中，提取图像的全局特征，第二个分支将特征张量在垂直方向上分为两部分，第三个分支将特征张量在垂直方向上分为三个部分；之后使用通道注意力模块来聚合特征信息，删除冗余的通道信息；然后使用最大池化来降维；最后使用1*1的卷积层，将特征向量的维度从2048降到256；

在ResNet网络的前三层，即layerl、layer2和layer3后加入中层监督，在中层监督模块中，使用像素注意力模块，来减小背景像素的值，增加人物像素的值。

优选地，所述的通道注意力模块，其实现过程如下：

将输入张量的尺寸设为H×W×C，记为X＝[x₁，x₂，…，x_c]，其中，H表示图像的高，W表示图像的宽，C表示通道；

第一步：对每个通道的特征信息进行降维，降维之后每个通道的特征以F_c进行表示，

其中，x_c(i，j)是通道c上位置(i，j)处的值，该公式对每个通道内张量求平均，可以起到特征聚合的效果；

第二步：使用滤波器对各个通道进行滤波处理，删除冗余信息；

其中，ω_c代表了赋予每个通道的权值，F_c代表了c通道的张量值，f₁代表了滤波操作；

第三步：进行升维操作；

其中，

为每个通道的权重，Z_c为最终每个通道的权重，f₂是升维操作函数，代表了卷积操作；

第四步：源张量赋予权重；

优选地，所述的像素注意力模块，其实现过程如下：

将输入张量的尺寸设为H×W×C，记为Y＝[y₁，y₂，…，y_c]，其中，H表示图像的高，W表示图像的宽，C表示通道；

第一步：基于如下公式(5)将通道数压缩为1，以便后续处理；

第二步：重新排列张量值；

E_α＝g₀(D)，α＝3·j+i (6)

第三步：进行筛选；

{I₁，I₂，…，I_c}＝g₁({η₁，η₂，…，η_α}·{E₁，E₂，…，E_α}) (7)

{J₁，J₂，…，J_α}＝g₂({γ₁，γ₂，…，γ_N}.{I₁，I₂，…，I_N}) (8)

第四步：将得到的向量恢复成原始的mapsize(特征图尺寸大小)；

K＝g₄(J) (9)

第五步：为每个像素赋予权重；

Y_result-c(i，j)＝K(i，j)·Y(i，j) (10)。

与现有技术相比，本发明的优点包括：

(1)采用本发明提出的利用通道和像素注意力模块来进行特征提取，在最大池化和平均池化操作之前，应用通道和像素注意力模块，删除冗余信息，提高图片特征向量的有效性；同时，本发明基于神经网络提取行人的全局和局部特征，还进一步为该神经网络设计了中层监督，在特征提取过程中，使用多损失函数对中层特征信息进行监督，加快网络收敛，提高检索精度；

(2)本发明提出了一个基于通道注意力机制，像素注意力机制和中间层监督的具有创新性的行人重识别网络。该网络能够有效删除人物boudingbox中的冗余信息，使人物信息得到有效聚合，从而显著提高检索精度；

(3)本发明使用Market1501，DukeMTMC-reID和CUHK03-NP三个数据集来验证实验效果，结果发现本发明的重识别网络相比其他方法在CMC和Map两个指标上都有了显著提高，特别是在CUHK03-NP数据集上。

附图说明

图1是本发明一典型实施案例中一种行人重识别的主要工作流程示意图；

图2是本发明一典型实施案例中包含通道和像素注意力机制的重识别网络结构示意图；

图3是本发明一典型实施案例中通道注意力模块结构图；

图4是本发明一典型实施案例中通道注意力模块的attentionmap；

图5是本发明一典型实施案例中像素注意力模块结构图；

图6是本发明一典型实施案例中一种像素注意力模块的attention map；

图7是本发明一典型实施案例在数据集Market1501、DukeMTMC-reID和CUHK03-NP上的检索结果示意图。

具体实施方式

鉴于现有技术中的不足，本案发明人经长期研究和大量实践，得以提出本发明的技术方案。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。

请参阅图1，图1中CA表示通道注意力模块，PA代表像素注意力模块，一种基于像素和通道注意力机制的行人重识别方法，包括：

首先需要根据人物的boundingbox来提取行人的全局特征；

然后将行人图片平均分为两部分和三部分，分别提取行人的局部特征，在此过程中使用了通道和像素注意力模块来聚合人物特征信息；

之后我们需要将提取到的人物特征与Gallery中的人物信息进行匹配，找出我们所需要的人物信息。

其中，所提取的行人的全局特征主要包括颜色和边缘等特征，行人的局部特征是指行人在垂直方向上不同区域的颜色和边缘等特征。

其中，Gallery中人物信息具体是指将Gallery中的图片输入已训练好的模型后输出的人物特征信息。“提取到的人物特征”指代经过神经网络进行特征聚合得到的人物特征信息。

其中，本发明是基于神经网络来提取全局和局部特征的，图2是本发明所提出的包含通道和像素注意力机制的重识别网络结构图，可以在整体网络结构图中看到，主网络的上层和三个分支网络都提取了人物的全局特征，而主网络的中层和下层则提取了人物的局部特征。

下面将介绍整个神经网络的具体细节：

(1)整体网络结构，如图2所示，图中PA为像素注意力模型，CA为通道注意力模型，Triplet_Loss为三元损失函数，CrossEntropy_Loss为交叉熵损失函数，Sum_Loss为总损失函数；该网络使用了ResNet-50网络作为基础网络提取图片特征。与基础网络不同之处在于，我们仅仅使用了ResNet-50网络的前三层，之后我们将整个网络分为三个分支。在第一个分支中，我们提取图像的全局特征，第二个分支将特征张量在垂直方向上分为两部分，第三个分支将特征张量在垂直方向上分为三个部分。之后我们使用了通道注意力模块来聚合特征信息，删除冗余的通道信息，然后使用最大池化来降维，最后使用1*1的卷积层，将特征向量的维度从2048降到256。同时如图2所示，我们在layer1、layer2和layer3后加入了中层监督，在中层监督模块中，我们使用了像素注意力模块，来减小背景像素的值，增加人物像素的值。下面是网络特征图的尺寸，如表1所示。

编号	模块	特征图尺寸	维度
				1	Layed	96×32	256
2	Layer2	48×16	512
				3	Layer3	24×8	1024
4	Branch_Global	12×4	2048
				5	Branch_Partl	24×8	2048
6	Branch_Part2	24×8	2048
				7	Channel Attention-l	12×4	2048
8	Channel Attention-2	24×8	2048
				9	Channel Attention-3	24×8	2048
10	Pixel Attention-1	96×32	256
				11	Pixel Attention-2	48×16	512
12	Pixel Attention-3	24×8	1024

表1.为网络特征图信息，输入图片的分辨率被设为384×128.

(2)通道注意力模块，其结构如图3所示。

在此之前，基于cnn的卷积神经网络对每个张量的各个通道都赋予相同的权重，但这与现实情况有出入，相同的权重导致无法删除冗余的通道信息，最后噪声进入最终的特征向量中，从而影响检索结果。通道注意力机制的关键是如何为每个通道赋予不同的权值；图3是我们设计的通道注意力模型结构图。

如图3所示，.AvgPool2d为自适应池化层，Conv2d为卷积层；我们将输入张量的尺寸设为H×W×C，记为X＝[x₁，x₂，…，x_c]，第一步我们需要对每个通道的特征信息进行降维。降维之后每个通道的特征以F_c进行表示，

其中x_c(i，j)是通道c上位置(i，j)处的值。该公式对每个通道内张量求平均，可以起到特征聚合的效果。

然后我们使用滤波器对各个通道进行滤波处理，删除冗余信息。

在式子(2)中，ω_c代表了赋予每个通道的权值，F_c代表了c通道的张量值，f₁代表了滤波操作。

之后进行升维操作。

在式子(3)中

为每个通道的权重，Z_c为最终每个通道的权重，f₂是升维操作函数，在结构图中代表了卷积操作；最后为源张量赋予权重。

图4是通道注意力模块的attention map(注意力特征图)，其中，“Input image”即为模型的输入图片，根据整体网络结构图可知，我们在主网络的上、中、下三个分支中使用了通道注意力模块；”No-CA1”为无通道注意力模型的注意力特征图，”CA1”为加入通道注意力模型后的注意力特征图；

图4右侧的6幅图像显示了使用注意力模块后模型的特征聚合效果，图中高亮部分代表了该部分的特征对检索结果具有重要影响。我们可以看到在使用CA(通道注意力模块)后，神经网络能够将背景信息进行有效删减，人物特征得到加强，对检索结果具有积极的影响。

(3)像素注意力模块，其结构如图5所示。

在本发明中，我们将像素注意力模块应用到了中层监督分支中，与通道注意力一样，我们将输入张量的尺寸设为H×W×C，记为Y＝[y₁，y₂，…，y_c]，第一步的具体操作如下公式所示，

这步操作将通道数压缩为1，以便后续的处理。然后如图5所示，重新排列张量值。

E_α＝g₀(D)，α＝3·j+i (6)

然后我们将其进行筛选，与通道注意力相似。

{J₁，J₂，…，J_α}＝g₂({γ₁，γ₂，…，γ_N}·{I₁，I₂，…，I_N}) (8)

然后将得到的向量恢复成原始的mapsize。

K＝g₄(J) (9)

最后我们为每个像素赋予权重。

Y_result-c(i，j)＝K(i，j)·Y(i，j) (10)。

图6是像素注意力模块的attention map，与通道注意力attention map相类似，我们在layerl、layer2和layer3三个分支中使用了像素注意力模块；.其中，”No-PA1”为无像素注意力模型的注意力特征图，”PA1”为加入像素注意力模型后的注意力特征图；从图6可以明显看出，在使用了像素注意力模块后，环境信息得到了有效删减，人物的特征信息进一步加强，使检索结果得到了加强。

本发明提出了一个基于通道注意力机制，像素注意力机制和中间层监督的具有创新性的行人重识别网络。该网络能够有效删除人物boudingbox中的冗余信息，使人物信息得到有效聚合，从而显著提高检索精度。

(4)本发明的技术效果

本发明主要使用Marketl501，DukeMTMC-reID和CUHK03-NP三个数据集来验证实验效果。表2-4分别示出了在数据集Market1501、DukeMTMC-reID、CUHK03-NP上的对比结果。其中，RK代表了re-ranking算法。

表2.在数据集Market1501上的对比结果，RK代表了re-ranking算法

表3.在数据集DukeMTMC-relD上的对比结果，RK代表了re-ranking算法

表4.在数据集CUHK03-NP上的对比结果，RK代表了re-ranking算法

从表2-4上可以看出本发明中的重识别网络相比其他方法在CMC和Map两个指标上都有了显著提高，特别是在CUHK03-NP数据集上，在CUHK03-labeled和CUHK03-detected上精度分别达到了rank1/mAP＝80.9/78.7和rank1/mAP＝78.9/76.4，效果远远超过其他re-ID方法。

表5是消融实验结果，该实验分别测试了backbone、backbone+CA和backbone+CA+PA三个网络结构在DukeMTMC-reID和CUHK03数据集上的效果，可以看出本发明提出的CA和PA模块对原神经网络的检索效果的提升有显著的效果。

表5.消融实验结果

图7为使用本发明在数据集Marketl501、DukeMTMC-reID和CUHK03-NP上的检索结果图，.四个重识别数据集的检索结果，浅色代表正确结果，深色代表错误结果。

应当理解，上述实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于像素和通道注意力机制的行人重识别方法，其特征在于，包括如下步骤：

根据人物的检索框来提取行人的全局特征；

将行人图片平均分为两部分或三部分，分别提取行人的局部特征，基于神经网络提取行人的全局和局部特征，所提取的行人的全局特征包括颜色和边缘特征，所提取的行人的局部特征包括行人在垂直方向上不同区域的颜色和边缘特征，并且，具体包括：使用ResNet-50网络作为基础网络来提取图片特征，使用ResNet-50网络的前三层；之后将整个网络分为三个分支，在第一个分支中，提取图像的全局特征，第二个分支将特征张量在垂直方向上分为两部分，第三个分支将特征张量在垂直方向上分为三个部分；之后使用通道注意力模块来聚合特征信息，删除冗余的通道信息；然后使用最大池化来降维；最后使用1*1的卷积层，将特征向量的维度从2048降到256；

在ResNet网络的前三层，即layer1、layer2和layer3后加入中层监督，在中层监督模块中，使用像素注意力模块，来减小背景像素的值，增加人物像素的值；

在提取行人的局部特征的过程中使用通道注意力模块和像素注意力模块来聚合人物特征信息，所述提取到的人物特征是经过神经网络进行特征聚合得到的人物特征信息，Gallery中人物信息是将Gallery中的图片输入已训练好的模型后输出的人物特征信息；

2.根据权利要求1所述的基于像素和通道注意力机制的行人重识别方法，其特征在于，所述的通道注意力模块，其实现过程如下：

第一步：对每个通道的特征信息进行降维，降维之后每个通道的特征以Fc进行表示，