CN111738143B

CN111738143B - 一种基于期望最大化的行人重识别方法

Info

Publication number: CN111738143B
Application number: CN202010567949.5A
Authority: CN
Inventors: 周非; 陈文峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-04-19
Anticipated expiration: 2040-06-19
Also published as: CN111738143A

Abstract

本发明涉及一种基于期望最大化的行人重识别方法，属于计算机视觉应用领域。首先利用残差卷积神经网络ResNet50作为特征提取的骨干网络对输入行人进行中间特征的提取；构建注意力模块，特征经过模块中Non‑Local操作中的协方差运算捕获不同区域间的关联信息，再采用EM算法对特征进行注意力稀疏重构，在对特征中潜在变量进行挖掘的过程中来减小特征的冗余程度，增强有效特征信息的表征能力；采用三元组损失函数、交叉熵损失函数和中心损失函数对网络进行联合训练。本发明能够捕获具有较强辨识度的特征；并能够很好地减少特征的冗余程度，得到具有低秩特征的注意力特征图，进一步提高识别率。

Description

一种基于期望最大化的行人重识别方法

技术领域

本发明属于计算机视觉领域，涉及一种基于期望最大化的行人重识别方法。

背景技术

行人重识别(Person Re-Identification，Re-ID)也被称为跨境追踪，是计算机视觉领域的重要研究内容之一，在视频监控、智能安防、行人身份验证、人机交互等领域扮演着至关重要的角色。行人重识别的目的是在非重叠多摄像头拍摄的不同视角、时间和地点的场景中，给定一张查询的行人图像，从大规模行人图库中检索出同一身份的行人图像。与人脸识别相比，行人重识别场景更接近现实环境，但也更容易受到光照变化、行人姿势改变、背景切换、拍摄角度不一等影响，给行人重识别带来了巨大的挑战。

目前行人重识别的研究主要分为两种思路：基于特征表示学习的方法和基于度量学习的方法。基于特征表示学习的方法是将行人重识别视为分类问题，即将每个相同ID的行人归为一类。因此，此类方法的主要任务就是从每个ID行人图像中学习出更加具有辨识度的特征，减小分类的难度。基于度量学习的方法通过将高维的行人图像映射到低维的特征空间来度量模型嵌入特征之间的语义相似性，使得特征之间的类内距离减小，类间距离增大。传统特征表示学习方法是通过手工设计特征描述子来描述特征，而近几年得益于深度学习的发展，基于深度学习提取的特征相比手工特征具有更高的辨识能力。但是神经网络对于通过层次结构自动学习得到的特征是等同对待的，事实上不同特征对于行人重识别任务的作用是不同的，而且如特征区域间相关联系对特征的表征能力是有增益的，这往往会被普通的卷积网络所忽视。

注意力机制能促使神经网络重新分配计算资源，将计算资源分配给更加重要的任务。在行人重识别任务上，注意力机制主要聚焦于捕获对任务有意义的信息，增强特征的表征能力，减小背景、遮挡等无用信息带来的干扰。文献“Hu,Jie等人，Squeeze-and-Excitation Networks[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2017”提出建模特征通道之间的相关性，筛选出响应最大的通道的特征，这为后续注意力机制的发展提供了一定思路。基于自注意力的方法在计算机视觉任务上也逐渐得到了许多应用。自注意力机制通过关注特征图所有位置并在嵌入空间中取其加权平均值来表示图片中某位置处的响应。例如，文献“Xiaolong Wang等人，Non-local neuralnetworks.In CVPR,pages 7794–7803,2018”提出Non-Local思想，计算各像素间的相似度，从而能很好的捕获行人各像素之间的关联，这种关联信息对行人重识别任务是有增益的，这也是以往的方法所忽视的地方，但是此类方法中涉及图像中每个像素与其他像素之间相关性的计算，会造成模型参数量剧增，同时使得特征存在很大冗余。

综上所述，目前在行人重识别技术领域存在的问题是：1)行人重识别中，数据集图像分辨率低，提取的特征表征力不够，导致重识别精度低；2)行人重识别中，提取的特征是高维的，分类边界过于复杂；3)行人重识别中，经过自注意力建模的网络虽然能带来区域关联信息的增加，却也增加了其他特征的冗余程度。

发明内容

有鉴于此，本发明的目的在于提供一种基于期望最大化的行人重识别方法，该方法针对神经网络提取的特征表征能力不足且冗余度过高等问题，引入协方差作为相关运算的Non-Local操作，对特征图各区域进行相关性建模，且引入EM(ExpectationMaximization)算法对特征进行低秩重构，最大化挖掘冗余特征中最具辨别力的信息，即注意力信息。

为达到上述目的，本发明提供如下技术方案：

一种基于期望最大化的行人重识别方法，该方法包括以下步骤：

S1：对输入的训练和测试图像进行不同预处理操作；

S2：构建ResNet50骨干网络，并将ResNet50分成Stage1-4四个阶段，依次提取由浅入深的特征信息；

S3：构建一个注意力模块，此模块输入输出维度一致，可***ResNet50的Stage-2和Stage3阶段，模块中包括两个部分：用协方差作为相关函数的Non-Local操作与EM算法对特征进行重构的操作；

S4：在骨干网络ResNet50提取特征后将网络分成两个分支：全局分支GlobalBranch、局部分支Local Branch，全局分支提取行人完整特征，局部分支提取经过特征擦除操作后特征；

S5：利用三元组Triplet损失函数、交叉熵Cross Entropy损失函数及中心Center损失函数联合对两个分支提取的训练集特征向量分别进行训练；

S6：将Gallery的行人图像集输入S5训练好的模型中，从而得到一个行人特征数据库，库中每个特征都对应唯一一个行人ID；

S7：向CNN模型中输入Query查询图像得到输入特征，将此特征与S6中特征库中行人特征进行相似度度量，按相似度从大到小排序，返回用户指定数量的行人图像。

可选的，在步骤S1中的预处理操作包括：

随机水平翻转，即以给定的概率翻转输入的图像集合；

图像旋转，即以一定的角度旋转输入行人图像；

色彩增强，即随机更改输入RGB图像每个通道的强度。

可选的，在步骤S2中，在骨干网ResNet50的Stage3和Stage4两个阶段用空洞卷积Dilated Convolutions进行对特征进行卷积操作，从而获得更大的特征图，得到足够的特征信息。

可选的，在步骤S3中，构建注意力模块的分为两个阶段：

阶段1：对输入特征进行Non-Local计算，相关度通过计算像素间协方差来获得，Noo-Local核心算子如下：

其中x为输入特征图，f(·,·)函数计算像素i和像素j之间的相关度，g(x_j)函数计算特征图在像素j上的映射，C(x)表示归一化系数，y_i表示i像素以外的所有其他像素经过g函数变换后的加权平均，权重为归一化的相似度函数；

阶段2：经过二阶统计量协方差捕获了丰富的区域间相关信息，同时带来一部分高冗余度特征，采用EM算法对冗余特征进行稀疏重构；EM算法假设X＝{x₁,x₂,…,x_N}为所得特征信息集合，由N个观察样本组成，每个数据点x_i都有对应的潜在信息z_i，即最具表征力的特征信息；{X,Z}为完整的数据，其似然函数为lnp(X,Z|θ)，其中θ是模型中所有参数的集合；实际上Z中潜在信息的知识来源于后验分布p(X,Z|θ)；EM算法通过求期望(E)和最大化期望(M)这两步操作来最大化lnp(X,Z|θ)的似然值；

E：Q(θ,θ⁽ⁱ⁾)＝E_Z[lnp(X,Z|θ)|X,θ⁽ⁱ⁾]

＝∑_Zlnp(X,Z|θ)P(Z|X,θ⁽ⁱ⁾)

其中，p(Z|X,θ⁽ⁱ⁾)是在给定特征信息数据X和第i次参数估计θ⁽ⁱ⁾下隐变量数据Z，即注意力信息的概率分布；M步通过将E步求得的期望最大化来更新参数得到第i+1次迭代的参数估计值θ⁽ⁱ⁺¹⁾：

可选的，在步骤S4中，全局分支Global Branch提取特征后通过一个全局平均池化层GAP将每个特征图池化为为2048×1的特征向量，再经过特征缩减为512×1的向量；局部分支Local Branch采用Batch DdropBlock对每批输入特征的相同区域进行一定比例的擦除，之后使用全局最大池化层GMP来代替全局平均池化层产生2048维的最大特征向量，经过降维后局部分支特征变成512维。

可选的，在步骤S5中，采用多个损失函数联合训练，三元组损失函数使得任意目标样本与正样本之间的距离最小，与负样本之间的距离最大，公式如下：

其中，

表示目标样本与正样本之间的距离，

表示目标样本与负样本之间的距离，m为三元组损失的阈值；

交叉熵描述两个概率分布之间的距离，当交叉熵越小说明二者之间越接近，公式如下：

其中，k∈{1,2,…,K}表示行人重识别网络输出行人类别，p(k)代表输入图像属于类别k的预测概率，q(k)代表实际概率；

中心损失函数能将同类样本之间的距离缩小，使其相似性变大，公式如下：

其中，c为样本类中心；最终的损失函数是以上三个损失函数加权和，即：

L_total＝L_triplet+γ_iL_id+γ_cL_center。

本发明的有益效果在于：

(1)本发明通过协方差运算获取特征区域间的关联，能给特征带来丰富的二阶统计信息，增强了特征的表征力。

(2)本发明用期望最大化算法对特征进行重建，重建过程中通过E和M两步多次迭代来更新注意力信息和模型参数，最终达到收敛状态后用收敛的注意力信息和模型参数重建特征，重建的特征相比原特征具有更低的冗余性；

(3)实验结果表明，本发明方法与传统的空间注意力和通道注意力相比具有较高的重识别精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例提供的行人重识别***总体流程示意图；

图2为本发明实施例提供的注意力模块结构示意图；

图3为本发明注意力模块可视化注意力图；

图4为本发明算法在Market1501、DukeMTMC数据集下CMC曲线对比图；

图5为本发明算法在CUHK03-labeled数据集下CMC曲线对比图；

图6为本发明算法在CUHK03-deteced数据集下CMC曲线对比图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

图1是本发明实施例提供的基于期望最大化算法的行人重识别方法流程示意图，如图所示，包括以下步骤：

S1：对输入的训练和测试图像集进行不同预处理操作。

本步骤中，所输入的训练和测试数据集为Market-1501，DukeMMC-reID和CUHK03三个公开行人数据集。

Market1501数据集是清华大学用6个摄像头拍摄的包含1501个不同行人、32668个检测到的行人矩形框。训练集有751个行人，包含12936张图像；测试集有750人，包含19732张图像。测试时，用3368张包含750个行人的图像作为查询集来识别测试集中的正确行人身份。

DukeMMC-reID数据集包含8个摄像头拍摄的1812个身份的36411幅行人图像。训练集中有702个不同身份行人，共16522张训练图像；测试集包含17661张测试图像；查询图像集由另外702个身份的2228张图像组成。

CUHK03数据集包含1467个身份的14097张图像。此数据集提供了两种边界框，分别是由手动标注的边界框和由DPM检测到的边界框，分别记为“labeled”和“detected”两个集合。在训练集中有767个身份行人，测试集中有700个身份行人。CUHK03有两种测试协议，本发明采用新的测试协议，新协议类似于Market-1501，将数据集分为包含767个行人的训练接和包含700行人的测试集。

表1实验数据集简介

数据集	时间	行人数	图像数	相机数
					Market1501	2015	1501	32668	6
DukeMTMC-reID	2017	1812	36441	6
					CUHK03	2014	1467	13164	10

本发明使用两个评价标准来评估所有数据集上模型的性能。第一个评价标准为累计匹配特征(Cumulative Matching Characteristic,CMC)曲线，它表示在前k个匹配结果中找到正确的匹配项的概率值。CMC将行人重识别问题看成排序问题，用Rank-k表示，若Rank-k的识别率为P，则表示正确目标在排名结果前k个的概率为P。第二个评价标准为平均精度均值(Mean Average Precision,mAP)，它将行人重识别问题看成目标检索问题。mAP能评估模型的整体性能的好坏。

S3：构建一个注意力模块，此模块输入输出维度一致，可***ResNet50的Stage-2和Stage3阶段，

具体步骤为，注意力模块中包括F和B两个阶段，即用协方差作为相关函数的Non-Local操作与EM算法对特征进行重构的操作。如图2所示是本发明实施例提供的注意力模块结构示意图。因为行人身体各个部分之间存在一定的关联，故F部分引入二阶统计量协方差来捕获特征图空间非局部区域之间的相关性。

给定输入特征图X∈R^h×w×c，h和w分别为特征图的高度和宽度，c表示特征图的通道数。将X的空间维度压缩到一维，变成X∈R^hw×c，之后通过一个1×1卷积、批归一化层和一个ReLU激活函数构建θ(x)和g(x)两个函数，从而得到两个维度为

的特征图，其中r为特征通道缩减倍数。接着用θ(x)计算协方差矩阵，公式如下：

其中

I为单位矩阵，

的维度为hw×hw。将

作为尺度缩放因子与协方差矩阵相乘后通过softmax函数，再与g(x)进行矩阵乘法，得到X'：

考虑到F阶段在引入二阶统计量的同时也带来了大量的冗余特征信息，给行人重识别任务带来负面影响。为此我们引入期望最大化(EM)算法用少量的特征描述子对F部分输出的特征进行重建，重建后的特征具有低秩特性。

B阶段由三步构成，分别是期望(E)操作、最大化(M)操作以及特征重建操作。EM算法用于求解含有隐变量模型的最大似然解，这里将隐变量视为映射矩阵Z，模型参数即为K个描述子。B阶段输入的特征图为X'∈R^hw×c/r，描述子的初始值为u∈R^k×c/r。E步更新映射矩阵Z∈R^hw×k(注意力图)，如下式所示：

Z＝softmax(λX'(u^T))

其中，λ作为超参数控制Z的分布，默认取值为1。

M步更新描述子u(参数)，这里u被算作X'的加权平均，第k个描述子被更新为：

E步和M步交替执行T步，直到u和Z近似收敛。此时将u和Z用来对X'进行重新估计得到X”，即：

X”＝Zu

最后重构的X”∈R^hw×c/r通过一个1×1卷积将通道数恢复，并与最原始特征图X相加得到X”'：

X”'＝X+X”

注意力模块伪代码如下：

表2注意力模块算法框架

S4：在骨干网络ResNet50提取特征后将网络分成两个分支：全局分支(GlobalBranch)、局部分支(Local Branch),全局分支提取行人完整特征，局部分支提取经过特征擦除操作后特征。

S5：利用三元组(Triplet)损失函数、交叉熵(Cross Entropy)损失函数及中心(Center)损失函数联合对两个分支提取的训练集特征向量分别进行训练；

图3表示本发明注意力模块中EM算法迭代收敛后产生的注意力特征图，由图可以看出EM算法通过迭代可以将模型的注意力引导到行人身上，而在一定程度上忽略背景信息带来的干扰。且在迭代过程中生成的特征描述子μ是相互正交的，从而保证了能将特征的冗余度减小，实验验证可得当特征描述子的个数K＝160，迭代次数T＝3时能取得最高的精度。

本发明分别对未添加注意力模块、添加F和B、以及添加完整注意力模块后的网络性能进行了实验验证，验证结果如表3、4所示。

表3 DukeMTMC-reID和Market501数据集上注意力模块拆分实验对比

表4 CUHK03数据集上的注意力模块拆分实验对比

由上述两表可得，F和B两阶段均对网络精度有一定增益，在DukeMTMC-reID数据集上添加F后平均精度均值(mAP)和首次命中率(rank1)分别提升1.1％和1.0％，这证明了引入协方差后提取的特征信息相较原特征具有更强的表达能力。在单独引入B用EM算法对特征进行处理后，mAP和rank1相比原网络提升1.7％和1.5％，表明了用EM算法重构后的特征对模型优化具有一定的有效性。将F和B两阶段融合后的mAP和rank1相比单独拆分后都有提升，分别为78.8％和89.4％。与DukeMTMC-reID数据集上结果相似，在Market1501和CUHK03上注意力模块也能给基础网络带来精度的提升。

图4、5、6表示在DukeMTMC-reID、Market501和CUHK03三个数据集上对比的提出的注意力模块的识别率。由图可知，当无论是注意力模块的F阶段还是B阶段识别率均得到不同程度的提升，将两阶段融合后的完整注意力模块提升的精度最高。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，所作出各种变换或变型，均属于本发明的范畴。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于期望最大化的行人重识别方法，其特征在于：该方法包括以下步骤：

S1：对输入的训练和测试图像进行不同预处理操作；

S4：在骨干网络ResNet50提取特征后将网络分成两个分支：全局分支Global Branch、局部分支Local Branch，全局分支提取行人完整特征，局部分支提取经过特征擦除操作后特征；

2.根据权利要求1所述的一种基于期望最大化的行人重识别方法，其特征在于：在所述步骤S1中，预处理操作包括：

随机水平翻转，即以给定的概率翻转输入的图像集合；

图像旋转，即以一定的角度旋转输入行人图像；

色彩增强，即随机更改输入RGB图像每个通道的强度。

3.根据权利要求2所述的一种基于期望最大化的行人重识别方法，其特征在于：在所述步骤S2中，在骨干网ResNet50的Stage3和Stage4两个阶段用空洞卷积DilatedConvolutions进行对特征进行卷积操作，从而获得更大的特征图，得到足够的特征信息。

4.根据权利要求3所述的一种基于期望最大化的行人重识别方法，其特征在于：在所述步骤S3中，构建注意力模块的分为两个阶段：

阶段1：对输入特征进行Non-Local计算，相关度通过计算像素间协方差来获得，Non-Local核心算子如下：

阶段2：经过二阶统计量协方差捕获了丰富的区域间相关信息，同时带来一部分高冗余度特征，采用EM算法对冗余特征进行稀疏重构；EM算法假设X＝{x₁,x₂,…,x_N}为所得特征信息集合，由N个观察样本组成，每个数据点x_i都有对应的潜在信息z_i，即最具表征力的特征信息；{X,Z}为完整的数据，其似然函数为lnp(X,Z|θ)，其中θ是模型中所有参数的集合；实际上Z中潜在信息的知识来源于后验分布p(X,Z|θ)；EM算法通过求期望E和最大化期望M这两步操作来最大化lnp(X,Z|θ)的似然值；

E：Q(θ,θ⁽ⁱ⁾)＝E_Z[ln p(X,Z|θ)|X,θ⁽ⁱ⁾]

＝∑_Zln p(X,Z|θ)P(Z|X,θ⁽ⁱ⁾)

M：

5.根据权利要求4所述的一种基于期望最大化的行人重识别方法，其特征在于：在所述步骤S4中，全局分支Global Branch提取特征后通过一个全局平均池化层GAP将每个特征图池化为为2048×1的特征向量，再经过特征缩减为512×1的向量；局部分支Local Branch采用Batch DdropBlock对每批输入特征的相同区域进行一定比例的擦除，之后使用全局最大池化层GMP来代替全局平均池化层产生2048维的最大特征向量，经过降维后局部分支特征变成512维。

6.根据权利要求5所述的一种基于期望最大化的行人重识别方法，其特征在于：在所述步骤S5中，采用多个损失函数联合训练，三元组损失函数使得任意目标样本与正样本之间的距离最小，与负样本之间的距离最大，公式如下：

其中，

表示目标样本与正样本之间的距离，

表示目标样本与负样本之间的距离，m为三元组损失的阈值；

L_total＝L_triplet+γ_iL_id+γ_cL_center

其中，γ_i和γ_c为加权参数。