CN109635728A

CN109635728A - 一种基于非对称度量学习的异构行人再识别方法

Info

Publication number: CN109635728A
Application number: CN201811515924.XA
Authority: CN
Inventors: 赖剑煌; 程海杰; 张权
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-16
Anticipated expiration: 2038-12-12
Also published as: CN109635728B

Abstract

本发明公开了一种基于非对称度量学习的异构行人再识别方法，该方法将不同模态下的深度特征进行非对称度量，步骤是：使用两个不共享参数的稀疏自编码器分别将不同模态深度特征投影到共享空间，同时引入全局约束和局部约束去约束不同模态深度特征间的距离，使不同模态特征间的类内距离减小和类间距离增加；将全局约束和局部约束的约束结果作为监督信号反向传播到训练网络中用于修正各个参数。本发明通过缩小不同模态间模态差距，使网络尽可能地忽略模态信息而更加关注身份信息，从而提高行人特征表达力和行人匹配精确度。

Description

一种基于非对称度量学习的异构行人再识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于非对称度量学习的异构行人再识别方法。

背景技术

随着现代社会的快速发展，城市人口密度越来越高，安全问题也越来越引起人们的重视。为了及时预防和避免安全事件的发生，大量的监控摄像头被安装和应用在公共场所。面对复杂的监控网络和海量的监控数据，如何实现自动分析和解读多摄像机视域监控***提供的信息，对预防犯罪的发生和维持良好的社会治安有积极的促进作用。因此，行人再识别已成为计算机视觉领域的一个热点研究内容。

行人再识别(person re-identification)作为视频监控研究领域的关键组成部分，其目的是对出现在监控摄像头视域内的某个目标行人，在监控网络其他摄像头视域内的大量行人中准确快速地将这个目标行人标识出来。行人再识别技术的应用可以大大减少视频监控中的人工参与，实现对监控视频中的行人及其行为的快速而准确的分析。目前，主流的行人再识别方法主要是通过提取行人的外观特征和颜色特征(RGB特征)去进行匹配，这些方法可以被视为RGB-RGB单模态行人匹配。然而，这些方法都有一个强烈的假设：假设同一个行人在不同摄像头出现时的服装尽可能地保持不变，可以将其视为短时行人再识别。因此，当行人的服装发生显著性变化或者当行人的颜色特征变得不可利用的时候，这些方法的表现将会急剧下降，因为此时的颜色特征更多的是表现出对模型的干扰，很大程度上会将穿着相同颜色服装的不同行人错判为是同一行人。所以，近年来为克服在极端条件下颜色特征失效的缺点，引入了其它模态的数据去弥补RGB数据的不足，如红外数据(IR数据)，可以将其视为RGB-IR跨模态行人匹配(异构行人匹配)，异构行人再识别最大的挑战在于如何缩小不同模态间的模态差距。目前，有学者提出用深度零填充的方法去缩小不同模态间的模态差距，但是这种方法的识别结果并不准确，尚不能满足实际应用要求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于非对称度量学习的异构行人再识别方法，该方法可克服极端条件下颜色特征失效和异构行人再识别精确度不高的缺点，通过缩小不同模态间模态差距，使网络尽可能地忽略模态信息而更加关注身份信息，从而提高行人特征表达力和行人匹配精确度。

本发明的目的通过以下的技术方案实现：一种基于非对称度量学习的异构行人再识别方法，包括步骤：

在训练模型过程中，输入两种模态下的行人图像，分别提取深度特征；

将不同模态下的深度特征进行非对称度量，步骤是：使用两个不共享参数的稀疏自编码器分别将不同模态深度特征投影到共享空间，同时引入全局约束和局部约束去约束不同模态深度特征间的距离，使不同模态特征间的类内距离减小和类间距离增加；将全局约束和局部约束的约束结果作为监督信号反向传播到训练网络中用于修正各个参数；

根据深度特征计算全局特征和局部特征的损失，以全局损失、局部损失、以及非对称度量中的全局约束和局部约束之和达到最小化为目标去优化训练模型。

本发明通过上述步骤，只要给定任意两种模态的行人再识别训练数据，就可以训练出一个异构行人再识别模型，对异构行人匹配具有精度高、速度快的优点。

优选的，提取不同模态下图像的深度特征，步骤是：

首先，使用在ImageNet数据集上预训练的ResNet50分类模型作为主干网络，将主干网络后分为三个分支；

接着，从上至下，每个分支提取分类模型的高层特征，并将其水平均匀分块；

然后，将每个分支通过池化和降维的操作得到固定大小的若干个全局特征和局部特征；

最后，将上述全局特征和局部特征按顺序拼接在一起，得到输入图像的深度特征，即行人的完整特征表达。

为了缩小异构行人数据间的模态差距，本发明将不同模态下的深度特征进行非对称度量，步骤是：

首先，将提取的深度特征划分为F^B和F^R两组，其中B、R分别代表RGB模态、IR模态，表示第i个深度特征向量；

接着，将两组特征F^B和F^R，分别通过两个不共享参数的稀疏自编码器SAE，每一个稀疏自编码器由两个全连接层构成，分别作为编码器E和解码器D，编码器E负责将不同模态特征投影到共享空间，解码器D负责将编码的特征重新映射到与输入特征空间大小一致的空间；

继而，构建重构损失，记为l_r，用于约束SAE的输出和输入，使其尽可能保持一致：

l_r＝||f^B，D^B(E^B(f^B))||₂+||f^R，D^R(E^R(f^R))||₂；

f^B，f^R，E^B，E^R，D^B，D^R分别代表模态B和模态R的特征、编码器和解码器；

最后，在共享空间，引入全局约束用于约束不同模态特征分布间的差距，引入局部约束用于减小不同模态特征间的类内距离和增加类间距离，并将上述约束结果作为监督信号反向传播回训练模型去修正各个参数。

更进一步的，全局约束用于约束不同模态特征分布间的差距，记为l_global＝W(E^B(f^B)，E^R(f^R))²，其中W满足对于任意给定的两个分布X＝N(m_X，C_X)和Y＝N(m_r，C_Y)，m，C分别代表X分布和Y分布的均值和方差，有

更进一步的，局部约束用于减小不同模态特征间的类内距离和增加类间距离，记为l_local＝(max(d(f，p))-min(d(f，n))+α)，p∈A(f)、n∈B(f)，A(f)、B(f)分别代表与特征f有相同身份信息和不同身份信息的特征集合，d(·，·)代表两个特征间的欧式距离，α是用于控制正样本对和负样本对间距的超参数。

更进一步的，为了使共享空间更有效，构建一个稀疏损失l_sparse去约束隐藏层的输出，l_sparse＝||E^B(f^B)||₁+||E^R(f^R)||₁。

更进一步的，每一个稀疏自编码器由两个带有ReLU激活函数的全连接层构成。

优选的，对提取出的深度特征，用Triplet Loss函数去计算全局特征的损失，用Softmax函数去计算局部特征的损失，以全局损失、局部损失、以及非对称度量中的重构损失、稀疏损失、全局约束和局部约束之和达到最小化为目标去优化训练模型。从而提高模型特征表达力。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明针对现有异构行人再识别任务中不同模态间的模态信息差距大、行人匹配难度大的缺点，提出对不同模态下的深度特征进行非对称度量以缩小不同模态下相同行人间的特征距离，可应用到任意的特征提取网络中去为训练网络提供监督信息和实现端到端的训练，有效地提高了行人特征提取的质量和加快网络收敛。

2、本发明中针对不同的特征有区分地采取不同损失函数协同训练，相较于单一损失函数训练，本发明有目的的使网络尽可能地忽略模态信息和更加关注行人身份信息，从而得到行人更完整的特征表达，故在精度上远远的好于现有方法。

3、本发明中使用了全局和局部相结合的思想去提取行人特征，相较于单一特征，本发明得到了行人更完整的特征表达，故在精度上有所提高。

附图说明

图1是本实施例方法的总体功能框架图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，本实施例一种基于非对称度量学习的异构行人再识别方法，主要包括特征提取、非对称度量、分类三个步骤，下面对各个步骤进行具体说明。

一、特征提取

要对行人进行特征提取，步骤是：

接着，从上至下，每个分支提取分类模型的高层特征并将其水平均匀切分为1块、2块和3块；

然后，将每个分支通过池化和降维的操作得到固定大小为256维的3个全局特征和5个局部特征；

最后，将8个256维的特征按顺序拼接在一起得到一个2048维的特征，将其作为输入图像的深度特征，即行人的完整特征表达。将上述特征用于后面的非对称度量和分类。

本发明中使用了全局和局部相结合的思想去提取行人特征，相较于单一特征，本发明得到了行人更完整的特征表达，故在精度上有所提高。

二、非对称度量

该步骤是将不同模态下的特征通过不同的投影矩阵进行投影和重建，以缩小异构行人数据间的模态差距，步骤是：

首先，对于提取的特征(B/R分别代表RGB模态/IR模态)，通过模态选择器将提取的特征划分为F^B和F^R两组；

接着，将两组特征F^B和F^R，分别通过两个不共享参数的稀疏自编码器SAE，每一个稀疏自编码器由两个带有ReLU激活函数的全连接层构成，分别作为编码器E和解码器D，编码器E负责将不同模态特征投影到共享空间，解码器D负责将编码的特征重新映射到与输入特征空间大小一致的空间，继而构建重构损失，记为l_r，用于约束SAE的输出和输入，使其尽可能保持一致。l_r＝||f^B，D^B(E^B(f^B))||₂+||f^R，D^R(E^R(f^R))||₂，f^B，f^R，E^B，E^R，D^B，D^R分别代表模态B和模态R的特征、编码器和解码器。

同时，为了使共享空间更有效，构建了一个稀疏损失l_sparse去约束隐藏层的输出，l_sparse＝||E^B(f^B)||₁+||E^R(f^R)||₁；

最后，在共享空间，引入全局约束l_global和局部约束l_local去约束不同模态特征间的距离，并将其作为监督信号反向传播回网络的其他模块去修正特征提取步骤的参数，使特征提取尽可能的忽略模态信息而关注行人身份信息，从而提高图像特征的表达。

全局约束用于约束不同模态特征分布间的差距，记为l_global＝W(E^B(f^B)，E^R(f^R))²，其中W满足对于任意给定的两个分布X＝N(m_X，C_X)和Y＝N(m_Y，C_Y)，m，C分别代表X分布和Y分布的均值和方差，有局部约束用于减小不同模态特征间的类内距离和增加类间距离，记为l_local＝(max(d(f，p))-min(d(f，n))+α)，p∈A(f)、n∈B(f)，A(f)/B(f)分别代表与特征f有相同身份信息和不同身份信息的特征集合，d(·，·)代表两个特征间的欧式距离，α是用于控制正样本对和负样本对间距的超参数。

本发明中使用两个不共享参数的稀疏自编码器分别将不同模态特征投影到共享空间。同时引入全局约束l_global和局部约束l_local去约束不同模态特征间的距离，使不同模态特征间的类内距离减小和类间距离增加，有效的使特征提取过程中尽可能的忽略模态信息而关注ID信息，从而提高图像特征的表达。

三、分类

该步骤是将输入特征有区分地采取不同损失协同训练，以对行人特征进行有效约束，步骤是：对于从特征提取步骤提取的深度特征，用Triplet Loss函数去计算3个全局特征的损失，用Softmax函数去计算五个局部特征的损失，而后通过联合最小化全局损失、局部损失、以及非对称度量模块中的重构损失、稀疏损失、全局约束和局部约束之和去优化模型，提高模型特征表达力。

本发明中针对不同的特征有区分地采取不同损失函数协同训练，相较于单一损失函数训练，本发明有目的的使网络尽可能地忽略模态信息和更加关注行人身份信息，从而得到行人更完整的特征表达，故在精度上远远的好于现有方法。

实验结果表明，本发明在当前最大的跨模态行人再识数据集SYSU-MM01上的Rank1和mAP分别从24.43％和26.92％提升到66.26％和66.7％，较其他方法有非常大的性能提升。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于非对称度量学习的异构行人再识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于非对称度量学习的异构行人再识别方法，其特征在于，提取不同模态下图像的深度特征，步骤是：

3.根据权利要求1所述的基于非对称度量学习的异构行人再识别方法，其特征在于，将不同模态下的深度特征进行非对称度量，步骤是：

首先，将提取的深度特征划分为F^B和F^R两组，其中B、R分别代表RGB模态、IR模态，f_i ^m表示第i个深度特征向量；

l_r＝||f^B，D^B(E^B(f^B))||₂+||f^R，D^R(E^R(f^R))||₂；

4.根据权利要求3所述的基于非对称度量学习的异构行人再识别方法，其特征在于，全局约束用于约束不同模态特征分布间的差距，记为l_global＝W(E^B(f^B)，E^R(f^R))²，其中W满足对于任意给定的两个分布X＝N(m_X，C_X)和Y＝N(m_Y，C_Y)，m，C分别代表X分布和Y分布的均值和方差，有

5.根据权利要求3所述的基于非对称度量学习的异构行人再识别方法，其特征在于，局部约束用于减小不同模态特征问的类内距离和增加类间距离，记为l_local＝(max(d(f，p))-min(d(f，n))+α)，p∈A(f)、n∈B(f)，A(f)、B(f)分别代表与特征f有相同身份信息和不同身份信息的特征集合，d(·，·)代表两个特征间的欧式距离，α是用于控制正样本对和负样本对间距的超参数。

6.根据权利要求3所述的基于非对称度量学习的异构行人再识别方法，其特征在于，构建一个稀疏损失l_sparse去约束隐藏层的输出，l_sparse＝||E^B(f^B)||₁+||E^R(f^R)||₁。

7.根据权利要求3所述的基于非对称度量学习的异构行人再识别方法，其特征在于，每一个稀疏自编码器由两个带有ReLU激活函数的全连接层构成。

8.根据权利要求1所述的基于非对称度量学习的异构行人再识别方法，其特征在于，对提取出的深度特征，用Triplet Loss函数去计算全局特征的损失，用Softmax函数去计算局部特征的损失，以全局损失、局部损失、以及非对称度量中的重构损失、稀疏损失、全局约束和局部约束之和达到最小化为目标去优化训练模型。