CN111967325A

CN111967325A - 一种基于增量优化的无监督跨域行人重识别方法

Info

Publication number: CN111967325A
Application number: CN202010686036.5A
Authority: CN
Inventors: 周书仁; 王盈
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-20

Abstract

本发明涉及行人识别技术领域，且公开了一种基于增量优化的无监督跨域行人重识别方法，包括以下步骤：1)基于监督学习的预训练：初始化阶段，预训练模型来提取目标数据的特征，利用风格转换后的图片来对模型进行预训练。该基于增量优化的无监督跨域行人重识别方法，我们将源数据域上的图片翻译到带有目标数据域特性的图片中时，可以不断学习到目标区域的特性，从而使在源数据集上训练的模型逐步地适应目标数据集，从而可以获取更加具有鉴别性的初始特征；我们基于排序距离矩阵，即根据图像的相似性来选择了更可靠的三元组样本，并提出了基于排序的三元组损失，最后，通过联合两个三元组损失函数来微调模型。

Description

一种基于增量优化的无监督跨域行人重识别方法

技术领域

本发明涉及行人识别技术领域，具体为一种基于增量优化的无监督跨域行人重识别方法。

背景技术

行人重识别旨在非重叠视角域多摄像头网络下进行的行人匹配，其在智能监控和安防中具有重要的应用价值。近年来，尽管行人重识别的识别率已经有了较大的提升，但当行人重识别应用到多个数据集时，在一个数据集上训练的行人重识别的模型到了另一个数据集上往往表现较差。

为了解决行人重识别中多个数据集之间的区域间隔问题，提出了无监督跨域行人重识别算法。其主要思想是利用在源域上预训练的模型来提高在无标注目标域中的性能，从而缩小两个域之间的区域间隔。现有的解决办法主要分为：

一、利用循环一致对抗网络在源数据集和目标数据集上进行图像翻译，将源数据域上的图片翻译到带有目标数据域风格的图片，并且使用风格转换后的图片其用于模型的训练。但是，由于不能有效的保证生成图片的身份信息，这些风格转换的方法不能取得较好的性能。

二、通过结合其他辅助信息作为辅助任务来提高模型的泛化能力，例如：时空信息、姿态信息等。但是，这些方法也需要收集有用的属性标签，也需要耗费大量人力和财力，从而受到一定的限制。

三、一些方法侧重于评估目标数据集的伪标签，然后通过有监督学习的方式来学习行人重识别模型。通常，在特征空间利用聚类方法来生成一些列不同的簇并为其分配伪标签，从而来更新具有嵌入损失(三元组损失或对比损失)的网络或分类损失(交叉熵损失)的网络。

目前，基于标签估计的无监督跨域方法被广泛应用于行人重识别任务中，其实现步骤分为：①利用有标记的源数据集训练一个预训练模型；②用预训练模型为无标记目标数据集提取特征；③采用聚类算法对提取的特征进行分类来选择可靠的训练集，并为每张图片分配一个伪标签；④利用无标记数据及对应的伪标签作为监督信息来微调模型。通过不断迭代②-④来优化网络，从而增强模型的泛化能力。

上述中存在以下缺点：

(1)当我们直接利用在源数据集上训练的模型来为目标数据集中的图片提取特征时，由于不同数据集之间存在区域间隔问题，会使得我们无法提取具有鉴别性的初始特征。

(2)当我们基于聚类方法的结果，即分配的伪标签来选择三元组样本时。这种方法会引入标签噪声，当我们使用错误的伪标签直接进行基于聚类的三元组损失来微调模型时，会使得行人重识别性能降低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于增量优化的无监督跨域行人重识别方法，旨在解决现有基于聚类方法产生的标签噪声问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于增量优化的无监督跨域行人重识别方法，包括以下步骤：

1)基于监督学习的预训练：初始化阶段，预训练模型来提取目标数据的特征，利用风格转换后的图片来对模型进行预训练。

2)相似性分组：在这一步，从整体到局部对目标数据的相似性进行研究，对于步骤1)提取的特征图，利用全局平均池化(GAP)得到特征向量，采用水平分割的方法将特征图分为上下两部分，并将获得的三组特征向量(整体、上半部分和下半部分)，作为框架的输入，对输入的三组特征向量计算其相似性，采用K-倒排编码法对每个图像之间的距离进行计算并进行升序排列，然后分别对排序距离矩阵采用基于密度的空间聚类算法为每个部分进行分组，并分配伪标签，最后采用损失函数用于模型的优化。

其中，通过K-倒排编码法得到距离矩阵D，表示为

其中，

表示指定的行人

其与所有训练图片的距离。

表示训练样本和之间的杰卡德距离(Jaccard distance)；

正如我们所知，距离越小，图像之间的相似度越大，因此对距离矩阵进行从小到大排序得到排序距离矩阵D_R：

其中，

是对

进行从小到大排序之后的表示，对于给定的行人

在

中

表示与样本

第j相似的样本；

3)增量优化模型：基于聚类结果，选择三元组样本并采用基于聚类的三元组损失来更新模型，最后使用基于聚类的三元组损失和提出的基于排序的三元组损失联合更新网络，基于排序的三元组样本选择方法：对于任意给定的行人图片X_i，我们从排序距离矩阵D_R的(0，η]中选择一个正样本x_p，从(η，2η]中选择一个负样本x_n来生成三元组样本，然后将三元组样本放入网络中并用所提出来的基于排序的三元组损失函数来训练。

优选的，所述1)将源数据域上的图片翻译成带有目标数据域特性的图片。

优选的，所述3)基于排序距离矩阵，即根据图像的相似性选择三元组样本，并提出基于排序的三元组损失，最后通过联合两个三元组损失函数来微调模型。

(三)有益效果

与现有技术相比，本发明提供了一种基于增量优化的无监督跨域行人重识别方法，具备以下有益效果：

该基于增量优化的无监督跨域行人重识别方法，我们将源数据域上的图片翻译到带有目标数据域特性的图片中时，可以不断学习到目标区域的特性，从而使在源数据集上训练的模型逐步地适应目标数据集，从而可以获取更加具有鉴别性的初始特征；我们基于排序距离矩阵，即根据图像的相似性来选择了更可靠的三元组样本，并提出了基于排序的三元组损失，最后，通过联合两个三元组损失函数来微调模型，利用图像相似性来选择更可靠的三元组样本用于特征学习。

附图说明

图1为本发明的一种基于增量优化的无监督跨域行人重识别流程图；

图2为本发明的一种基于增量优化的无监督跨域行人重识别原理图。

具体实施方式

下面将结合本发明的实施例和附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，一种基于增量优化的无监督跨域行人重识别方法，包括以下步骤：

1)基于监督学习的预训练：初始化阶段，我们需要预训练模型来提取目标数据的特征，为了使模型在目标数据集中抽取的初始特征更加具有判别性，可以利用风格转换后的图片来对模型进行预训练，因为风格迁移后的图片能减小与目标域之间的分布差异，从而能更好的适应目标域，也为后面的训练提供了更好的初始化模型，在这部分，我们采用基于CycleGAN的图像翻译基准方法以无监督学习的方式翻译源数据域上的图片，翻译后的图片同时保留目标数据域图片的风格特征和源数据域图片的身份信息，当获得风格转后的图像以及它们对应的标签，可以像监督学习一样进行标准的特征学习，从而获得预训练模型，用于对目标数据集中的图片提取特征。

2)相似性分组：在这一步，我们从整体到局部对目标数据的相似性进行研究。对于1)提取的特征图，利用全局平均池化(GAP)得到特征向量，我们采用水平分割的方法将特征图分为上下两部分，并将获得的三组特征向量 (整体、上半部分和下半部分)作为我们框架的输入，对输入的三组特征向量计算其相似性，采用K-倒排编码法对每个图像之间的距离进行计算并进行升序排列，从而得到对应的三个排序距离矩阵，然后，分别对排序距离矩阵采用基于密度的空间聚类算法(HDBSCAN)为每个部分进行分组，并分配伪标签。最后，我们采用损失函数用于模型的优化。

其中，通过K-倒排编码法得到距离矩阵D，表示为

其中，

表示指定的行人

其与所有训练图片的距离。

表示训练样本和之间的杰卡德距离(Jaccard distance)；

其中，

是对

进行从小到大排序之后的表示，对于给定的行人

在

中

表示与样本

第j相似的样本；

3)增量优化模型：基于聚类结果，我们选择三元组样本并采用基于聚类的三元组损失来更新模型，为了减小聚类带来的标签噪声，我们提出基于排序距离矩阵来选择更可靠的三元组样本，最后，我们使用基于聚类的三元组损失和提出的基于排序的三元组损失联合更新网络，通过不断迭代相似性分组和微调模型来增量优化网络，从而增量优化模型的泛化能力。

基于排序的三元组样本选择方法：对于任意给定的行人图片X_i，我们从排序距离矩阵D_R的(0，η]中选择一个正样本x_p，从(η，2η]中选择一个负样本x_n来生成三元组样本，然后将三元组样本放入网络中并用所提出来的基于排序的三元组损失函数来训练。

在1)中，现有方法都是直接利用有标注源数据集中的图片来训练一个预训练模型。由于不同数据集间存在区域间隔，当我们直接利用源数据集中训练的模型来为目标数据集提取特征时，会使得性能急剧下降。然而，当我们将源数据域上的图片翻译到带有目标数据域特性的图片中时，可以不断学习到目标区域的特性，从而使在源数据集上训练的模型逐步地适应目标数据集，从而可以获取更加具有鉴别性的初始特征。

在3)中，现有技术通常只采用基于聚类结果生成的三元组样进行三元组损失更新网络，由于其过分依赖于聚类获得的伪标签，聚类结果的误差直接影响分类的结果。为了解决这一问题，我们基于排序距离矩阵，即根据图像的相似性来选择了更可靠的三元组样本，并提出了基于排序的三元组损失。最后，通过联合两个三元组损失函数来微调模型。

无监督行人重识别是给定源域上的标注行人数据{X_S，Y_S}，其中包含了P_s个行人的N_s张图片，并且对于给定的图片

其对应的标签为

和目标数据集上的未标注行人数据{X_T}，其中包含N_t张图片。

在源数据集中，对于给定的行人图片

我们利用已有的工作SPGAN将源域上的图片转换成具有目标域相似风格的图片。然后将翻译后的图片用来训练一个预训练模型M。

对于给定的目标数据集中的图片

放入预训练模型M中得到特征图

然后，我们将

水平分为上下两部分，分别表示为

和

最后，我们将全局平均池化(GAP)应用在整体特征图和部分特征图上，即：

和

从而得到对应的特征向量

和

我们在无标注目标数据集上所有图片重复上面的操作，从而可以取得三组特征向量，即：

对于得到的三组特征向量:

和

分别采用K-倒数编码对每个图像之间的距离进行计算并按从小到大排序，从而可以得到对应的排序距离矩阵D_R、D_{R_up}和D_{R_} _low。

接下来，我们在三个排序距离矩阵上分别利用基于密度的空间聚类算法(HDBSCAN)来得到三个不同部分：SpaceA、SpaceB和SpaceC的一系列不同的分组，并根据聚类结果更新训练集，其属于整个训练集的子集，然后根据其所属的组分配一个伪标签。因此，对于每一张图片

根据三个特征向量的分组结果，我们可以得到三个伪标，表示为

和

因此，我们可以建立一个新的带有标签的目标数据集，表示为：

最后，我们将伪标签作为监督信息来更新优化模型，类似于有监督学习。通过联合基于聚类三元组损失和基于排序的三元组损失来更新模型。

基于聚类的三元组损失表示为：

其中，其中x_i，j是表示批次中第i组的第j个图像的数据点。f(x_i，a)是x_i，j的特征向量，而m是人为设定的一个阈值参数。

基于排序的三元组损失表示为：

其中，η是正样本取样最大的排序位置，P_p和P_n分别是指正样本x_p和x_n相对于x_a的排序位置。

最后的三元组损失表示为：

L＝L_{C_tri}+λL_{R_tri}

其中，λ是衡量两个损失函数的损失权重。

最后利用更新后的模型对新的训练集中的图片提取特征，通过反复迭代这一过程，增量优化行人重识别模型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于增量优化的无监督跨域行人重识别方法，其特征在于，包括以下步骤：

2)相似性分组：在这一步，从整体到局部对目标数据的相似性进行研究，对于步骤1)提取的特征图，利用全局平均池化(GAP)得到特征向量，采用水平分割的方法将特征图分为上下两部分，并将获得的三组特征向量(整体、上半部分和下半部分)，作为框架的输入，对输入的三组特征向量计算其相似性，采用K-倒排编码法对每个图像之间的距离进行计算并进行升序排列，然后分别对排序距离矩阵采用基于密度的空间聚类算法为每个部分进行分组，并分配伪标签，最后将带有伪标签的样本采用损失函数来优化模型。

其中，通过K-倒排编码法得到距离矩阵D，表示为