CN112115780A

CN112115780A - 一种基于深度多模型协同的半监督行人重识别方法

Info

Publication number: CN112115780A
Application number: CN202010803514.6A
Authority: CN
Inventors: 王进军; 辛晓萌; 万星宇; 邓烨; 惠思奇; 黄文丽
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-22

Abstract

本发明公开了一种基于深度多模型协同的半监督行人重识别方法，包括步骤：1)采用部分有标签的训练数据样本微调多个ImageNet上预训练过的深度神经网络，将这些模型作为初始模型；2)利用这些初始模型对没有标签的训练样本提取特征，接着提出一个自适应权重多视图聚类的方法对无标签训练样本产生伪标签，有标签的训练样本和带有伪标签的训练样本组合成整体的训练数据，采用这些训练数据微调训练多个结构相异构的深度神经网络；3)交替的迭代伪标签产生和深度网络训练直到伪标签不在改变。

Description

一种基于深度多模型协同的半监督行人重识别方法

技术领域

本发明属于图像特征表示和半监督学习领域，具体涉及一种基于深度多模型协同的半监督行人重识别方法。

背景技术

随着社会经济的不断发展与计算机视觉技术的不断进步，智能安防、智慧城市建设不断被推进，智能化处理不同场景的视频数据成为了计算机视觉领域广泛关注的难题。行人再识别是实现智能安防与智慧城市战略的一项关键技术，给定一个场景中的一幅或者多幅行人的图像，行人再识别技术要求能够在其他不相邻的场景中找到与该图像匹配的行人的所有图像。在不同的场景中，光照条件的不同、行人姿态的变化、图像背景的变动、成像质量的差异通常会导致同一行人类内的变化大于不同行人类间的变化，这给行人再识别任务带来了严峻的挑战。

近年来，受益于深度卷积神经网络的强大性能，行人重识别技术在大规模数据集上达到了优秀的识别准确度。但是大多数方法都是在全监督学习的基础上提出的。由于需要大量人工标记的训练数据，监督学习在实际环境和工业场景中的价值本质是有限的。随着智能安防，智慧城市的需求日益迫切，在实际场景中对已有方法进行实现和应用成为了广泛关注的问题。而现实情境下，在所有应用环境(比如大型购物中心、城市社区街道)中都进行大量数据标记是十分困难的，可以想象标注人员通过观看一组参数不同的相机在不同时间和不同地点拍摄到的视频记录并搜索定位同一个行人有多困难。因此，实际场景中行人重识别首先需要面对的问题就是标记数据的严重缺乏。为了克服全监督学习方法对大规模数据的严重依赖，已经出现了一些半监督或无监督学习方法。半监督行人重识别方法通过结合少量标记数据和大量未标记数据，最大化利用监督信息并充分挖掘无监督信息，实现行人检索的目标。

发明内容

本发明的目的在于针对上述现有技术的不足，提供了一种基于深度多模型协同的半监督行人重识别方法。

本发明采用如下技术方案来实现的：

一种基于深度多模型协同的半监督行人重识别方法，包括以下步骤：

1)采用部分有标签的训练数据样本微调多个ImageNet上预训练过的深度神经网络，将这些模型作为初始模型；

2)利用这些初始模型对没有标签的训练样本提取特征，接着提出一个自适应权重多视图聚类的方法对无标签训练样本产生伪标签，有标签的训练样本和带有伪标签的训练样本组合成整体的训练数据，采用这些训练数据微调训练多个结构相异构的深度神经网络；

3)交替的迭代伪标签产生和深度网络训练直到伪标签不在改变。

本发明进一步的改进在于，步骤1)的具体实现方法如下：

101)首先训练多个结构不同的神经网络作为多个视图下的特征提取器；

102)利用提出的自适应权重多视图聚类方法对多个异构神经网络的特征进行聚类，得到无标签数据的伪标签；

103)利用有标注数据和带有伪标签的无标注数据微调多个异构神经网络，多个深度网络的更新和伪标签的更新交替进行。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

201)采用部分带有标签的数据训练多个异构神经网络作为初始参数；

202)随后采用第一步训练的多个深度神经网络对无标签数据提取特征，接着利用自适应权重多视图聚类方法对无标签数据的特征聚类，得到无标签数据的初始伪标签；

203)将第二步得到的带有伪标签的无标注数据和有标注的数据相融合再次训练多个深度神经网络，深度神经网络训练和聚类的训练交替进行直到伪标签不在改变，得到最终的伪标签。

本发明至少具有如下有益的技术效果：

1.本发明在训练深度神经网络的过程中只需要利用一部分准确标注的数据，随后通过对大量无标签数据打伪标签的方法来帮助网络训练。

2.本发明利用多个深度神经网络对无标签数据提取特征，发挥多个深度网络特征的多样性，并且利用提出的自适应权重多视图聚类方法对异构网络特征聚类，从而得到具有较好精确度的伪标签。

附图说明

图1为本发明框架的流程图。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

如图1所示，假设有M种形态的特征，υ＝1，2，...，M.，的算法可以写成如下的形式：

其中x_l和x_u分别代表有标签和无标签的训练样本。N_l和N_u分别代表有标签和无标签训练样本的数目。w^υ代表第υ个深度神经网络中的参数，y_l和y_u分别代表有标签的标签和无标签数据的伪标签。

为深度神经网络的损失函数，

代表多视图估计伪标签损失函数。

深度神经网络的损失函数主要依据两个不同的任务，它们分别是识别任务和验证任务。的损失函数可以写成如下的形式：

对于基础的特征区分性学习，将识别任务看作是一个多分类的任务。

可以表示为：

其中

为预测概率，p为目标概率。

针对验证部分，没有采用对比损失函数，对比损失函数强制相同的类别尽可能的距离相近。当训练数据集属于每一类的样本较少时，这可能会使得深度神经网络倾向于过拟合。本文的验证损失是一个二值的逻辑回归损失函数，定义图像特征对为(φ(x_a，w)，φ(x_b，w))。

可以表示为：

其中

是预测概率。假如图像特征对预测结果为同一个人，那么q₁＝1，q₂＝0，反之q₁＝0，q₂＝1。

多视图伪标签估计部分是利用无标签数据多个异构的深度神经网络特征聚类来获得无标签数据的伪标签。一种最直接的方法是将无标签数据多个视图的特征拼接成一个特征，然后执行标准的聚类算法。但是，在这种情况下，重要视图下和次重要视图下的特征被同等对待，导致聚类算法结果不是最优的。理想情况是将不同视图下的特征同时聚类并且将每个视图下的结果联合起来得到最终的结果。为了达到这个目标，本发明的多视图伪标签估计损失函数可以写成如下形式：

其中

代表无标签数据组合成的矩阵，矩阵的每一列为一个无标签数据。

代表第υ个视图的深度卷积网络特征。

为第υ个视图下的中心点矩阵。

满足1-of-K_u的形式。K_u为期望聚类的数目。α^υ为第υ个视图下的权重因子。

本发明方法的优化流程如下：

本发明采用交替优化迭代算法优化提出的模型，优化步骤如下：

初始化：初始化w^υ采用一小部分标记的数据训练多个不同结构的深度卷积网络。B通过单个视图的Kmeans聚类初始化，权重因子α^υ＝1/M。

更新B：通多最小化如下的子问题来更新B：

为了优化式(6)，将其写为：

其中

H^υ＝Tr{(Φ^υ-C^υBT)D^υ((Φ^υ-C^υBT)^T}， (8)

其中e^(υ)i是如下矩阵的第i行：

E^υ＝(Φ^υ)^T-B(C^υ)^T. (10)

1)固定参数B，D^υ，α^υ，更新每个视图下的聚类中心C^υ，对于J计算关于C^υ的倒数，可以得到：

其中

令式(11)为零，C^υ有如下表示：

2)固定参数C^υ，D^υ，α^υ，更新聚类中心矩阵B：

为了优化式(14)，固定i，向量

最小化如下的问题：

其中

是对角矩阵

的第i个元素，b满足1-of-K_u的形式，对于式(15)有K_u个后选值，每一个为矩阵的第k_u列，具体来说，做一个详尽的搜索找出式(15)的最优解：

其中k_u为：

3)固定参数C^υ，B，α^υ，根据式(9)和(10)更新D^υ。

4)固定参数C^υ，B，D^υ，更新α^υ。

要使式(18)达到局部最小，α^υ有如下表示：

交替迭代C^υ，B，D^υ，α^υ，并且重复以上过程直到式(6)收敛。

更新y_u：这一步骤用来更新无标签数据的伪标签。当得到B，就得到每一个无标签样本的伪标签k_u。无标签样本总的类别数目为K_u，有标签样本总的类别数目为K_l。y_u有如下表示：

y_u＝k_u+K_l. (20)

更新w^υ：利用有标签的数据以及带有伪标签的剩余数据训练深度卷积神经网络。更新w^υ通过最小化下式：

对于式(21)，采用随机梯度下降优化w^υ。

本发明提出了一种基于深度多模型协同的半监督行人重识别算法，能够在一个端到端的学习过程中实现标记数据的特征学习和未标记数据的伪标签估计。为了提高伪标签估计的准确性，本发明提出了弱模型协同的学习策略，能够标记更多有质量的数据来提升特征学习的性能。