CN111401281B

CN111401281B - 基于深度聚类和样例学习的无监督行人重识别方法及***

Info

Publication number: CN111401281B
Application number: CN202010206197.XA
Authority: CN
Inventors: 张化祥; 邵伟卓; 刘丽; 朱磊
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-06-21
Anticipated expiration: 2040-03-23
Also published as: CN111401281A

Abstract

本发明公开了一种基于深度聚类和样例学习的无监督行人重识别方法及***，包括：分别获取有监督源域的数据集，以及包含自然图像和不同相机风格图像的无监督目标域数据集；构建包含源域数据集分支网络和目标域数据集分支网络的网络结构；同时确定每一个分支网络的损失函数；将源域数据集和目标域数据集分别输入到网络结构中的两个分支网络；基于每一个分支网络的损失函数对所述网络结构进行优化训练；将待识别图像输入到训练好的网络结构中，由网络输出数据的预测分类，以实现对待识别图像的行人重识别。本发明将源域数据集和目标域数据集分支路网络进行训练，既考虑了源域数据和目标域数据之间的差异，又考虑了目标域数据之间的域内变化。

Description

基于深度聚类和样例学习的无监督行人重识别方法及***

技术领域

本发明涉及行人重识别技术领域，尤其涉及一种基于深度聚类和样例学习的无监督行人重识别方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

行人重识别技术(Person-ReID)，也称为行人检索技术，是一种利用计算机视觉技术来确定一个特定的人是否和一张图像或视频序列中的技术。一般来说，给定一张行人图像，需要从各个设备中检索出为同一身份的行人图像，因此，行人重识别问题也被广泛认为是图像检索的一个子问题。行人重识别技术结合行人检测、行人跟踪技术，在公安侦查、智能安防、智能视频监控等领域具有很高的应用价值。

行人重识别技术的研究开始于多摄像机跟踪技术，近几年来，随着卷积神经网络(CNN)和其他深度学习(DL)方法的进步，该技术取得了显著的进展。行人重识别技术主要包括有监督行人重识别和无监督行人重识别，有监督行人重识别主要是在数据集全部带有标签的情况下进行的，目前能够取得非常高的准确率，然而，有监督的数据集的数量往往是有限的，并且在有监督数据集上适用的行人重识别技术的扩展性和通用性不是很好。随着越来越多的无标签数据集涌现，无监督行人重识别的研究越来越重要。无监督行人重识别技术，是在源域的数据集有标签、目标域的数据集不带标签情况下进行，且通常两个数据集是不一样的，所以无监督行人重识别技术又被认为是无监督领域自适应(UDA)。

近些年来，对无监督领域自适应问题的研究主要通过缩小源域的数据集和目标域的数据集在图像级别或者属性特征级别之间的最大平均值差异(MMD)来解决。但是，发明人发现，由于这种方法需要源域的数据集和目标域的数据集的标签完全一致，并不适用于具有未标记目标数据集的无监督行人重识别任务。聚类的方法被提出应用于无监督行人重识别的研究中，在降低源域的数据集和目标域的数据集的域内差异上有着重要作用，但是忽略了两个数据集之间的差异。

现有技术提出一种无监督领域自适应的异构学习方法，该方法首先从数据集中挑选一张图片，然后利用StarGAN生成一系列不同风格的图片，和原始图片组成正样本对，将源域的图片和目标域的图片组成负样本对，输入为三元组进行训练。该方法对解决相机造成的图片差异和源域的数据集与目标域的数据集类别不同有一定的效果，但是，由于该方法的采样方式，忽略了数据集中潜在的正样本对，对图片中的每一批进行操作，而忽略了数据集的全局性。

发明内容

有鉴于此，本发明提出了一种基于深度聚类和样例学习的无监督行人重识别方法及***，基于端到端的深度学习框架分别处理源域的数据集和目标域的数据集，通过不同的处理方法和损失函数进行约束，有助于提高行人重识别的检索精度。

为了实现上述目的，在一些实施方式中，采用如下技术方案：

基于深度聚类和样例学习的无监督行人重识别方法，包括：

分别获取有监督源域的数据集，以及包含行人自然图像和不同相机风格图像的无监督目标域数据集；

构建包含源域数据集分支网络和目标域数据集分支网络的网络结构；同时确定每一个分支网络的损失函数；

将源域数据集和目标域数据集分别输入到网络结构中的两个分支网络；

基于每一个分支网络的损失函数对所述网络结构进行优化训练；

获取待识别的行人图像，将待识别的行人图像输入到训练好的网络结构中，输出数据的预测分类，以实现对待识别行人图像的行人重识别。

在另一些实施方式中，采用如下技术方案：

基于深度聚类和样例学习的无监督行人重识别***，包括：

用于分别获取有监督源域的数据集，以及包含行人自然图像和不同相机风格图像的无监督目标域数据集的装置；

用于构建包含源域数据集分支网络和目标域数据集分支网络的网络结构；同时确定每一个分支网络的损失函数的装置；

用于将源域数据集和目标域数据集分别输入到网络结构中的两个分支网络的装置；

用于基于每一个分支网络的损失函数对所述网络结构进行优化训练的装置；

用于获取待识别的行人图像的装置；

用于将待识别的行人图像输入到训练好的网络结构中，输出数据的预测分类，以实现对待识别行人图像的行人重识别的装置。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于深度聚类和样例学习的无监督行人重识别方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于深度聚类和样例学习的无监督行人重识别方法。

与现有技术相比，本发明的有益效果是：

(1)据我们所知，之前的无监督跨域行人重识别方法大多数只考虑了源域数据集和目标域数据集的域间的差异，而忽略了目标域数据集的域内变化。本发明将源域数据集和目标域数据集分支路网络进行训练，既考虑了源域数据和目标域数据之间的差异，又考虑了目标域数据之间的域内变化。

(2)本发明提出了一种基于深度聚类和样例学习的无监督跨域行人重识别方法，能够有效地提高行人识别准确率。使用基于DBSCAN方法的深度聚类模块对目标图像赋予伪标签，并使用样例样例存储模块存储样例特征以用于学习样例之间相似性进行正确分类；利用聚类排斥损失函数，能够有效地拉近目标图像与其所属类别之间的距离，扩大目标图像与其不同类别数据之间的距离，使网络更好地收敛。

本发明的附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例中基于深度聚类和样例学习的跨域无监督行人重识别方法流程图；

图2为本发明实施例中基于深度聚类和样例学习的跨域无监督行人重识别方法的网络整体结构图；

图3为本发明实施例中所使用的StarGAN简易模型；

图4为本发明实施例中使用StarGAN生成的CamStyle图像示例。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种基于深度聚类和样例学习的跨域无监督行人重识别方法，如图1所示，包括以下步骤：

步骤1：构建网络结构，参照图2，包括处理源域的数据和目标数据的两个分支网络。

(1)网络结构的主干部分由ResNet50组成，一直到ResNet50的Pooling-5层，后面是4096维的1个全连接层(FC-4096)；

(2)有监督的源域支路网络包括1个M维的全连接层(FC-M)和1个Softmax回归层，其损失函数是交叉熵损失；

(3)无监督的目标域支路网络包含1个聚类(Clustering)模块和1个样例记忆力(Memory)模块，其损失函数为聚类排斥损失。

步骤2：获取数据集，包括有监督源域的数据集和无监督目标域的数据集，其中，有监督源域的数据集是带有标签图像的数据集，目标域数据集包含行人自然图像和通过StarGAN生成的不同相机风格(CamStyle)的图像。有监督源域数据集和无监督目标域数据集的自然图像都是现有的数据集。图3为StarGAN简易模型示意图，图4为使用StarGAN生成的CamStyle图像示例，其中，中间的图像为摄像头直接捕获的自然图像，周围是将自然图像使用StarGAN替换不同相机背景生成的CamStyle图像。

步骤3：针对有监督的源域，我们将其看成一个多类别分类问题，在训练时，使用的目标函数为交叉熵损失，如下：

其中，n_s是每一批中标记的源域的图像数量，p_i(y)是输入图像属于类别y的预测概率。

步骤4：针对无监督的目标域的数据，我们无法获取数据真正的标签信息，并且目标域的数据和源域的数据类别并不是完全一致的，因此在处理目标域数据时，源域的分类层并不适用；为此，构建样例记忆力模块作为无监督数据的分类层，存储每一批的数据，包括：每一张图片x_t,i经过FC-4096提取并L2标准化化后的特征、每张图片的名字标签以及经过聚类模块后的聚类结果c(x_t,i)，因此，样例记忆力模块是一个“特征(F)-图像ID(ID)-聚类结果(C)”这样的三级结构。针对一个目标图像x_t,i，通过以下公式对它的特征进行更新：

F[i]←αF[i]+(1-α)f(x_t,i)

其中，F[i]是目标图像x_t,i存储到聚类模块中的特征，f(x_t,i)是目标图像x_t,i经过L2标准化化后的特征，α∈[0,1]是控制特征更新速度的超参数。

步骤5：与样例存储模块并行的是深度聚类模块，目的是为了挖掘无监督数据之间的相关性。在深度聚类模块中，使用的是基于密度的空间聚类方法(DBSCAN)，DBSCAN将聚类定义为与密度相关的最大点集，并且将具有足够高密度的区域划分为一类。对于CamStyle图像，由于在生成过程中仅仅是改变了图像背景和风格而不是人物身份，我们认为CamStyle图像和原始图像属于同一类，因此，只对无监督原始图像聚类。使用DBSCAN方法构建深度聚类模块，在对网络训练了20个epoch后，网络提取了所有无监督图像的特征，然后使用聚类模块对特征进行聚类，获取每个图像的伪标签。使用聚类获得的伪标签作为样例存储模块中所存储的样例的标签，来更新网络。

样例是聚类预测的同类别图片的代表，样例标签指的是这一类别图片的伪标签。

步骤6：构建目标域的聚类排斥损失函数为：

其中，n为每一批训练图像的数目，c∈D(x_t,i,d)且x_t,i表示目标图像或CamStyle图像。当i＝c时，网络拉近图像特征和其所述类别特征之间的距离，扩大图像和其他类别之间的距离；当i≠c时，网络拉近图像和其可能所属的前d类之间的距离。

在大多数情况下，图像与属于同一类的图像相似，与来自不同类的图像明显不同，因此，我们应该减小同一类图像之间的距离，扩大不同类图像之间的距离。为此，对目标图像x_t,i，计算其提取到的特征f(x_t,i)与同类图像储存在样例存储模块中的特征F(c)之间的余弦相似度，然后使用Softmax函数计算图像x_t,i属于类别c的概率：

其中，C是聚类得到的类别数目，β是平衡参数。

使用负对数似然损失函数优化网络：

L＝-logp(c|x_t,i)

由于聚类的不完全准确性，我们对上述负对数似然损失函数做出一定修改。在计算完余弦相似度后，基于余弦相似度，我们对图像所属类别排序，选出在C个类别中最相似的前d类组成D(x_t,i,d)，最后对目标图像可能属于的类别赋予权重w_i,c：

步骤7：构建网络总损失函数为：

L_total＝(1-λ)L_src+λL_crl

其中，λ∈[0,1]控制了源域损失函数和目标域损失函数在总损失函数中所占的比重。其中，源域损失函数尽可能地正确分类，以保持行人的原始身份；目标域损失函数目的是使得属于同一行人身份的不同图像之间的距离越来越小，不同身份的图像之间的距离越来越大。

通过优化损失函数，不断训练网络交替更新，直至收敛。

获取待识别的行人图像信息，将所述图像信息输入到训练好的网络中，输出分类结果，实现对行人的重识别。

本实施例中，分别在DukeMTMC-reID和Market-1501两个大规模行人重识别数据集上进行实验。

在本实施例中，使用累积匹配特性(CMC)曲线和平均平均精度(mAP)来评估本实施例方法的性能。

本实施例的主干网络是在ImageNet数据集上预训练的ResNet-50。网络输入图像尺寸为256*128，并且在训练过程中，对图像执行随机翻转、裁剪、擦除等操作以进行数据增强。在实验中，外层循环迭代次数为8，内层循环迭代次数为20；每一个内层循环中输入图像数为128；dropout参数设置为0.5，以防止训练数据过拟合；学习率设置为0.1，且每两个外层循环学习率缩小为原来的一半；使用SGD优化器训练模型。

算法实现过程如下：

输入：有监督的源域数据集S，无监督的目标域数据集T；参数样例存储模块更新率α＝0.1，平衡参数β＝0.1，较为相似类别数目d＝3，目标损失权重λ＝0.3。

输出：R-1,R-5,R-10,mAP

训练网络，优化目标函数直至收敛。

在两个数据集上进行测试实验，首先进行了消融实验，实验结果如表1所示，其中有监督的学习方法是基线方法在有监督的目标域数据上进行训练并测试；基线方法是指本公开提出的方法(不包含深度聚类模块和样例存储模块)在有监督数据上训练，在无监督数据上测试；基线+聚类模块表示处理无监督数据集时，在基线方法基础上添加了深度聚类模块；基线+聚类+样例存储模块是本公开提出的完整的方法。由此可见，本实施例提供的方法每一个模块都对识别精度起到重要作用。

表1

其次，将实施例提出的方法与当前比较流行的其他10种行人重识别方法(UMDL,PTGAN,PUL,SPGAN,CAMEL,MMFA,TJ-AIDL,CamStyle,HHL,DECAMEL)进行对比。从表2可以看出：本实施例提供的方法在不同数据集上都表现出优于其他方法的识别性能。

表2

实施例二

在一个或多个实施方式中，公开了一种基于深度聚类和样例学习的无监督行人重识别***，包括：

用于获取待识别的行人图像的装置；

需要说明的是，上述装置的具体实现方式均可以采用实施例一中给出的方法实现，不再赘述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于深度聚类和样例学习的无监督行人重识别方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于深度聚类和样例学习的无监督行人重识别方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于深度聚类和样例学习的无监督行人重识别方法，其特征在于，包括：

构建包含源域数据集分支网络和目标域数据集分支网络的行人重识别网络结构；同时确定每一个分支网络的损失函数；

获取待识别的行人图像，将待识别的行人图像输入到训练好的网络结构中，输出数据的预测分类结果，以实现对待识别行人图像的行人重识别；

所述网络结构包括：主干网络以及分别与主干网络连接的源域数据集分支网络和目标域数据集分支网络；所述源域数据集分支网络包括依次连接的全连接层和Softmax回归层；所述目标域数据集分支网络包括并行连接的聚类模块和样例记忆力模块；

所述样例记忆力模块作为目标域数据集的分类层；所述样例记忆力模块存储的数据包括：每一张图片经过主网络提取并标准化后的特征、每张图片的名字标签以及经过聚类模块后的聚类结果。

2.如权利要求1所述的基于深度聚类和样例学习的无监督行人重识别方法，其特征在于，在对网络训练了20个epoch后，主网络提取了所有无监督图像的特征，然后使用聚类模块对特征进行聚类，获取每个图像的伪标签；使用聚类获得的伪标签作为样例存储模块中样例的标签，来更新网络。

3.如权利要求1所述的基于深度聚类和样例学习的无监督行人重识别方法，其特征在于，所述源域数据集分支网络的损失函数为交叉熵损失函数，以实现尽可能的正确分类，保持行人的原始身份。

4.如权利要求1所述的基于深度聚类和样例学习的无监督行人重识别方法，其特征在于，目标域数据集分支网络的损失函数为聚类排斥损失函数，以使得属于同一行人身份的不同图像之间的距离越来越小，不同身份的图像之间的距离越来越大。

5.如权利要求4所述的基于深度聚类和样例学习的无监督行人重识别方法，其特征在于，所述聚类排斥损失函数具体为：

其中，n为每一批训练图像的数目，对目标图像可能属于的类别赋予权重w_i,c；当i≠c时，网络拉近图像和其可能所属的前d类之间的距离；对于目标图像x_t,i，计算其提取到的特征f(x_t,i)与同类图像储存在样例存储模块中的特征F(c)之间的余弦相似度，然后使用Softmax函数计算图像x_t,i属于类别c的概率，得到p(c|x_t,i)；使用负对数似然损失函数优化网络，得到L＝-log p(c|x_t,i)。

6.基于深度聚类和样例学习的无监督行人重识别***，其基于权利要求1-5任一项所述的基于深度聚类和样例学习的无监督行人重识别方法，其特征在于，包括：

用于构建包含源域数据集分支网络和目标域数据集分支网络的行人重识别网络结构；同时确定每一个分支网络的损失函数的装置；

用于获取待识别的行人图像的装置；

7.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-5任一项所述的基于深度聚类和样例学习的无监督行人重识别方法。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-5任一项所述的基于深度聚类和样例学习的无监督行人重识别方法。