CN113657267A

CN113657267A - 一种半监督行人重识别模型、方法和装置

Info

Publication number: CN113657267A
Application number: CN202110939921.4A
Authority: CN
Inventors: 赵舶彤; 王延杰
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-16
Anticipated expiration: 2041-08-17
Also published as: CN113657267B

Abstract

本发明提供了一种半监督行人重识别模型、方法和装置，包括利用SPGAN神经网络对源域数据集的图像进行风格迁移生成与目标域数据集的图像风格相匹配的图像，将生成的相匹配的图像输入ResNet进行预训练；将利用DBSCAN算法聚类生成的硬伪标签的数据网络和基于ResNet的预测值的数据网络使用平均教师模型进行相互学***均教师模型收敛；将基于ResNet的预测值的数据网络和平均教师模型的预测值的数据网络载入FPGA，实现源域数据集的图像与目标域数据集的图像的匹配。本发明克服了普通卷积神经网络过拟合的问题，能够在应用过程中自我升级，具有良好的自适应性，可快速切换并适应不同的应用场景。

Description

一种半监督行人重识别模型、方法和装置

技术领域

本发明属于计算机视觉与智能信息处理技术领域，具体涉及一种半监督行人重识别模型、方法和装置。

背景技术

行人重识别(person re-identification)主要指给定一个摄像头拍摄的行人图像，从其他视野可能重叠但视角不同的摄像头捕获的大量图像中重新识别该行人的过程，是近年来计算机视觉领域的研究热点，在安保领域有着广泛的应用空间。

一般来说，行人重识别任务可以分解为特征提取和特征匹配两个过程。由于不同摄像头捕获的图像其背景、光照、姿势、相机分辨率都存在着较大差异，使得特征提取和特征匹配度都面临极大的挑战，提取稳健的特征表示以及设计适当的特征学习算法也就成为了解决行人重识别问题的关键。

一些研究者主要致力于提取鲁棒性较好的特征来强化行人特征的判别性，也有一些研究者主要关注在学习方法上。例如设计更好的度量方法，以使其更容易地识别相同的人，并区分不同的人，或通过学习公共的子空间或者字典消除不同摄像头之间的差异。

当前，该领域的大部分工作都关注在有监督场景下的行人重识别问题。然而在现实中，行人重识别的数据标注工作往往需要花费大量的人力和财力，特别是对跨摄像头间的行人数据进行关联的这一步骤。并且在当前深度学习时代，大部分方法都是依赖大规模的有标记数据来训练一个深度模型。而数据标注的高成本使得有监督的方法难以扩展到现实应用中。这也是阻碍行人重识别技术能够真正落地的一大因素。另一方面，在现实生活中我们能够轻松获得大量无标记的行人数据。因此在行人重识别问题的研究中，如何使用少标记的大规模图像数据来训练得到鲁棒性较好的模型，具有重大的研究价值和意义。

发明内容

本发明为了解决如何使用少标记的大规模图像数据来训练得到鲁棒性较好的模型的问题，提出了一种半监督行人重识别模型、方法和装置，该方法不存在过拟合，欠拟合，且识别精度高，网络可解释能力强。为实现上述目的，本发明采用以下具体技术方案：

一种半监督行人重识别方法，包括以下步骤：

S1、利用SPGAN神经网络对有标签的源域数据集的图像进行风格迁移，生成与无标签的目标域数据集的图像风格相匹配的图像，将生成的与无标签的目标域数据集的图像风格相匹配的图像输入到ResNet进行预训练，得到基于ResNet的预测值的数据网络；

S2、将利用DBSCAN算法聚类生成的硬伪标签的数据网络和基于ResNet的预测值的数据网络使用平均教师模型进行相互学***均教师模型收敛，得到平均教师模型的预测值的数据网络；

S3、将基于ResNet的预测值的数据网络和平均教师模型的预测值的数据网络载入FPGA，实现源域数据集的图像与目标域数据集的图像的匹配。

优选地，平均教师模型用于第一训练和第二训练：

第一训练包括利用蒸馏学习的方法对生成的硬伪标签的数据网络的参数进行更新；

第二训练包括利用损失函数减弱硬伪标签的数据网络自身的噪声。

优选地，利用蒸馏学习的方法对生成的硬伪标签的数据网络的参数进行更新的公式为：

其中，E^(T)[θ₁]和E^(T)[θ₂]分别代表经过两组不同的数据增强后由第一训练得到的用于更新硬伪标签的数据网络的新的参数；

初始参数E⁽⁰⁾[θ₁]＝θ₁，E⁽⁰⁾[θ₂]＝θ₂；

α代表蒸馏学习所设置的保留旧知识的阈值，其范围为(0,1]。

优选地，损失函数表示为：

其中，β₁,β₂,1-β₁-β₂分别为分类损失，三元组损失，吸引损失在损失函数中的权重；

为基于ResNet的预测值和硬伪标签在分类损失函数中的权重；

为基于ResNet的预测值和硬伪标签在三元组损失函数中的权重；

L^t _push代表目标域的距离损失函数；

代表目标域的软三元组损失函数；

代表目标域的软分类损失函数；

代表源域的分类损失函数；

代表目标域的硬标签分类损失函数。

优选地，ResNet的最后的卷积层为Transformer计算模块，用于增强ResNet的解耦能力。

优选地，平均教师模型的预测值由Transformer计算模块进行提取，计算公式为：

其中，Q＝W_qA+b_q；

K＝W_kA+b_k；

V＝W_vA+b_v；

A＝RELU(X+Station)；

Station为一个小数矩阵，代表矩阵中每个元素的空间位置；

W_q、W_k、W_v分别代表Q、K、V输出的权重矩阵；

b_q、b_k、b_v分别表示Q、K、V输出的偏差值。

一种半监督行人重识别模型，由上述训练方法训练得到。

一种半监督行人重识别模型的训练装置，包括处理器以及存储器，处理器调用存储器中的数据执行程序，用于实现上述的训练方法。

本发明能够取得以下技术效果：

1、本发明克服了普通卷积神经网络过拟合的问题，鲁棒性强。

2、本发明可以在应用过程中自我升级，具有良好的自适应性。

3、本发明中引入SPGAN算法使模型可以寻找到更多目标域图像和源域图像共有的特征，从而加速模型的收敛。

4、五种损失函数的引入使得模型能够注意到不同摄像头下相同的人的特征向量距离、不同的个体之间特征向量的距离以及相似的人之间的特征向量距离的处理方法。

附图说明

图1是本发明一个实施例的半监督行人重识别模型的训练方法的流程图；

图2是本发明一个实施例的模型的框架图；

图3是本发明一个实施例的SPGAN神经网络的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

本发明的目的是提供一种半监督行人重识别模型、方法和装置。下面将对本发明提供的半监督行人重识别模型的训练方法，结合图1-图3通过具体实施例来进行详细说明。

图1示出了本发明的半监督行人重识别模型的训练方法的流程图，通过SPGAN神经网络(Similarity Preserving GAN)利用大量的无标签的应用环境(目标域)的数据集对有标签的源域数据集进行风格迁移，尽可能地减小目标域与源域之间的区别，并生成预训练模型。然后通过DBSCAN聚类算法对没有标签的训练集生成伪标签。为了减少硬标签带来的噪声，训练时采用平均教师模型相互监督，输入一组小批量数据，并进行两种模式的数据增强，采用软标签作为彼此学习的结果。为了保留原始学习的信息，更新数据时选择蒸馏学习法，并通过FPGA进行硬件上的实现。

S1、利用SPGAN神经网络对有标签的源域数据集的图像进行风格迁移生成与无标签的目标域数据集的图像风格相匹配的图像，将生成的与无标签的目标域数据集的图像风格相匹配的图像输入ResNet进行预训练，得到基于ResNet的预测值的数据网络；

在本发明的一个优选实施例中，使用SPGAN神经网络对有人工标签的源域数据集进行风格迁移，一方面能够减少与无标签的目标域数据集之间图像风格的区别，另一方面在迁移的同时无需建立两个数据集之间一对一的映射关系，减少运算量。

参见图3所示的SPGAN神经网络的流程示意图，SPGAN神经网络分为Cyclegan和SiaNet两部分流程的处理：

Cyclegan用于当图片从数据集A风格转换为数据集B风格，即有标签的源域数据集的图像风格转换为无标签的目标域数据集的图片风格时，迁移风格后的图片通过第二次风格迁移应该能形成与原来风格相似，且主要信息保留的图片，包括以下几个损失函数：

生成器G和判别器D_Y的损失函数：

L_YGAN(G,D_Y,X,Y)＝E_y～py[(D_Y(Y)-1)²]+E_x～px[D_Y(G(X))²] (4)

其中，p_x和p_y分别代表样本X和样本Y的数据集的样本分布，G为生成器，D_Y为判别器，

E_x～px为对判别器Dx的期望，用于判断判别器Dx是否可以有效工作，证明Dx可以有效的判断图片是否符合X数据集的风格，对X数据集建立有效的判别器；

同理对于生成器F和判别器D_X的损失函数：

L_XGAN(G,D_X,Y,X)＝E_x～px[(D_X(X)-1)²]+E_y～py[D_X(F(Y))²] (5)

E_y～py为对判别器D_Y的期望，用于判断判别器D_Y是否可以有效工作，证明D_Y可以有效判断图片是否符合Y数据集的风格，对Y数据集建立有效的判别器；

同时，在风格迁移后能够通过另一个生成器还原成与原图像相似的图片，其还原损失函数为：

L_cyc(G,F)＝E_x～px[||F(G(X))-X||₁]+E_y～py[||G(F(Y))-Y||₁] (6)

在满足以上条件的同时，原图像在风格迁移后可以尽可能地保留原图像的信息，其迁移损失函数为：

L_id(G,F,X,Y)＝E_x～px[||F(X)-X||₁]+E_y～py[||G(Y)-Y||₁] (7)

SiaNet用于在风格迁移时，使风格迁移后的样本保留原样本所包含的信息，并且应该独立于目标域的任何一个样本，即行人重识别Reid任务中的个体不变性以及相机不变性，因此在Cyclegan的基础上添加SiaNet可以约束映射函数的学习过程。

用来训练SiaNet的相似性保留损失函数为：

L_con(i,x₁,x₂)＝(1-i){max(0,m-d)}²+i*d² m∈[0,2] (8)

其中，x₁，x₂为一对输入向量的样本对；

d为两个向量之间的欧氏距离；

i表示x₁，x₂是否为正样本，

如果为正，则i＝1；如果为负，则i＝0；

m代表正负样本之间的阈值。

当m＜0时，负样本对会被损失函数无视并无法引入反向传播***；当m>0时，正负样本对会被考虑到损失函数中。

而m则决定了正负样本在损失函数中的比例显然，通过这个损失函数，我们可以让正样本对之间的距离减少，并让负样本对之间的距离增大。

因此，SPGAN的整体损失函数为：

L_SPGAN＝L_XGAN+L_YGAN+λ₁L_cyc+λ₂L_id+λ₃L_con (9)

其中λ₁，λ₂，λ₃为控制上述三种损失函数之间相对关系的权重。

在完成风格迁移后，对迁移后的图片进行基于ResNet的预训练，预训练的损失函数表示为：

其中，

代表源域的三元组损失函数；

代表源域的分类损失函数；

λ代表分类函数于三元组函数之间的权重；

N_s代表源域的样本数量，s代表源域；

L_ce为交叉熵损失函数；

为预训练网络提取出来的特征；

为源域分类器，用于判断预训练模型的输出结果是否为对应样本的标签；

代表源域的第i个样本的标签；

代表源域i样本的正样本；

代表源域i样本的负样本；

m代表正负样本之间的阈值；

‖.‖表示范式距离。

在本发明的一个优选实施例中，使用DBSCAN算法对无标签的目标域数据集进行聚类，生成硬伪标签(即一个数据只有一个针对的标签)，由于使用硬伪标签在学***均教师模型对硬伪标签和软标签进行相互学习与监督，参考图2。

平均教师模型用于两部分的训练：1、通过DBSCAN聚类算法生成伪硬标签，利用蒸馏学***均教师模型的参数。

行人重识别Reid属于open class类型的问题，因此并不确定任务中行人id的数量，因此在训练过程中需要考虑到行人重识别Reid任务中的样本不变性，相机不变性，近邻不变性三个特征。

虽然通过Kmeans和DBSCAN生成硬伪标签会达到类似的精度，但是DBSCAN可以对任意孔径分布的稠密数据集进行聚类，可以在聚类的同时发现异常点，而且对聚类的结果没有偏倚，不会像Kmeans一样会被初始值的位置所影响。因此，为了让模型在学习过程中注意open class的特征，选择DBSCAN生成硬伪标签。

为了避免模型利用聚类的硬伪标签进行自监督，因此搭建协同网络，并且令每个批次的输出经过两组不同的数据增强，并让输出的结果彼此监督，保证了两个网络，即Net1与Net2之间的独立性。值得注意的是，每次训练后网络只会保留在目标域性能较好的参数，因此本质上本发明只训练了一个网络。

而在学习过程中，为了保留在预训练以及之后的训练中已经学习到了判别性特征，本发明选择使用蒸馏学习的思想更新硬伪标签的数据网络的参数，其参数更新公式如下所示：

其中，T表示第T次训练；

E^(T)[θ₁]和E^(T)[θ₂]分别代表经过两组不同的数据增强后由第一训练得到的用于更新硬伪标签的数据网络的新的参数；

初始参数E⁽⁰⁾[θ₁]＝θ₁，E⁽⁰⁾[θ₂]＝θ₂；

θ₁、θ₂在第一训练初始时是一样的，但随着多次训练变得不同，最终选取训练结果较好的值作为硬伪标签的数据网络的参数。

α代表蒸馏学习所设置的保留旧知识的阈值，其范围为(0,1]。

在学习过程中，为了减弱硬伪标签自身带来的噪声，引入基于软标签的软分类损失函数和软三元组损失函数，其软标签代表输出结果为各行人id的概率。

基于软标签的目标域的软分类损失函数为：

其中，

代表第j个网络中基于E^(T)[θ_j]参数的目标域的分类器，j∈{1，2}；

和

分别代表目标域的第i个样本的两次数据增强；

代表基于Net2参数的模型应用在分析Net1参数得到相同输入的输出结果的软分类损失函数；

代表基于Net1参数的模型应用在分析Net2参数得到相同输入的输出结果的软分类损失函数；

t代表目标域，N_t代表目标域样本的个数；Ns代表源域的样本个数。

基于软标签的目标域的软三元组损失函数为：

其中，L_bce表示二元交叉熵损失函数；

表示目标域i样本的正样本；

表示目标域i样本的负样本；

代表基于Net2参数的模型应用在分析Net1参数得到相同输入的输出结果的软三元组损失函数；

代表基于Net1参数的模型应用在分析Net2参数得到相同输入的输出结果的软三元组损失函数；

通过以上的软分类损失函数和软三元组损失函数可以拉近样本与正样本之间的距离，并推远样本与负样本之间的距离。

但是软三元组损失函数和软分类损失函数只考虑的将相同类别的个体拉近，不同类别的个体推远，而没有考虑到将相似的样本拉近。即只考虑了样本不变性和相机不变性，而没有考虑到近邻不变性。因此我们需要引入吸引的距离损失函数，拉近相似个体之间的距离：

其中，L^t _push(θ₁|θ₂)代表代表基于Net2参数的模型应用在分析Net1参数得到相同输入的输出结果的距离损失函数；

L^t _push(θ₂|θ₁)代表代表基于Net1参数的模型应用在分析Net2参数得到相同输入的输出结果的距离损失函数；

代表平均教师模型提取出来的特征；

代表目标域分类器。

在本发明的一个优选实施例中，平均教师模型的损失函数还包括传统的，基于无监督的领域适应方法UDA(Unsupervised domain adaptation)的行人重识别Reid任务的硬标签分类损失函数和硬标签三元组损失函数，其中，

目标域的硬标签分类损失函数为：

其中，L_ce表示交叉熵损失函数，

表示为F这个函数得到的是用于分类器的结果，用于交给分类器C判断身份的id。

目标域的硬标签三元组损失函数为：

其中，m代表正负样本之间的阈值；

因此，平均教师模型中的损失函数可以表示为：

其中，β₁,β₂,1-β₁-β₂分别为分类损失，三元组损失，距离损失在损失函数中的权重；

为软标签和硬伪标签在分类损失函数中的权重；

为软标签和硬伪标签在三元组损失函数中的权重。

在本发明的一个优选实施例中，ResNet的最后的卷积层为Transformer计算模块，用于增强ResNet的解耦能力。

平均教师模型的预测值由Transformer计算模块进行提取，计算公式为：

其中，Q＝W_qA+b_q；

K＝W_kA+b_k；

V＝W_vA+b_v；

A＝RELU(X+Station)；

Station为一个小数矩阵，代表矩阵中每个元素的空间位置；

W_q、W_k、W_v分别代表Q、K、V输出的权重矩阵；

b_q、b_k、b_v分别表示Q、K、V输出的偏差值。

即对Q，K，V三个输出运算完成后利用softmax函数得到最后的结果Output。

在本发明的另一个实施例中，利用搭建完成的平均教师模型进行如下训练：

利用DBSCAN算法对经过数据增强的无标签的目标域数据生成硬伪标签，基于获得的硬伪标签按照在平均教师模型上进行训练，得到Net1、Net2后，分别通过临时平均模型对Net1和Net2的参数进行蒸馏学习的更新，得到Mean Net1和Mean Net2；将Net1与Mean Net2进行相互学习，Net2与Mean Net1进行相互监督，选择最匹配的一组进行保留；重新利用DBSCAN算法生成一组新的硬伪标签，重复上述过程，选择一组最为匹配的图像，替换上一次保留的图像，因此本质上我们只训练了一个网络。

在本发明的一个优选实施例中，为了便于模型的应用及数据收集，采用米联客MZU09A开发板可将训练好的网络部署后实现对图像中的行人的重识别，借助互联网定期手机数据，让模型可以逐渐自适应应用环境。

表一为本发明的半监督行人重识别方法相较于其它行人重识别方法输入评分***的比较结果：

表一

从上表可以看出本发明的方法相对于现有技术中的行人重识别的方法，在测试***中的评分高于其它，且在测试***中对最像的前1个，前5个和前10个的正确目标的概率值高于其它方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。