CN113111814B

CN113111814B - 基于正则化约束的半监督行人重识别方法及装置

Info

Publication number: CN113111814B
Application number: CN202110426252.0A
Authority: CN
Inventors: 吕刚; 蒋鹏飞; 年福东; 吴超; 周铜; 徐珊珊; 赵浩; 梅益
Original assignee: Hefei University
Current assignee: Hefei University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-12-06
Anticipated expiration: 2041-04-20
Also published as: CN113111814A

Abstract

本发明公开了基于正则化约束的半监督行人重识别方法及装置，该方法包括：对行人重识别模型进行训练；将待识别图像输入第一神经网络或者第二神经网络进行行人重识别；其中，行人重识别模型的训练过程包括：将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络；计算第一神经网络输出值的第一约束函数和第二约束函数；基于第一约束函数和第二约束函数对第一神经网络进行参数更新，并即时基于更新后的第一神经网络参数更新第二神经网络参数，完成行人重识别模型训练。本发明与当前常用的半监督行人重识别方法相比较，能更有效的利用无标签数据的信息，可以进一步提升算法效果。

Description

基于正则化约束的半监督行人重识别方法及装置

技术领域

本发明涉及识别技术领域，尤其涉及基于正则化约束的半监督行人重识别方法及装置。

背景技术

行人的重识别是一项极具挑战性的检测与识别任务，重点是给定一个行人的图像，从底库中检索该行人在不同场合下的图像进行识别。目前由于绝大多数行人重识别模型是基于监督学习下去检索行人，而这过程需要大量的带标签的训练数据，且获得高质量的带标签的行人重识别是非常耗时耗力的，这使得监督学习下的行人重识别方法的实际应用价值大大降低。另一方面深度卷积神经网络容易过度拟合小数据集，导致学习到的特征表示或相似度函数不能很好地推广到测试集，成为监督学习下的行人重识别算法中的主要瓶颈，从而影响了行人重识别的应用。

发明内容

针对上述现有技术存在的问题，本发明提供了基于正则化约束的半监督行人重识别方法，通过对未标记数据进行数据增广处理，然后输入分类器，训练时使预测结果保持一致，将此规则作为损失函数的正则项，实现基于正则化约束的半监督图像识别，该方法结构简单，便于训练。

本发明的第一方面提供了一种基于正则化约束的半监督行人重识别方法，包括：

对行人重识别模型进行训练，所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络；

将待识别图像输入第一神经网络或者第二神经网络进行行人重识别；

其中，行人重识别模型的训练过程包括：

(1)将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络；

(2)基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数，基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数；

(3)基于第一约束函数和第二约束函数对第一神经网络进行参数更新，并即时基于更新后的第一神经网络参数更新第二神经网络参数；

(4)重复(1)-(3)直至(2)中的第一约束函数和第二约束函数的融合结果满足收敛条件，完成行人重识别模型训练。

本发明的第二方面提供了一种基于正则化约束的半监督行人重识别装置，包括：

模型训练模块，用于对行人重识别模型进行训练，所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络；

行人重识别单元，用于将待识别图像输入第一神经网络或者第二神经网络进行行人重识别；

其中，模型训练模块包括：

样本输入单元，用于将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络；

模型约束函数计算单元，用于基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数，基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数；

模型权重参数更新单元，用于基于第一约束函数和第二约束函数对第一神经网络进行参数更新，并即时基于更新后的第一神经网络参数更新第二神经网络参数；

模型权重参数迭代更新单元，用于重复样本输入单元、模型约束函数计算单元和模型权重参数更新单元直至模型约束函数计算单元中的第一约束函数和第二约束函数的融合结果满足收敛条件，完成行人重识别模型训练。

本发明的第三方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。

本发明的第四方面提供了一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。

本发明实施例的第三方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。

本发明的基于正则化约束的半监督行人重识别方法及装置，具备如下有益效果：

1、本发明通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络，先对第一神经网络进行训练得到模型权重参数，基于第一神经网络参数对第二神经网络模型权重参数进行更新，并迭代依次对第一神经网络和第二神经网络模型训练优化，与当前常用的半监督行人重识别方法相比较，本发明实施例得到行人重识别模型更简单速度更快，对进一步提升半监督行人重识别的现实应用价值有着重大意义。

2、本发明通过设置第二神经网络模型不参与模型训练，采用第二神经网络模型来记录统计第一神经网络的当前时刻以及历史时刻的网络模型权重参数，在行人重识别模型的整个训练过程中一直维护着第二神经网络的模型参数，避免第一神经网络模型的训练过程中权重参数的抖动带来的影响，提高了最终行人重识别模型的鲁棒性。

3、通过与现有的两种半监督行人重识别算法进行对比，本发明中的半监督行人重识别算法，能更有效的利用无标签数据的信息，可以进一步提升算法效果，对进一步提升半监督行人重识别的现实应用价值有着重大意义。

4、通过对比仅用有标签训练数据的损失曲线与利用无标签与有标签组合训练数据对比试验可得，利用无标签与有标签组合训练数据时，其损失曲线比仅用有标签训练数据的损失曲线下降更快，最终损失曲线较仅有标签训练数据的损失曲线更平滑，表明本发明所提出的算大在训练过程中采用无标签作为训练数据的一部分，与有标签数据一同训练增加了网络的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于正则化约束的半监督行人重识别方法的整体流程框图；

图2是本发明实施例中行人重识别模型训练示意图；

图3是基于market1501公开数据集上实验验证时1％有标签和99％无标签数据的模型损失损失值曲线；

图4是基于market1501公开数据集上实验验证时5％有标签和95％无标签数据的模型损失损失值曲线；

图5是本发明实施例的基于正则化约束的半监督行人重识别装置的整体结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例提供基于正则化约束的半监督行人重识别方法，包括：

对行人重识别模型进行训练，该行人重识别模型包括结构完全相同的第一神经网络和第二神经网络；

其中，行人重识别模型的训练过程包括：

基于训练完成的行人重识别模型，将待识别图像输入第一神经网络或者第二神经网络进行行人重识别。

本发明实施例通过两个结构完全相同但参数不同的神经网络进行训练，在每个轮次的行人重识别模型权重参数训练更新过程中，第二神经网络模型不参与模型训练，即该模型不进行该模型的损失函数值计算并基于模型损失函数值进行反向传播更新该模型的网络权重参数，该第二神经网络模型的网络模型权重参数仅是用于记录统计第一神经网络参数历史轮次的模型权重参数，具体的，基于第一神经网络参数获得第二神经网络模型的网络模型权重参数的方法为：θ′_t＝α_tθ′_t-1+(1-α_t)θ_t，其中，

t为当前迭代轮次，θ′_t为第二神经网络当前迭代轮次t时的模型权重参数，θ_t为第一神经网络当前迭代轮次t时的模型权重参数。

基于上述，在每个轮次的行人重识别模型权重参数训练更新过程中，通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络后，基于有标签图像输入到第一神经网络后得到的输出值、当前时刻第一神经网络的权重参数数据和每层隐层输出的隐层特征数据计算第一约束函数，该第一约束函数包括：

对于每个有标签图像

在有标签图像数据集中随机选择一个同类标签的样本

和一个不同类标签的样本

组成一个三元训练样本；

基于一个三元训练样本输入到第一神经网络后获得输出

基于输出的

趋向于与

一致同时趋向于与

不一致为约束条件，获得三元组损失函数L1：

其中ε为超参数。

基于

和有标签图像

的标签数据

计算得到交叉熵损失函数L2；

基于有标签图像

输入到第一神经网络后获得输出

时的网络权重参数θ的矩阵与正交矩阵的损失值计算得到第一正交约束函数L_OW；

基于有标签图像

输入到第一神经网络过程中全部隐藏层输出的隐藏特征矩阵与正交矩阵的损失值计算得到第二正交约束函数L_OF；

基于三元组损失函数、交叉熵损失函数、第一正交约束函数、第二正交约束函数进行加权和得到第一约束函数

为：

其中，

表示有标签图像，

表数无标签图像，

表示有标签图像

在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果，

表示无标签图像

表示有标签图像

在第二神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果，

表示无标签图像

在第一神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果，β_tr，β_OF，β_OW是超参数，该超参数的设置可以通过二分法进行确定。

基于上述，在每个轮次的行人重识别模型权重参数训练更新过程中，通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络后，基于同一张有标签图像数据

输入到第一神经网络的输出

和输入到第二神经网络的输出

的差异最小化，且同一张无标签图像数据

输入到第一神经网络的输出

和输入到第二神经网络的输出

的差异最小化，得到第二约束函数：

其中，(h,w)表示图像的每个像素点。

基于第一约束函数和第二约束函数作为行人重识别模型的训练目标函数，该行人重识别网络模型目标函数为：

其中λ表示权重因子用于控制正则化项的比重。

基于上述，在每个轮次的行人重识别模型权重参数训练更新过程中，通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络后，得到行人重识别模型的目标函数后，基于目标函数值采用梯度下降法对第一神经网络模型权重参数进行更新。

上述第一约束函数中的第一正交约束函数L_OW和第二正交约束函数L_OF的计算方法类似，本实施例中仅对第一正交约束函数获取方法进行说明，该获取过程包括：

基于第一神经网络的每层权重参数作为一个向量，基于第一神经网络的所有层权重参数获得一个格拉姆矩阵F，

基于格拉姆矩阵F乘格拉姆矩阵的转置趋向于与拉姆矩阵的转置乘以格拉姆矩阵为约束条件得到第一正交约束函数L_OW为：

其中，η、λ₁、λ₂为系数。

基于本发明实施例中的半监督行人重识别方法，通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络，先对第一神经网络进行训练得到模型权重参数，基于第一神经网络参数对第二神经网络模型权重参数进行更新，并迭代依次对第一神经网络和第二神经网络模型训练优化，与当前常用的半监督行人重识别方法相比较，本发明实施例得到行人重识别模型更简单速度更快，对进一步提升半监督行人重识别的现实应用价值有着重大意义。通过采用第二神经网络模型来记录统计第一神经网络的当前时刻以及历史时刻的网络模型权重参数，在行人重识别模型的整个训练过程中一直维护着第二神经网络的模型参数，避免第一神经网络模型的训练过程中权重参数的抖动带来的影响，提高了最终行人重识别模型的鲁棒性。

优选的，本发明实施例中训练行人重识别模型所采用的有标签图像数据和无标签图像数据，都对采集图像进行了图像缩放、随机水平翻转和随机擦除处理以对训练样本进行数据增强，避免模型训练过拟合，提高模型识别准确性。

本发明实施例中，上述有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络得到输出结果的过程中，第一神经网络和第二神经网络对输入的图像数据的处理过程一致，以有标签图像数据

输入到第一神经网络后得到

的过程为例进行说明，该过程包括：

将图像数据输入第一卷积层网络得到第一图像特征图，每个所述卷积层中加入了权重正交化层；

基于第一图像特征图依次输入第一注意力层和隐藏特征正交化层后输入第二卷积层网络得到第二图像特征图，所述第一注意力层用于将第一图像特征图的相似通道组合；

基于第二图像特征图输入到第三卷积层网络，所述第三卷积层网络中包括1个卷积层、1个隐藏特征正交化层、1个第一注意力层和隐藏特征正交化层组合层、1个第二注意力层和隐藏特征正交化层组合层，所述1个卷积层通过1个隐藏特征正交化层分别连接1个第一注意力层和隐藏特征正交化层组合层和1个第二注意力层和隐藏特征正交化层组合层，所述1个隐藏特征正交化层、1个第一注意力层和隐藏特征正交化层组合层、1个第二注意力层和隐藏特征正交化层组合层的输出进行融合后，输入到1个隐藏特征正交化层，并经过全局平均池化层获得第一特征向量，其中第二注意力层用于对输入该注意力层的特征图中语义相关的像素点进行整合；

基于第二图像特征图输入到第四卷积层网络获得第二特征向量，所述第四卷积层网络包括1个卷积层和1个全局平均池化层；

基于第一特征向量和第二特征向量输入分类层网络获得图像识别结果。

可以理解，上述第一卷积层网络、第二卷积层网络、第三卷积层网络、第四卷积层网络中提到的所述卷积层指的是用于提取图像特征的卷积层，每个该用于提取图像特征的卷积层中均添加了权重正交化层，当然在第一卷积层网络、第二卷积层网络、第三卷积层网络、第四卷积层网络中还可以包括用于对图像特征提取后进一步对特征数据处理的1*1卷积层。

本发明实施例提出的第一神经网络和第二神经网络的网络模型结构可以在现有的特征提取网络中通过对应位置添加权重正交化层、隐藏特征正交化层、第一注意力层和第二注意力层得到，其中第三卷积层网络通过1个隐藏特征正交化层将该层输入的特征图变得更小，通过第三卷积层网络提取到更细节的特征，通过第四卷积层网络提取到全局特征，将两者组合得到更加丰富的特征信息，以提高模型识别准确率。

进一步的，上述行人重识别模型的训练过程中，包括预训练和再调整过程，

其中预训练包括对部分网络层进行第一预设轮次的训练，本实施例中第一预设轮次采用10，预训练的部分网络可以包括1*1卷积层、分类层和所有注意层，再调整过程基于预训练的结果对全部网络层进行模型调整训练，其中第一预设轮次的训练过程中第一约束函数

中的超参数β_OF，β_OW置0，即在预训练过程中采用的行人重识别目标函数包括三元组损失函数、交叉熵损失函数和第二约束函数，在再调整过程中采用的行人重识别目标函数包括第二约束函数L_E和由三元组损失函数、交叉熵损失函数、第一正交约束函数、第二正交约束函数进行加权和得到的第一约束函数

本发明实施例中采用预训练和再调整结合的训练方法，有效提高了训练效率。

本发明实施例还提供了一种基于正则化约束的半监督行人重识别装置，包括：

其中，模型训练模块包括：

本发明实施例所提供的行人重识别装置可以直接体现为由处理器执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器，处理器读取存储器中软件模块包括的可执行指令，结合必要的硬件完成本发明实施例提供的行人重识别方法。另外，本实施例提供的行人重识别装置与上述实施例提供的行人重识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供了一种终端,该终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述实施例中的基于正则化约束的半监督行人重识别方法。

本发明实施例提供的终端包括：至少一个处理器、存储器、用户接口和至少一个网络接口。终端中的各个组件通过总线***耦合在一起。可以理解，总线***用于实现这些组件之间的连接通信。

本发明实施例提供了一种存储介质，该存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述实施例中的基于正则化约束的半监督行人重识别方法。

可以理解，存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器能够存储数据以支持终端的操作。这些数据的示例包括：用于在终端上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

基于上述实施例中公开的基于正则化约束的半监督行人重识别方法，进行实验验证，该验证过程如下所述：

采用market1501作为数据集，该数据集包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到，并且在一个摄像头中可能具有多张图像。训练集有751人，包含12,936张图像，平均每个人有17.2张训练数据；测试集有750人，包含19,732张图像，平均每个人有26.3张测试数据。训练集按751人标签进行划分有标签与无标签，其中有标签数据占整个训练集标签的比例分别为1％，5％，10％，20％，40％，并采用平均精度均值(mean AveragePrecision)和搜索结果中最靠前(置信度最高)的n张图有正确结果的概率(rank-n)作为行人重识别的准确率度量标准。

采用PyTorch深度学***翻转和随机擦除来增强数据，然后采用两步法对模型进行训练。首先，进行预训练过程，训练了10周期的1*1卷积层、分类层和所有注意层，并只用交叉熵损失和三元组损失。然后，所有层都被释放进行全部训练，并使用全部损失，其中设置β_tr＝10^-1，β_OF＝10^-6，β_OW＝10^-3和三元组损失参数ε＝1.2。

本发明通过不同数量有、无标签训练数据的mAP和Rank-1的精度对比，评估上述实施例提出的行人重识别方法能否有效利用大量无标签训练数据，由表1可以看出，本发明实施例算法在其他条件一致时，相比于仅利用无标签数据，通过对无标签训练数据的有效建模，通过无标签训练数据的建模，显著提升行人重识别的准确率，体现了本发明提出的半监督行人重识别算法的有效性。上述不同数量有/无标签训练数据的mAP和Rank-1的精度数据如下表1所述。

表1不同有/无标签训练数据的mAP和Rank-1对比

本实施例中通过算法对比验证本发明算法的优越性，实验过程如下：

选择两种现有的半监督行人重识别算法进行对比，从表2中可以看出本发明实施例提出的算法能更有效的利用无标签数据的信息。基于本发明提出的行人重识别算法，通过现有技术中的方法增加网络深度进一步获取特征，可以进一步提升算法效果，并且本发明中提出的行人重识别方法更加简单、速度更快，对进一步提升半监督行人重识别的现实应用价值有着重大意义，上述实验中的对比数据如下表2所述：

表2三种算法的mAP与Rank-1对比

本实施例中通过对比仅用有标签训练数据的损失曲线与利用无标签与有标签组合训练数据的损失曲线对本发明提出的算法进行定性评估，实验过程如下：

采用ABD-Net作为半监督行人重识别网络，第一步将训练集设置为仅有1％有标签数据和训练集同时包含1％有标签和99％无标签数据两种情况，通过计算得到上述两种情况下的最终损失曲线，如图3所示；第二步将训练集设置为仅有5％有标签数据和训练集同时包含5％有标签和95％无标签数据两种情况，通过计算得到上述两种情况下的最终损失曲线，如图4所示。同比图3、图4可得利用无标签与有标签组合训练数据时，其损失曲线比仅用有标签训练数据的损失曲线下降更快，最终损失曲线较仅有标签训练数据的损失曲线更平滑，表明本发明所提出的算法在训练过程中采用无标签作为训练数据的一部分，与有标签数据一同训练增加了网络的鲁棒性。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。