CN108875487A

CN108875487A - 行人重识别网络的训练及基于其的行人重识别

Info

Publication number: CN108875487A
Application number: CN201710906719.5A
Authority: CN
Inventors: 罗浩; 张弛
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-11-23
Anticipated expiration: 2037-09-29
Also published as: CN108875487B

Abstract

本发明提供了行人重识别网络的训练及基于其的行人重识别的方法、装置、***和存储介质，所述行人重识别网络的训练方法包括：利用分类损失对基准网络进行预训练；以及联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。根据本发明实施例的行人重识别网络的训练方法、装置、***和存储介质联合分类损失和距离损失进行训练，能够加快训练过程并提高精度；此外，在距离损失环节中采用五元组方法，相比于传统的三元组、改进三元组和四元组方法，能够显著缩短训练时间，并且进一步提高精度。

Description

行人重识别网络的训练及基于其的行人重识别

技术领域

本发明涉及行人重识别技术领域，更具体地涉及一种行人重识别网络的训练及基于其的行人重识别方法、装置、***和存储介质。

背景技术

行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

现有的行人重识别方法根据训练思想可以分成两种做法：第一种是把每个行人作为一个类别，将行人重识别转化为图像分类问题；第二种是提取每张行人图片的特征，计算两种图片特征的距离，通过最小化同一个人之间图片特征的距离和最大化不同行人之间图片特征的距离来训练一个提取特征的网络模型，目前的方法包括三元组、改进三元组以及四元组。

然而，基于分类损失训练的模型在精度方面很难达到一个很高的水平，而基于距离损失训练的模型虽然精度通常会优于前者，但是网络训练时间却非常长。

发明内容

针对上述问题，本发明提出了一种关于行人重识别网络的训练的方案，其结合两种方法的优点，通过联合分类损失和距离损失来加快训练过程并提高精度。下面简要描述本发明提出的关于行人重识别网络的训练的方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种行人重识别网络的训练方法，所述训练方法包括：利用分类损失对基准网络进行预训练；以及联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

在本发明的一个实施例中，所述利用分类损失对基准网络进行预训练包括：将样本图片输入到所述基准网络；将所述基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；基于所述分类损失调整所述基准网络的参数；以及反复进行上述步骤，直到分类准确度和分类损失基本不再变化。

在本发明的一个实施例中，所述基准网络为残差网络。

在本发明的一个实施例中，在将所述样本图片输入到所述基准网络之前，对所述样本图片实施预处理操作。

在本发明的一个实施例中，所述联合分类损失和五元组损失对经预训练的基准网络进行调优包括：按预定要求和顺序输入五元组的五张样本图片；基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。

在本发明的一个实施例中，所述所计算的分类损失为所述五张样本图片的分类损失的平均值。

在本发明的一个实施例中，所述五元组损失定义为：

l_qt＝d(正样本1,正样本2)-d(负样本1,负样本21)+d(负样本21,负样本22)-d(负样本1,正样本2)+a

其中，l_qt为五元组损失；正样本1、正样本2、负样本1、负样本21以及负样本22为所述五张样本图片，且正样本1和正样本2为第一行人的两张不同图片，负样本1为第二行人的图片，负样本21和负样本22为第三行人的两张不同图片；d为两张图片的特征向量之间的距离；a为根据需求设置的常数参数。

在本发明的一个实施例中，所述最终的损失为所述所计算的分类损失和所述所计算的五元组损失的加权和。

根据本发明另一方面，提供了一种行人重识别网络的训练装置，所述练装置包括：预训练模块，用于利用分类损失对基准网络进行预训练；以及调优模块，用于联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

在本发明的一个实施例中，所述预训练模块对所述基准网络的预训练进一步包括：将样本图片输入到所述基准网络；将所述基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；基于所述分类损失调整所述基准网络的参数；以及反复进行上述操作，直到分类准确度和分类损失基本不再变化。

在本发明的一个实施例中，所述基准网络为残差网络。

在本发明的一个实施例中，所述预训练模块还用于：在将所述样本图片输入到所述基准网络之前，对所述样本图片实施预处理操作。

在本发明的一个实施例中，所述调优模块对经预训练的基准网络的调优包括：按预定要求和顺序输入五元组的五张样本图片；基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。

在本发明的一个实施例中，所述五元组损失定义为：

根据本发明另一方面，提供了一种行人重识别方法，所述行人重识别方法采用上述任一项所述的行人重识别网络的训练方法训练而成的行人重识别网络进行行人重识别。

根据本发明另一方面，提供了一种行人重识别装置，所述行人重识别装置用于实施上述行人重识别方法。

根据本发明又一方面，提供了一种计算***，所述***包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的行人重识别网络的训练方法或执行上述行人重识别方法。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的行人重识别网络的训练方法或执行上述行人重识别方法。

根据本发明实施例的行人重识别网络的训练方法、装置、***和存储介质联合分类损失和距离损失进行训练，能够加快训练过程并提高精度；此外，在距离损失环节中采用五元组方法，相比于传统的三元组、改进三元组和四元组方法，能够显著缩短训练时间，并且进一步提高精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的行人重识别网络的训练方法、装置、***和存储介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的行人重识别网络的训练方法的示意性流程图；

图3示出根据本发明实施例的基准网络预训练的示意图；

图4示出根据本发明实施例的基准网络预训练后调优的示意图；

图5示出根据本发明实施例的行人重识别网络的训练装置的示意性框图；以及

图6示出根据本发明实施例的行人重识别网络的训练***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的行人重识别网络的训练方法、装置、***和存储介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集用户期望的图像(例如照片、视频等)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他图像采集装置采集样本图片或样本图片，并将采集的图片发送给电子设备100。

示例性地，用于实现根据本发明实施例的行人重识别网络的训练方法、装置、***和存储介质的示例电子设备可以被实现为诸如智能手机、平板电脑等。

下面，将参考图2描述根据本发明实施例的行人重识别网络的训练方法200。如图2所示，行人重识别网络的训练方法200可以包括如下步骤：

在步骤S210，利用分类损失对基准网络进行预训练。

在一个实施例中，可以首先利用分类损失来预训练网络模型，由于通常通过几十次的迭代训练即可使网络快速收敛，而要达到相同的性能，基于距离损失的方法至少需要耗费十倍的训练时间，因此利用分类损失预训练网络模型可以大大缩短训练时间。

在一个实施例中，利用分类损失进行预训练的网络模型称为基准网络，后续将描述的调优步骤在经过预训练后的该基准网络上实施。示例性地，基准网络可以为残差网络，例如为大规模图像识别挑战赛(ImageNet)预训练的残差网络(ResNet50)。当基准网络为该残差网络时，在将样本图片输入到基准网络以进行训练之前，可先将样本图片进行预处理。

例如，可以将样本图片的大小变换为224×224像素，图像格式为BGR通道格式，每个通道需要减掉ImageNet所有图像在该通道的平均值，用公式表示为：

新的B通道＝原始的B通道-104.00698793

新的G通道＝原始的G通道-116.66876762

新的R通道＝原始的R通道-122.67891434

以上预处理过程仅是示例性的，且不是必需的。在其他示例中，也可以采用其他自定义的卷积网络或其他合适的网络作为基准网络，相应地，可以在将样本图片输入到该基准网络之前实施其他合适的预处理过程。

在一个实施例中，步骤S210中利用分类损失对基准网络进行预训练可以进一步包括：将样本图片输入到基准网络；将基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；基于所述分类损失调整所述基准网络的参数；以及反复进行上述步骤，直到分类准确度和分类损失基本不再变化。

具体地，可以结合图3进一步理解上述基准网络的结构和预训练过程。如图3所示，可以将输入图像(例如经过预处理后的样本图片)输入到基准网络(在图3中示出为残差网络ResNet50)，在经过归一化分类层(Softmax)之后，基准网络会针对每张样本图片输出一个预测向量，该预测向量的第i个元素的值表示这张图片是第i个人的概率(i＝1,2,3,……,N，其中N为自然数)，所以这个向量的元素的和为1。

然后，可将该预测向量与该样本图片的标签向量(即标注的标签，例如为人工标注的标签)相比较以得到分类损失。由于标签向量是独热(one-hot)向量，即只有一个元素是1，其他的元素是0，这个1就代表是第几个人，即ID信息。分类损失即为基准网络输出的预测向量与标签向量之间的差异(例如采用交叉熵损失)。接着，可将该分类损失反向传播回基准网络来调整基准网络的参数。

前向计算预测向量和反向更新网络参数是一次完整的迭代，反复进行这样的迭代直到最后的分类准确度和分类损失基本不再变化则停止训练。通常这个阶段仅需要几十次迭代网络便可以快速收敛。因此，可以大大缩短训练时间。

现在返回参考图2，继续描述根据本发明实施例的行人重识别网络的训练方法200的后续步骤。

在步骤S220，联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

在一个实施例中，五元组指的是按照一定要求和顺序选择三个不同行人的五张样本图片，其具体情况如下：

(1)图片1：行人1的第一张图片，命名为正样本1；

(2)图片2：行人1的第二张图片，与图片1不同，命名为正样本2；

(3)图片3：行人2的第一张图片，命名为负样本1；

(4)图片4：行人3的第一张图片，命名为负样本21；

(5)图片5：行人3的第二张图片，与图片4不同，命名为负样本22。

在一个实施例中，五元组损失可以定义为如下公式：

其中，l_qt为五元组损失，正样本1、正样本2、负样本1、负样本21以及负样本22为上述五张样本图片，正样本1和正样本2为第一行人的两张不同图片，负样本1为第二行人的图片，负样本21和负样本22为第三行人的两张不同图片；a为根据需求设置的常数参数(例如可设置为2或其他根据实际需要任意设置的值)；d为两张图片的特征向量之间的距离，例如，d(正样本1,正样本2)为行人1的第一张图片和行人1的第二张图片的特征向量之间的距离，d(负样本1,负样本21)为行人2的第一张图片与行人3的第一张图片之间的距离，诸如此类等等。在一个示例中，上述的d可以表示欧式距离。在其他示例中，也可以基于特征向量之间的其他距离来计算五元组损失，诸如余弦距离、马氏距离等。

不同图片的特征向量(也称为图片内容特征向量)之间的距离(例如二维欧式距离)可定义不同图片之间的相似度。将上述样本图片输入到经过预训练的基准网络，全连接层Fc(也可称为特征层，如图3所示的)将输出对应于每张样本图片的特征向量。假定上述图片1和图片2经过网络之后提取的特征向量分别为f1和f₂，可首先对特征向量进行正则化(normalization)，正则化的公式为：

其中，|f|表示向量f的模，假设用f_n1和f_n2分别表示f₁和f₂正则化后的向量，则二维欧式距离定义为：

基于上述距离d，即可计算五元组损失。

在一个实施例中，步骤S220联合分类损失和五元组损失对经预训练的基准网络进行调优可以进一步包括：按预定要求和顺序输入五元组的五张样本图片；基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。

下面结合图4描述上面所述的联合分类损失和五元组损失对经预训练的基准网络进行调优的示例性过程。

如图4所示的，将上述五元组样本图片(包括正样本1、正样本2、负样本1、负样本21以及负样本22)输入到经训练后的基准网络。此处，为了与步骤S210的预训练阶段的基准网络相区分，将预训练阶段的基准网络命名为ID网络(IDNet)，并将步骤S220调优阶段的网络命名为五元组-ID网络(Quintuplet-IDNet)，然而应理解，实际上这两个阶段是同一个网络结构，正如图4所示的，将正样本1、正样本2、负样本1、负样本21以及负样本22输入到Quintuplet-IDNet，也即输入到IDNet。

在将上述样本图片输入到Quintuplet-IDNet后，针对每张样本图片，Fc层将输出与其对应的特征向量，Softmax层将输出与其对应的预测向量。例如如图4所示的，与正样本1、正样本2、负样本1、负样本21以及负样本22对应的特征向量分别为feature 1、feature2、feature 3、feature 4和feature 5；与正样本1、正样本2、负样本1、负样本21以及负样本22对应的预测向量分别为ID1、ID2、ID3、ID4和ID5。

接着，可基于针对每张所述样本图片的预测向量计算分类损失，计算方法类似于步骤S210中所述的。此处，由于要输入五张图片，所以最终的分类损失可以为这五张图片的分类损失的平均值。然后，可基于所述五张样本图片的特征向量计算五元组损失，计算方法如上文所述的。

最终，可以基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为最终的行人重识别网络的损失。示例性地，所述最终的损失为所述所计算的分类损失和所述所计算的五元组损失的加权和，表示为：

loss＝λl_ID+(1-λ)l_qt

其中，λ是0～1范围的权重参数，可自行调整。示例性地，可将λ设置为0.5。

通过上述联合分类损失和五元组损失来调优经预训练的IDNet，调优后的Quintuplet-IDNet即作为最终的行人重识别网络用于行人重识别。

基于训练完成的上述行人重识别网络，当输入一张待查询的图片probe以及待搜索的行人图像集gallery后，便可通过上述训练好的行人重识别网络的前向传播得到每张图片的特征向量，通过计算probe图片的特征向量与gallery中每张图片特征向量的距离，便可以得到一个相似度排序。当gallery中与probe图片最小距离小于设定的阈值，则认为gallery中的这张图片(即最相似的图片)与probe图片是同一个行人，行人重识别任务完成。

基于上面的描述，根据本发明实施例的行人重识别网络的训练方法联合分类损失和距离损失进行训练，使得最后训练的网络同时拥有基于分类损失和基于距离损失这两种方法的优点，能够加快训练过程并提高精度；此外，在距离损失环节中采用五元组方法，相比于传统的三元组、改进三元组和四元组方法，训练时间可以缩短为一半左右，显著缩短训练时间，并且能够进一步的拉近类内距离，拉远类间距离，从而进一步提高精度。

以上示例性地描述了根据本发明实施例的行人重识别网络的训练方法。示例性地，根据本发明实施例的行人重识别网络的训练方法可以在具有存储器和处理器的设备、装置或者***中实现。

此外，根据本发明实施例的行人重识别网络的训练方法处理速度快，可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的行人重识别网络的训练方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的行人重识别网络的训练方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图5描述根据另一方面提供的行人重识别网络的训练装置。图5示出了根据本发明实施例的行人重识别网络的训练装置500的示意性框图。

如图5所示，根据本发明实施例的行人重识别网络的训练装置500包括预训练模块510和调优模块520。所述各个模块可分别执行上文中结合图2描述的行人重识别网络的训练方法的各个步骤/功能。以下仅对行人重识别网络的训练装置500的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

预训练模块510用于利用分类损失对基准网络进行预训练。调优模块520用于联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

在一个实施例中，预训练模块510可以利用分类损失来预训练网络模型，由于通常通过几十次的迭代训练即可使网络快速收敛，因此利用分类损失预训练网络模型可以大大缩短训练时间。

在一个实施例中，预训练模块510利用分类损失进行预训练的网络模型称为基准网络，调优模块520后续的调优过程在经过预训练后的该基准网络上实施。示例性地，基准网络可以为残差网络，例如为大规模图像识别挑战赛(ImageNet)预训练的残差网络(ResNet50)。当基准网络为该残差网络时，预训练模块510在将样本图片输入到基准网络以进行训练之前，可先将样本图片进行预处理。在其他示例中，预训练模块510也可以采用其他自定义的卷积网络或其他合适的网络作为基准网络，相应地，预训练模块510可以在将样本图片输入到该基准网络之前实施相应的预处理过程。

在一个实施例中，预训练模块510利用分类损失对基准网络进行预训练可以进一步包括：将样本图片输入到基准网络；将基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；基于所述分类损失调整所述基准网络的参数；以及反复进行上述操作，直到分类准确度和分类损失基本不再变化。可以参照上文结合图3进一步理解上述基准网络的结构和预训练过程，为了简洁，此处不再赘述。

在一个实施例中，五元组指的是按照一定要求和顺序选择三个不同行人的五张样本图片。在一个实施例中，调优模块520联合分类损失和五元组损失对经预训练的基准网络进行调优可以进一步包括：按预定要求和顺序输入五元组的五张样本图片；基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。可以参照上文结合图4理解联合分类损失和五元组损失对经预训练的基准网络进行调优的过程，为了简洁，此处不再赘述。

基于上面的描述，根据本发明实施例的行人重识别网络的训练装置联合分类损失和距离损失进行训练，使得最后训练的网络同时拥有基于分类损失和基于距离损失这两种方法的优点，能够加快训练过程并提高精度；此外，在距离损失环节中采用五元组方法，相比于传统的三元组、改进三元组和四元组方法，训练时间可以缩短为一半左右，显著缩短训练时间，并且能够进一步的拉近类内距离，拉远类间距离，从而进一步提高精度。

图6示出了根据本发明实施例的行人重识别网络的训练***600的示意性框图。行人重识别网络的训练***600包括存储装置610以及处理器620。

其中，存储装置610存储用于实现根据本发明实施例的行人重识别网络的训练方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码，以执行根据本发明实施例的行人重识别网络的训练方法的相应步骤，并且用于实现根据本发明实施例的行人重识别网络的训练装置中的相应模块。

在一个实施例中，在所述程序代码被处理器620运行时使得行人重识别网络的训练***600执行以下步骤：利用分类损失对基准网络进行预训练；以及联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

在一个实施例中，在所述程序代码被处理器620运行时使得行人重识别网络的训练***600执行的所述利用分类损失对基准网络进行预训练包括：将样本图片输入到所述基准网络；将所述基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；基于所述分类损失调整所述基准网络的参数；以及反复进行上述步骤，直到分类准确度和分类损失基本不再变化。

在一个实施例中，所述基准网络为残差网络。

在一个实施例中，在将所述样本图片输入到所述基准网络之前，对所述样本图片实施预处理操作。

在一个实施例中，在所述程序代码被处理器620运行时使得行人重识别网络的训练***600执行的所述联合分类损失和五元组损失对经预训练的基准网络进行调优包括：按预定要求和顺序输入五元组的五张样本图片；基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。

在一个实施例中，所述所计算的分类损失为所述五张样本图片的分类损失的平均值。

在一个实施例中，所述五元组损失定义为：

在一个实施例中，所述最终的损失为所述所计算的分类损失和所述所计算的五元组损失的加权和。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的行人重识别网络的训练方法的相应步骤，并且用于实现根据本发明实施例的行人重识别网络的训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含利用分类损失对基准网络进行预训练的计算机可读的程序代码，另一个计算机可读存储介质包含联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的行人重识别网络的训练装置的各个功能模块，并且/或者可以执行根据本发明实施例的行人重识别网络的训练方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：利用分类损失对基准网络进行预训练；以及联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述利用分类损失对基准网络进行预训练包括：将样本图片输入到所述基准网络；将所述基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；基于所述分类损失调整所述基准网络的参数；以及反复进行上述步骤，直到分类准确度和分类损失基本不再变化。

在一个实施例中，所述基准网络为残差网络。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述联合分类损失和五元组损失对经预训练的基准网络进行调优包括：按预定要求和顺序输入五元组的五张样本图片；基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。

在一个实施例中，所述五元组损失定义为：

根据本发明实施例的行人重识别网络的训练装置中的各模块可以通过根据本发明实施例的行人重识别网络的训练的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的行人重识别网络的训练方法、装置、***以及存储介质联合分类损失和距离损失进行训练，使得最后训练的网络同时拥有基于分类损失和基于距离损失这两种方法的优点，能够加快训练过程并提高精度；此外，在距离损失环节中采用五元组方法，相比于传统的三元组、改进三元组和四元组方法，训练时间可以缩短为一半左右，显著缩短训练时间，并且能够进一步的拉近类内距离，拉远类间距离，从而进一步提高精度。

上文示例性地描述了根据本发明实施例的行人重识别网络的训练方法、装置、***和存储介质。本发明还提供了一种行人重识别方法，其采用上面描述的行人重识别网络的训练方法训练而成的行人重识别网络进行行人重识别。本发明还提供了一种行人重识别装置，其用于实施该行人重识别方法。本发明还提供了一种行人重识别***，其包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行该行人重识别方法。本发明还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行该行人重识别方法。本领域技术人员可以基于前述的根据本发明实施例的行人重识别网络的训练方法、装置、***和存储介质理解根据本发明实施例的行人重识别方法、装置、***和存储介质，为了简洁，此处不再赘述。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人重识别网络的训练方法，其特征在于，所述训练方法包括：

利用分类损失对基准网络进行预训练；以及

联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

2.根据权利要求1所述的训练方法，其特征在于，所述利用分类损失对基准网络进行预训练包括：

将样本图片输入到所述基准网络；

将所述基准网络针对所述样本图片输出的预测向量与所述样本图片的标签向量进行比较以得到分类损失；

基于所述分类损失调整所述基准网络的参数；以及

反复进行上述步骤，直到分类准确度和分类损失基本不再变化。

3.根据权利要求2所述的训练方法，其特征在于，所述基准网络为残差网络。

4.根据权利要求3所述的训练方法，其特征在于，在将所述样本图片输入到所述基准网络之前，对所述样本图片实施预处理操作。

5.根据权利要求1所述的训练方法，其特征在于，所述联合分类损失和五元组损失对经预训练的基准网络进行调优包括：

按预定要求和顺序输入五元组的五张样本图片；

基于所述基准网络针对每张所述样本图片输出的预测向量计算分类损失；

基于所述基准网络针对所述五张样本图片输出的特征向量计算五元组损失；以及

基于所计算的分类损失和所计算的五元组损失计算最终的损失以作为所述行人重识别网络的损失。

6.根据权利要求5所述的训练方法，其特征在于，所述所计算的分类损失为所述五张样本图片的分类损失的平均值。

7.根据权利要求5所述的训练方法，其特征在于，所述五元组损失定义为：

l_qt＝d(正样本1，正样本2)-d(负样本1，负样本21)+d(负样本21，负样本22)-d(负样本1，正样本2)+a

8.根据权利要求5-7中的任一项所述的训练方法，其特征在于，所述最终的损失为所述所计算的分类损失和所述所计算的五元组损失的加权和。

9.一种行人重识别网络的训练装置，其特征在于，所述训练装置包括：

预训练模块，用于利用分类损失对基准网络进行预训练；以及

调优模块，用于联合分类损失和五元组损失对经预训练的基准网络进行调优以得到行人重识别网络。

10.根据权利要求9所述的训练装置，其特征在于，所述预训练模块对所述基准网络的预训练进一步包括：

将样本图片输入到所述基准网络；

基于所述分类损失调整所述基准网络的参数；以及

反复进行上述操作，直到分类准确度和分类损失基本不再变化。

11.根据权利要求10所述的训练装置，其特征在于，所述基准网络为残差网络。

12.根据权利要求11所述的训练装置，其特征在于，所述预训练模块还用于：在将所述样本图片输入到所述基准网络之前，对所述样本图片实施预处理操作。

13.根据权利要求9所述的训练装置，其特征在于，所述调优模块对经预训练的基准网络的调优包括：

按预定要求和顺序输入五元组的五张样本图片；

14.根据权利要求13所述的训练装置，其特征在于，所述所计算的分类损失为所述五张样本图片的分类损失的平均值。

15.根据权利要求13所述的训练装置，其特征在于，所述五元组损失定义为：

16.根据权利要求13-15中的任一项所述的训练装置，其特征在于，所述最终的损失为所述所计算的分类损失和所述所计算的五元组损失的加权和。

17.一种行人重识别方法，其特征在于，所述行人重识别方法采用根据权利要求1-8中的任一项所述的行人重识别网络的训练方法训练而成的行人重识别网络进行行人重识别。

18.一种行人重识别装置，其特征在于，所述行人重识别装置用于实施根据权利要求17所述的行人重识别方法。

19.一种计算***，其特征在于，所述***包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-8中的任一项所述的行人重识别网络的训练方法或执行如权利要求17所述的行人重识别方法。

20.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-8中的任一项所述的行人重识别网络的训练方法或执行如权利要求17所述的行人重识别方法。