CN114782979A

CN114782979A - 一种行人重识别模型的训练方法、装置、存储介质及终端

Info

Publication number: CN114782979A
Application number: CN202210204501.6A
Authority: CN
Inventors: 张睿
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-07-22

Abstract

本申请涉及一种行人重识别模型的训练方法、装置、存储介质及终端。方法包括：采集人体数据样本集；将人体数据样本集输入行人重识别模型中的层次化自注意力网络模型，输出行人重识别模型的人体全局特征；根据人体全局特征，获取行人重识别模型的人体局部特征；根据人体全局特征、人体局部特征和行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取行人重识别模型的局部损失函数和全局损失函数；采用反向传播的方式，根据局部损失函数和全局损失函数对行人重识别模型进行迭代训练。本申请的行人重识别模型包括层次化自注意力网络模型，能够识别出人体全局特征和人体局部特征，进而识别出人。

Description

一种行人重识别模型的训练方法、装置、存储介质及终端

技术领域

本发明涉及计算机视觉技术领域，更为具体来说，本发明涉及一种行人重识别模型的训练方法、装置、存储介质及终端。

背景技术

行人重识别(Person re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

本申请提出了一种行人重识别模型的训练方法、装置、存储介质及终端，使用层次化自注意力网络模型网络作为骨干模型，能够直接得到人体全局特征；能够根据获取到的局部损失函数和全局损失函数对行人重识别模型进行迭代训练，使得所述行人重识别模型能够识别出人体全局特征和人体局部特征，进而识别出行人。

发明内容

本申请实施例提供了一种行人重识别模型的训练方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种行人重识别模型的训练方法，该方法包括：

采集行人重识别模型的人体数据样本集；

将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征；

根据所述人体全局特征，获取所述行人重识别模型的人体局部特征；

根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；

采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型。

可选的，所述采集行人重识别模型的人体数据样本集，包括：

获取包含人体尺度及宽高比特征的RGB图像；

将所述RGB图像进行图像增强操作，获取所述行人重识别模型的人体数据样本集。

可选的，所述根据所述人体全局特征，获取所述行人重识别模型的人体局部特征，包括：

将所述人体全局特征输入所述行人重识别模型的自适应全局平均池化层；

将所述自适应全局平均池化层输出的所述人体全局特征沿深度方向切割成所述人体局部特征。

可选的，所述分类器包括局部分类器和角度分类器；

所述根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数，包括：

将所述人体局部特征输入所述人体局部特征对应的所述局部分类器，输出所述行人重识别模型的局部特征类别概率；

根据所述局部特征类别概率与所述局部特征类别概率对应的真实标签，计算所述行人重识别模型的所述局部损失函数。

可选的，所述根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数，包括：

根据所述人体全局特征、所述三元组损失函数和所述类中心损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数；

根据所述人体全局特征、所述批次归一化算法、所述角度分类器和所述基于角度间隔的损失函数，获取所述行人重识别模型的超球面表征损失函数；

根据所述局部损失函数、所述自由欧式空间表征损失函数、所述超球面表征损失函数，获取所述行人重识别模型的所述全局损失函数。

可选的，所述根据所述人体全局特征、所述三元组损失函数和所述类中心损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数，包括：

根据所述人体全局特征，提取所述行人重识别模型的锚样本；

根据所述锚样本、所述锚样本的同类样本、所述锚样本的异类样本和所述三元组损失函数，获取所述行人重识别模型的类别损失函数；

根据所述锚样本、所述锚样本所属类别的类中心和所述类中心损失函数，获取所述行人重识别模型的距离损失函数；

根据所述类别损失函数和所述距离损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数。

可选的，所述根据所述人体全局特征、所述批次归一化算法、所述角度分类器和所述基于角度间隔的损失函数，获取所述行人重识别模型的超球面表征损失函数，包括：

通过所述批次归一化算法将所述人体全局特征的各特征通道维度分布进行归一化；

将归一化之后的所述人体全局特征输入所述角度分类器，获取所述行人重识别模型的最终样本表征；

根据所述最终样本表征和所述基于角度间隔的损失函数，计算所述行人重识别模型的超球面表征损失函数。

第二方面，本申请实施例提供了一种行人重识别模型的训练装置，该装置包括：

数据样本采集模块，用于采集行人重识别模型的人体数据样本集；

全局特征获取模块，用于将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征；

局部特征获取模块，用于根据所述人体全局特征，获取所述行人重识别模型的人体局部特征；

损失函数获取模块，用于根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；

模型训练模块，用于采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，所述行人重识别模型的训练方法，首先采集行人重识别模型的人体数据样本集；再将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征；然后根据所述人体全局特征，获取所述行人重识别模型的人体局部特征；其次是根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；最后采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型。本申请实施例所述的方法，采用了区别于现有技术的技术手段，使用层次化自注意力网络模型作为骨干模型，能够解决现有技术中无法直接得到人体全局特征的问题；能够根据获取到的局部损失函数和全局损失函数对行人重识别模型进行迭代训练，使得所述行人重识别模型能够识别出人体全局特征和人体局部特征，进而识别出行人。

在本申请实施例中，所述行人重识别模型的训练方法，不仅引入了局部损失函数包括的属性损失函数，而且引入了自由欧式空间表征损失函数以及超球面表征损失函数，所述自由欧式空间表征损失函数以及超球面表征损失函数能够直接对从层次化自注意力网络模型得到的人体全局特征进行度量学习，反向传播时梯度可直接作用于层次化自注意力网络模型最后一层的参数上，使得行人重识别模型可以得到更高效地训练，得到更好的表征能力，以达到更好的识别效果。

在本申请实施例中，所述行人重识别模型的训练方法，引入了人体局部特征包括的外观(属性)特征信息，通过外观(属性)特征信息对应的PAC分类器和局部块间的特征融合器，能够充分融合及利用多种特征信息，提升了表征信息的丰富程度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种行人重识别模型的训练方法的流程示意图；

图2是本申请实施例提供的一种行人重识别模型的训练方法的结构示意图；

图3是本申请实施例提供的一种行人重识别模型的训练方法的另一结构示意图；

图4是本申请实施例提供的另一种行人重识别模型的训练方法的流程示意图；

图5是本申请实施例提供的一种行人重识别模型的训练装置的装置示意图；

图6是本申请实施例提供的一种终端示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的***和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

行人重识别，简称ReID；在监控视频中，由于相机分辨率和拍摄角度的缘故，通常会导致无法得到质量较高的人脸图片，在人脸识别失效的情况下，无法完成对特定目标的跨镜头跟踪；此时，ReID技术就成为了一个非常重要的替代技术。

随着近几年深度学习的发展，ReID技术也有了非常巨大的突破，从技术角度来说，ReID技术主要可分为基于表征学习、基于度量学习和基于局部特征等。从算法的模型结构来说，ReID技术大多采用传统成熟的CNN网络技术；CNN网络技术采用传统数字图像处理中的局部滑窗滤波操作，虽然可以有效的提取局部特征，但是也存在着感受域比较局限的问题：缺少感受域范围较大的全局特征。为了扩大CNN网络的感受区域，并获得感受域较大的特征，主流的做法是通过多层“卷积-池化-堆叠”的结构，实现从局部到全局的特征金字塔的构建；除此之外，CNN网络技术仅仅擅长解析图像的信息，并不擅长处理其他模态的信息，尤其是时序信息(比如文字、语音和长视频等)等，ReID技术采用CNN网络很大程度上会将ReID技术限制在了空间信息和图像模态数据上，不利于多模态数据的利用。

本发明提出的一种行人重识别模型的训练方法、装置、存储介质及终端。采用了区别于现有技术的技术手段，使用层次化自注意力网络模型作为骨干模型，能够解决现有技术中无法直接得到人体全局特征的问题；能够根据获取到的局部损失函数和全局损失函数对行人重识别模型进行迭代训练，使得所述行人重识别模型能够识别出人体全局特征和人体局部特征，进而识别出行人。

下面将结合附图1-附图4，对本申请实施例提供的一种行人重识别模型的训练方法进行详细介绍。

请参见图1-3，为本申请实施例提供了一种行人重识别模型的训练方法的流程示意图。如图1-3所示，本申请实施例的方法可以包括以下步骤：

S110,采集行人重识别模型的人体数据样本集。

所述S110包括：获取包含人体尺度及宽高比特征的RGB图像。

在本申请实施例中，根据人体尺度及宽高比特征，在保证层次化自注意力网络模型准确率的前提下，可将层次化自注意力网络模型输入的RGB图像设计成[B,3，224,224]和[B,3,224,112]两种RGB图像，这两种RGB图像均为输入形状为([B,C,H,W])的RGB图像，其中，B表示该批次RGB图像的数据量,C表示通道数量,H表示高,W表示宽。这两种输入形状的RGB图像的宽高比

分别为1：1和1：2；在RGB图像的宽高比为1：1时，RGB图像能够直接输入层次化自注意力网络模型，且RGB图像能够更好地适应层次化自注意力网络模型，层次化自注意力网络模型能够更加充分地提取RGB图像内的人体局部特征。由于在RGB图像被调整Resize成1：1的宽高比时，行人的体型特征(即人体尺度及宽高比特征)会被破坏，在实际情况下，行人的体型比例不高于1：2，考虑到行人的体型比例，所述层次化自注意力网络模型的输入可以选择输入形状为[B,3,224,112]的RGB图像。

将所述RGB图像进行图像增强操作，获取所述行人重识别模型的人体数据样本集。所述图像增强操作可以为Zero Padding，即用0补全。

在本申请实施例中，为了适应层次化自注意力网络模型，在某小批次RGB图像输入I被调整到[B,3,224,112]之后，可在行方向分别于RGB图像左右两边进行图像增强操作，得到[B,3,224,112]的小批次输入RGB图像I′，此时，新的RGB图像I′中的有效区域(原图像内容区域)位置居中于新的RGB图像I′。图像增强操作的公式如下：

其中padding＝(pad_left,pad_right,pad_top,pad_down)

式中，ZeroPad是指用0补充操作，padding表示填充，width表示RGB图像的宽W，pad_left表示向左补充数量，pad_right表示向右补充数量，pad_top表示向上补充数量，pad_down表示向下补充数量。

可将若干新的RGB图像I′形成人体数据样本集。

S120,将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征。

在本申请实施例中，所述行人重识别模型的骨干模型采用层次化自注意力网络模型，所述层次化自注意力网络模型是基于Transformer网络改进得到的SwinTransformer网络。层次化自注意力网络模型由1个局部块嵌入向量化和s个阶段组成，每个阶段由1个局部块特征融合和t个Transformer模块组成。其中，所述Transformer表示一种基于自注意力机制的网络结构；Transformer网络技术适用于自然语言处理(NLP)，可将其应用到计算机视觉领域，Transformer网络技术相较于CNN网络技术来说，其直接具有提取长范围人体全局特征的能力，无需通过多层堆叠的方式即可实现人体全局特征的提取，能够解决CNN网络技术无法直接得到人体全局特征的问题，而且通过Transformer网络中的多头自注意力机制(multi-head attention)使得Transformer网络能够关注到多个重要区域的特征。同时，Transformer网络具有更好的多模态融合能力，且十分擅长处理时序信息，有利于ReID技术在多模态数据上的扩展，可通过融合其他模态数据，来提升ReID技术；所述SwinTransformer表示一种针对计算机视觉领域设计的Transformer模型，基于Transformer所构建的Swin Transformer模型，由于其具有的长范围人体全局特征提取能力，提高了人体全局特征的质量，从而让表征学习更加有效。

局部块嵌入向量化即为Patch Embedding，用PE表示，获取局部块嵌入向量化PE的过程可通过以下表达式来表示：

PE(I′,psize,edim)＝LayerNorm(Conv2D(I′,3,edim,psize,psize))

Conv2D(x,input_channel,output_channel,ksize,stride)为2D卷积操作

其中，psize表示切割块的大小，edim表示输出的特征通道大小，Conv2D表示2D卷积，LayerNorm表示归一化层；input_channel表示输入张量的深度维度，output_channel表示输出张量的深度维度，ksize表示卷积核的大小，stride表示进行卷积操作时的下采样率；3表示通道数量为3；x表示函数的输入，泛指任意输入，x可以为本申请实施例输入的RGB图像I′。

局部块特征融合即为PatchMerging，用PM表示，Transformer模块即为TransformerBlock，表示基于Transformer结构的网络模块，用TB表示；假设给定任意一个特征张量f，将f作为函数的输入，那么局部块特征融合、Transformer模块以及组成Transformer模块的子模块可通过以下表达式进行表示：

PM(f)＝Linear(LayerNorm(Downsample(f,2)),4*input_dim,2*input_dim)

Linear(x,input_channel,output_channel)为全连接层

TB(f)＝SWMSABlock(WMSABlock(f))

SWMSABlock(f)＝MLP(LayerNorm(G_SWMSA(f)))+G_SWMSA(f)

WMSABlock(f)＝MLP(LayerNorm(G_WMSA(f)))+G_WMSA(f)

G_WMSA(f)＝WMSA((LayerNorm(f)))+f

G_SWMSA(f)＝SWMSA((LayerNorm(f)))+f

式中，Downsample(f,2)表示对f进行步长stride为2的下采样操作，4*input_dim表示4倍的维度输入，2*input_dim表示2倍的维度输入，Linear表示全连接层，MLP表示带激活函数以及Dropout的全连接层，WMSABlock表示窗口多头自注意力模块，SWMSABlock表示移动窗口多头自注意力模块，WMSA表示窗口多头自注意力网络，SWMSA表示移动窗口多头注意力网络。

在本申请实施例中，将对给定的小批次RGB图像I进行一系列图像增强操作后得到的新的RGB图像I′(即人体数据样本集中的RGB图像)输入至层次化自注意力网络模型，在所述层次化自注意力网络模型的最后一个阶段Stage之后需要接上归一化层，才能获取最终的人体全局特征U；所述人体数据样本输入至层次化自注意力网络模型后的计算过程可通过以下数学公式进行表达：

式中，E表示PE的输出，R表示任意实数,B表示某批次图像数据量batch size；TB_×2表示该阶段有2个TB以嵌套的形式组成，TB_×6表示该阶段有6个TB以嵌套的形式组成；D₁表示在层次化自注意力网络模型中第一阶段的输出，D₂表示在层次化自注意力网络模型中第二阶段的输出，D₃表示在层次化自注意力网络模型中第三阶段的输出，D₄表示在层次化自注意力网络模型中第四阶段的输出，U表示将第四阶段的输出输入至归一化层之后，所述归一化层输出的人体全局特征；96、192、384和768这些数值是根据层次化自注意力网络模型的结构改变而改变的，由于层次化自注意力网络模型的切割块大小psize固定为4，也就是将整幅RGB图像切出4*4＝16个小块，而RGB图像有3个通道，因此把16个小块沿着特征通道堆叠后，可得到通道大小为16*3＝48的张量，形状为(B，H/4,W/4,48)的RGB图像，最后通过卷积将通道数量增加一倍，变成96。这些操作可通过设置PE模块的Conv2D的步长stride一并进行，所以到后面这些数值也是固定的。在本申请实施例中，切割块过少或过多都会导致计算效率降低。

在本申请实施例中，出于实时性的考虑，层次化自注意力网络模型的输入为固定大小为I_shape＝[B,3,224,224]的RGB图像经过调整和图像增强操作获得的新的RGB图像I′，在保证层次化自注意力网络模型准确率的前提下，局部块嵌入向量化PE的切割块大小为psize＝4，PE的输出维度为edim＝96，阶段s＝4，表示共4个阶段Stage，Transformer模块TB的数量为T＝[2,2,6,2](对应相应的Stage)，最后人体全局特征的输出大小为

S130,根据所述人体全局特征，获取所述行人重识别模型的人体局部特征。具体来说，S130包括：

将所述人体全局特征输入所述行人重识别模型的自适应全局平均池化层。在本申请实施例中，在训练行人重识别模型的过程中，从层次化自注意力网络模型获取到人体全局特征U后，将U展开形成

将U_2d输入至窗口大小为(6,1)的自适应全局平均池化层(AdaptiveAvgPool)，得到自适应全局平均池化层输出的人体全局特征U′，此时，U′∈R^(B,768,6,1)，所述人体全局特征U′后续用于切割人体局部特征，并计算行人重识别模型的局部损失函数。

在本申请实施例中，从层次化自注意力网络模型获取到人体全局特征U后，可将人体全局特征U直接输入至窗口大小为(1)的自适应全局平均池化层，得到人体全局特征U′，此时的

将所述人体全局特征U′分别输入到自由欧式空间表征学习模块和超球面表征学习模块中，来计算不同空间下的表征损失。

在本申请实施例中，将自适应全局平均池化层输出的人体全局特征U′沿着深度方向切割成六块，即可得到六块人体局部特征，每块人体局部特征可为U′_i∈R^(B,768)，所述六块人体局部特征可以包括人体的头部、肩部、腹部、大腿部位、小腿部位和鞋子部位等相关特征。

从局部区域的相应外观姿态标签来看，所述六块人体局部特征还可以包括背包颜色、帽子颜色、上衣风格、上衣颜色、下衣风格和下衣颜色等外观特征信息；所述人体局部特征还可以为行人行为等标签；通过这些属性，可对行人外观局部细节的特征提取提供更有效的监督信息。所述人体局部特征的背包颜色可以为5种类别、帽子颜色可以为5种类别、上衣风格可以为4种类别、上衣颜色可以为12种类别、下衣风格可以为4种类别和下衣颜色可以为12种类别。

S140,根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；所述分类器包括局部分类器和角度分类器。

具体来说，所述S140包括：

将所述人体局部特征输入所述人体局部特征对应的所述局部分类器，输出所述行人重识别模型的局部特征类别概率；所述局部分类器包括：人体局部特征分类器和人体局部属性分类器。

在本申请实施例中，当六块人体局部特征为人体的头部、肩部、腹部、大腿部位、小腿部位和鞋子部位等相关特征时，可将所述六块人体局部特征分别输入对应的人体局部特征分类器，获取每块所述人体局部特征的局部特征类别概率。如图2所示，所述六块人体局部特征分类器即为PFC分类器1、PFC分类器2、……、PFC分类器6；所述PFC分类器即为Part-featured classifier,以下是关于根据人体局部特征所设计的PFC分类器的相关定义：

PFC(f)＝Linear(FeatureEmbed(f),512,class_num)

其中，FeatureEmbed(x)

＝DropOut(LeakReLU(BN(Linear(x,input_channel,512))))

式中，BN表示批次归一化层Batch Norm；LeakReLU表示激活函数；DropOut表示神经元随机删除层；FeatureEmbed表示为局部块特征的特征融合器；class_num表示相应的PFC分类器的类别数；在PFC(f)的式子中，512表示的是输入维度数；在神经元随机删除层DropOut中，512表示的是输出维度数。

将六块人体局部特征分别输入六块PFC分类器，可获得预测的六个人体局部特征的局部特征类别概率，将所述六个局部特征类别概率进行加权融合得到最终预测的局部特征类别概率O，其定义如下：

o_i＝PFC_i(U′_i),其中

式中，i表示第i个，i为0、1、2、3、4、5或6；PFC_i表示第i个PFC分类器，U′_i表示第i个分类器内的人体局部特征，o_i表示第i个分类器输出的人体局部特征的局部特征类别概率，1表示输出维度数；Softmax表示一种将多个神经元的输出映射到(0,1)区间内，且映射后全部神经元的输出加起来为1的激活函数。

在本申请实施例中，当所述六块人体局部特征为人体的背包颜色、帽子颜色、上衣风格、上衣颜色、下衣风格和下衣颜色等外观属性信息时，可将这六块人体局部特征分别输入对应的人体局部属性分类器，获取每块所述人体局部特征的局部特征类别概率。如图3所示，所述六块人体局部属性分类器即为PAC分类器1、PAC分类器2、……、PAC分类器6；所述PAC分类器即为Part-Attributed classifier，以下是关于根据人体局部属性所设计的PAC分类器的相关定义：

PAC₁(V)＝Linear(FeatureEmbed(V),512,5)

PAC₂(V)＝Linear(FeatureEmbed(V),512,5)

PAC₃(V)＝Linear(FeatureEmbed(V),512,4)

PAC₄(V)＝Linear(FeatureEmbed(V),512,12)

PAC₅(V)＝Linear(FeatureEmbed(V),512,4)

PAC₆(V)＝Linear(FeatureEmbed(V),512,12)

其中，FeatureEmbed(V)

＝DropOut(LeakReLU(BN(Linear(V,input_channel,512))))

V为n个局部块特征组合

其中，在PAC₁(V)的式子中，PAC₁表示背包颜色的分类器，5表示背包颜色为5种类别；在PAC₂(V)的式子中，PAC₂表示帽子颜色的分类器，5表示帽子颜色为5种类别；在PAC₃(V)的式子中，PAC₃表示上衣风格的分类器，4表示上衣风格为4种类别；在PAC₄(V)的式子中，PAC₄表示上衣颜色的分类器，12表示上衣颜色为12种类别；在PAC₅(V)的式子中，PAC₅表示下衣风格的分类器，4表示下衣风格为4种类别；在PAC₆(V)的式子中，PAC₆表示帽子颜色的分类器，12表示帽子颜色为12种类别。

将每块人体局部特征输入到相应的PAC分类器中，可获取人体局部特征的局部特征类别概率，其定义如下：

其中，i表示第i个,PAC_i表示第i个PAC分类器,U′_i表示第i个分类器内的人体局部特征，o_i表示第i个分类器输出的人体局部特征的局部特征类别概率。

在本申请实施例中，所述FeatureEmbed表示一种专门设计的，用于融合多个局部块特征的特征融合器；局部块的特征融合是根据人体局部特征在每个局部块出现的概率大小进行组合再融合的，例如，若背包的外观信息大概率出现在前三块局部块中，此时V则由前三块局部块特征组成，并通过FeatureEmbed将其融合，再送入至全连接层Linear进行分类。

在本申请实施例中，在训练行人重识别模型的过程中，当六块人体局部特征为人体的头部、肩部、腹部、大腿部位、小腿部位和鞋子部位等相关特征时，可通过每个PFC分类器预测输出的人体局部特征的局部特征类别概率o_i和相应的真实标签K来计算人体局部特征的局部损失函数，局部损失函数的定义如下：

L_total＝CrossEntropy(softmax(o₁),K)

+CrossEntropy(softmax(o₂),K)+…

+CrossEntropy(softmax(o₆),K)

式中，L_total即为局部损失函数，CrossEntropy表示交叉熵损失函数，真实标签K表示某个行人ID,某个行人ID绑定有行人的图像。

在本申请实施例中，在训练行人重识别模型的过程中，当六块人体局部特征为人体的背包颜色、帽子颜色、上衣风格、上衣颜色、下衣风格和下衣颜色等外观特征信息时，可通过每个PAC分类器预测输出的人体局部特征的局部特征类别概率o_i和相应的真实标签Y_i来计算人体局部特征的局部损失函数，局部损失函数的定义如下：

L_attribute＝CrossEntropy(o₁,Y₁)+CrossEntropy(o₂,Y₂)+…

+CrossEntropy(o₆,Y₆)

此时，局部损失函数又称属性损失函数，式中，L_attribute即为属性损失函数，Y₁表示背包颜色ID，Y₂表示帽子颜色ID，Y₃表示上衣风格ID，Y₄表示上衣颜色ID,Y₅表示下衣风格ID,Y₆表示下衣颜色ID。

在本申请实施例中，为了解决行人重识别的表征学习问题，充分利用了RGB图像以及ID标签信息，在利用ID标签信息的基础上，引入了外观属性信息，并针对外观属性信息，设计了PAC分类器和局部块间的特征融合器，提升了表征的信息丰富程度。

在本申请实施例中，针对人体全局特征的问题，设计了ID表征学习模块，意为IDEmbedding Module,简称IDEM；所述ID表征学习模块包括基于自由欧式空间表征学习模块和超球面表征学习模块，将人体全局特征分别在不同的空间中进行表征损失计算后，再进行结合的设计能更好地利用这两种损失函数，更优地对表征进行监督学习。基于自由欧式空间表征学习模块能够将人体全局特征在自由欧式空间计算自由欧式空间表征损失函数；超球面表征学习模块能够将人体全局特征通过批次归一化算法进行归一化约束，并映射至超球面上，通过角度分类器和角度惩罚机制包括的基于角度间隔的损失函数获取超球面表征损失函数。ID表征学习模块的设计，使得所述行人重识别模型能够将不同行人的人体全局特征进行分隔，使得所述行人重识别模型具有更优的性能。

在本申请实施例中，所述S140包括：

在基于自由欧式空间表征学习模块中，根据所述人体全局特征、所述三元组损失函数和所述类中心损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数；所述基于自由欧式空间表征学习模块是由三元组损失函数(即Triplet loss)和类中心损失函数(即Centerloss)组成的。具体包括：

根据所述人体全局特征，提取所述行人重识别模型的锚样本。在本申请实施例中，在计算行人重识别模型的类别损失函数之前，需要从小批次训练数据的人体全局特征中，根据真实ID标签，挑选出锚样本a₁。

根据所述锚样本、所述锚样本的同类样本、所述锚样本的异类样本和所述三元组损失函数，获取所述行人重识别模型的类别损失函数。在本申请实施例中，可将锚样本a₁、锚样本a₁的同类样本a₂和锚样本a₁的异类样本a₃，组成一个三元组(a₁,a₂,a₃)；根据所述三元组(a₁,a₂,a₃)和三元组损失函数获取行人重识别模型的类别损失函数:L_triplet(a₁,a₂,a₃)。

根据所述锚样本、所述锚样本所属类别的类中心和所述类中心损失函数，获取所述行人重识别模型的距离损失函数。在本申请实施例中，根据类中心损失函数和计算出的锚样本a_i与锚样本a_i所属类别的类中心C的距离，获取到所述行人重识别模型的距离损失函数：L_center(a₁,C)。

根据所述三元损失函数和所述距离损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数。在本申请实施例中，将所述类别损失函数(a₁,a₂,a₃)与所述距离损失函数L_center(a₁,C)进行相加，即可获得所述自由欧式空间表征损失函数，表达式为：

L_FreeEuc＝L_triplet(a_a,a₂,a₃)+L_center(a₁,C)。

在超球面表征学习模块中，根据所述人体全局特征、所述批次归一化算法、所述角度分类器和所述基于角度间隔的损失函数，获取所述行人重识别模型的超球面表征损失函数；所述超球面表征学习模块由批次归一化算法、角度分类器和基于角度间隔的损失函数组成。具体包括：

通过所述批次归一化算法将所述人体全局特征的各特征通道维度分布进行归一化；将归一化之后的所述人体全局特征输入所述角度分类器，获取所述行人重识别模型的最终样本表征；根据所述最终样本表征和所述基于角度间隔的损失函数，计算所述行人重识别模型的超球面表征损失函数。

在本申请实施例中，将人体全局特征U′输入至批次归一化算法中，通过批次归一化算法将人体全局特征U′的各特征通道维度分布进行归一化；在进行人体全局特征U′的归一化之后，将人体全局特征U′输入至一个已对权值W约束到超球面(即把W约束到‖W‖＝1)的角度分类器，接着将角度分类器的输出通过基于角度间隔的损失函数进行计算，得到超球面表征损失函数。超球面表征学习模块中的计算表达式可为：

L_Sphere＝L_angular(AC(BN(U′)))

式中，L_Sphere表示超球面表征损失函数，BN表示批次归一化算法BatchNorm，AC表示角度分类器Angular分类器，L_angular表示ArcFace损失函数，是基于角度间隔的损失函数Angular Margin Loss选取的。

在本申请实施例中，当局部损失函数为属性损失函数时，根据属性损失函数L_attribute、自由欧式空间表征损失函数L_FreeEuc、所述超球面表征损失函数L_Sphere，得到全局损失函数L_total的表达式如下：

L_total＝L_attribute+L_FreeEuc+L_Sphere

S150,采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型。在本申请实施例中，当所述六块人体局部特征为人体的头部、肩部、腹部、大腿部位、小腿部位和鞋子部位等相关特征时，所述行人重识别模型可以由层次化自注意力网络模型、自适应全局平局池化层和6个PFC分类器组成；可根据局部损失函数对所述行人重识别模型进行迭代训练，直到所述局部损失函数的数值不再下降，即可停止训练所述行人重识别模型；当所述六块人体局部特征为人体的背包颜色、帽子颜色、上衣风格、上衣颜色、下衣风格和下衣颜色等外观特征信息时，所述行人重识别模型可以为由层次化自注意力网络模型、自适应全局平均池化层、6个PAC分类器和ID表征学习模块组成；可根据全局损失函数对所述行人重识别模型进行迭代训练，直到全局损失函数的数值不再下降，即可停止训练所述行人重识别模型。

在本申请实施例中，引入的自由欧式空间表征损失函数以及超球面表征损失函数，能够直接对从层次化自注意力网络模型得到的人体全局特征进行度量学习，从而获取到更优的全局损失函数，在反向传播时，梯度可直接作用于层次化自注意力网络模型最后一层的参数上(即层次化自注意力网络模型的最后一个阶段)，使得行人重识别模型得到更高效的训练，具有更好的表征能力。

在本申请实施例中，训练完成后的行人重识别模型可直接识别出行人。训练完成后的行人重识别模型也可通过层次化自注意力网络模型获取行人的人体全局特征，由人体全局特征获取人体局部特征，将人体全局特征和人体局部特征与行人图像注册库进行特征匹配，得到特征相似的图像和/或行人ID。

请参见图4为本申请实施例提供了一种行人重识别模型的训练方法的流程示意图。如图4所示，本申请实施例的方法可以包括以下步骤：

S210,获取包含人体尺度及宽高比特征的RGB图像；

S211,将所述RGB图像进行图像增强操作，获取所述行人重识别模型的人体数据样本集；

S212,将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征；

S213,将所述人体全局特征输入所述行人重识别模型的自适应全局平均池化层；

S214,将所述自适应全局平均池化层输出的所述人体全局特征沿深度方向切割成所述人体局部特征；

S215,将所述人体局部特征输入所述人体局部特征对应的所述局部分类器，输出所述行人重识别模型的局部特征类别概率；

S216,根据所述局部特征类别概率与所述局部特征类别概率对应的真实标签，计算所述行人重识别模型的所述局部损失函数；

S217,根据所述人体全局特征，提取所述行人重识别模型的锚样本；

S218,根据所述锚样本、所述锚样本的同类样本、所述锚样本的异类样本和所述三元组损失函数，获取所述行人重识别模型的类别损失函数；

S219,根据所述锚样本、所述锚样本所属类别的类中心和所述类中心损失函数，获取所述行人重识别模型的距离损失函数；

S220,根据所述类别损失函数和所述距离损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数；

S221,通过所述批次归一化算法将所述人体全局特征的各特征通道维度分布进行归一化；

S222,将归一化之后的所述人体全局特征输入所述角度分类器，获取所述行人重识别模型的最终样本表征；

S223,根据所述最终样本表征和所述基于角度间隔的损失函数，计算所述行人重识别模型的超球面表征损失函数；

S224,根据所述局部损失函数、所述自由欧式空间表征损失函数、所述超球面表征损失函数，获取所述行人重识别模型的所述全局损失函数；

S225,采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型；

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图5，其示出了本发明一个示例性实施例提供的一种行人重识别模型的训练装置的结构示意图。该装置1包括：数据样本采集模块10、全局特征获取模块20、局部特征获取模块30、损失函数获取模块40和模型训练模块50。

数据样本采集模块10，用于采集行人重识别模型的人体数据样本集；

全局特征获取模块20，用于将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征；

局部特征获取模块30，用于根据所述人体全局特征，获取所述行人重识别模型的人体局部特征；

损失函数获取模块40，用于根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；

模型训练模块50，用于采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型。

需要说明的是，上述实施例提供的一种行人重识别模型的训练装置在执行一种行人重识别模型的训练方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的行人重识别模型的训练装置与行人重识别模型的训练方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请实施例中，所述行人重识别模型的训练装置，首先采集行人重识别模型的人体数据样本集；再将所述人体数据样本集输入所述行人重识别模型中的层次化自注意力网络模型，输出所述行人重识别模型的人体全局特征；然后根据所述人体全局特征，获取所述行人重识别模型的人体局部特征；其次是根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；最后采用反向传播的方式，根据所述局部损失函数和所述全局损失函数对所述行人重识别模型进行迭代训练，获取训练之后的所述行人重识别模型。本申请实施例所述的方法，采用了区别于现有技术的技术手段，使用层次化自注意力网络模型作为骨干模型，能够解决现有技术中无法直接得到人体全局特征的问题；能够根据获取到的局部损失函数和全局损失函数对行人重识别模型进行迭代训练，使得所述行人重识别模型能够识别出人体全局特征和人体局部特征，进而识别出行人。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的一种行人重识别模型的训练方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的一种行人重识别模型的训练方法。

请参见图6，为本申请实施例提供了一种终端的结构示意图。如图6所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及车辆运行轨迹数据的可用度分析应用程序。

在图6所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的行人重识别模型的训练应用程序，并具体执行以下操作：

采集行人重识别模型的人体数据样本集；

根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数；所述分类器包括局部分类器和角度分类器；

在一个实施例中，处理器1001在执行所述采集行人重识别模型的人体数据样本集时，具体执行以下操作：

获取包含人体尺度及宽高比特征的RGB图像；

在一个实施例中，处理器1001在执行所述根据所述人体全局特征，获取所述行人重识别模型的人体局部特征时，具体执行以下操作：

在一个实施例中，处理器1001在执行所述根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数时，具体执行以下操作：

在一个实施例中，处理器1001在执行所述根据所述人体全局特征、所述三元组损失函数和所述类中心损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数时，具体执行以下操作：

在一个实施例中，处理器1001在执行所述根据所述人体全局特征、所述批次归一化算法、所述角度分类器和所述基于角度间隔的损失函数，获取所述行人重识别模型的超球面表征损失函数时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种行人重识别模型的训练方法，其特征在于，包括以下步骤：

采集行人重识别模型的人体数据样本集；

2.根据权利要求1所述的训练方法，其特征在于，所述采集行人重识别模型的人体数据样本集，包括：

获取包含人体尺度及宽高比特征的RGB图像；

3.根据权利要求1所述的训练方法，其特征在于，所述根据所述人体全局特征，获取所述行人重识别模型的人体局部特征，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述分类器包括局部分类器和角度分类器；

5.根据权利要求4所述的训练方法，其特征在于，所述根据所述人体全局特征、所述人体局部特征，以及所述行人重识别模型中的分类器、三元组损失函数、类中心损失函数、批次归一化算法和基于角度间隔的损失函数，获取所述行人重识别模型的局部损失函数和全局损失函数，包括：

6.根据权利要求5所述的训练方法，其特征在于，所述根据所述人体全局特征、所述三元组损失函数和所述类中心损失函数，获取所述行人重识别模型的自由欧式空间表征损失函数，包括：

7.根据权利要求5所述的训练方法，其特征在于，所述根据所述人体全局特征、所述批次归一化算法、所述角度分类器和所述基于角度间隔的损失函数，获取所述行人重识别模型的超球面表征损失函数，包括：

8.一种行人重识别模型的训练装置，其特征在于，包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-7任意一项的方法步骤。

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项的方法步骤。