CN115082966B

CN115082966B - 行人重识别模型训练方法、行人重识别方法、装置和设备

Info

Publication number: CN115082966B
Application number: CN202210866105.XA
Authority: CN
Inventors: 郭海云; 王金桥; 唐明; 朱宽
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-12-06
Anticipated expiration: 2042-07-22
Also published as: CN115082966A

Abstract

本发明提供一种行人重识别模型训练方法、行人重识别方法、装置和设备，应用于图像处理领域，该方法包括：将第一样本图像划分为多个第一图像块，将多个第一图像块划分为多个第一图像块组；分别对各第一图像块组中的部分第一图像块进行掩码处理，得到各第一图像块组中的遮挡图像块和未遮挡图像块；根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器；根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调初始行人重识别模型的网络参数，得到行人重识别模型。本发明可以提高预训练模型的准确度，从而使得行人重识别模型的精度较高，提高了行人重识别准确度。

Description

行人重识别模型训练方法、行人重识别方法、装置和设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种行人重识别模型训练方法、行人重识别方法、装置和设备。

背景技术

随着监控技术的不断发展，行人重识别的应用越来越广泛。行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。因此，如何能够准确地对图像或视频进行行人重识别，已经越来越重要。

目前，在进行行人重识别时，越来越多的人开始研究模型的预训练方法。通过在大规模无标签行人数据集上，通过图像掩码建模（Masked Image Modeling）的方法进行行人重识别模型的预训练，得到更好的初始化模型，以提升行人重识别模型的判别能力。

然而，现有技术中的图像掩码建模方式中，无法提取图片中的局部特征，造成预训练的模型效果不好，导致行人重识别的准确度较低。

发明内容

本发明提供一种行人重识别模型训练方法、行人重识别方法、装置和设备，用以解决现有技术中预训练的模型效果不好，导致行人重识别的准确度较低的缺陷，实现提高预训练模型的准确度，从而使得行人重识别模型的精度较高，提高了行人重识别的准确度的效果。

本发明提供一种行人重识别模型训练方法，包括：

将第一样本图像划分为多个第一图像块，并将所述多个第一图像块划分为多个第一图像块组；

分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块；

根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器；

根据所述预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调所述初始行人重识别模型的网络参数，得到行人重识别模型。

根据本发明提供的一种行人重识别模型训练方法，所述根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器，包括：

针对每个第一图像块组，将所述第一图像块组中的未遮挡图像块输入初始预训练模型中的初始编码器中，得到第一特征向量；

确定所述第一图像块组中的遮挡图像块对应的可学习向量；

根据每个第一图像块组对应的所述第一特征向量和所述可学习向量，对所述初始预训练模型进行训练，得到预训练模型；

将所述预训练模型中的编码器，确定为所述初始行人重识别模型中的预训练完成的编码器。

根据本发明提供的一种行人重识别模型训练方法，所述根据每个第一图像块组对应的所述第一特征向量和所述可学习向量，对所述初始预训练模型进行训练，得到预训练模型，包括：

将所述每个第一图像块组中的所述第一特征向量和所述可学习向量输入所述初始预训练模型中的初始解码器中，得到解码特征；

根据所述解码特征，确定重构样本图像；

根据所述重构样本图像和所述第一样本图像，调整所述初始预训练模型的网络参数，得到所述预训练模型。

根据本发明提供的一种行人重识别模型训练方法，每个第一图像块组中包含至少两行第一图像块；

所述分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块，包括：

分别对每个第一图像块组中的预设行数的第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块。

根据本发明提供的一种行人重识别模型训练方法，所述根据所述预训练完成的编码器对第二样本图像进行处理后输出的目标特征向量，微调所述初始行人重识别模型的网络参数，得到行人重识别模型，包括：

将所述第二样本图像划分为多个第二图像块，并将所述多个第二图像块划分为多个第二图像块组；

将所述多个第二图像块组依次输入所述预训练完成的编码器中，得到每个第二图像块组对应的第二特征向量，并将所述多个第二图像块组对应的第二特征向量进行拼接，得到所述预训练完成的编码器输出的拼接后的所述目标特征向量；

根据所述目标特征向量，微调所述初始行人重识别模型的网络参数，得到行人重识别模型。

本发明提供一种行人重识别方法，包括：

获取多个待识别图像；

分别将每个所述待识别图像划分为多个第三图像块，并将所述多个第三图像块划分为多个第三图像块组；

将所述多个第三图像块组依次输入行人重识别模型中，得到所述行人重识别模型输出的每个所述待识别图像对应的特征向量，所述行人重识别模型为基于上述任一方面提供的行人重识别模型训练方法训练得到的；

根据每个所述待识别图像对应的特征向量，确定行人重识别结果。

本发明还提供一种行人重识别模型训练装置，包括：

划分模块，用于将第一样本图像划分为多个第一图像块，并将所述多个第一图像块划分为多个第一图像块组；

处理模块，用于分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块；

预训练模块，用于根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器；

微调模块，用于根据所述预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调所述初始行人重识别模型的网络参数，得到行人重识别模型。

本发明还提供一种行人重识别装置，包括：

获取模块，用于获取多个待识别图像；

划分模块，用于分别将每个所述待识别图像划分为多个第三图像块，并将所述多个第三图像块划分为多个第三图像块组；

处理模块，用于将所述多个第三图像块组依次输入行人重识别模型中，得到所述行人重识别模型输出的每个所述待识别图像对应的特征向量，所述行人重识别模型为基于前述任一方面提供的行人重识别模型的训练装置得到的；

确定模块，用于根据每个所述待识别图像对应的特征向量，确定行人重识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述行人重识别模型训练方法，或者实现如上述任一种所述行人重识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述行人重识别模型训练方法，或者实现如上述任一种所述行人重识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述行人重识别模型训练方法，或者实现如上述任一种所述行人重识别方法。

本发明提供的行人重识别模型训练方法、行人重识别方法、装置和设备，通过将第一样本图像划分为多个第一图像块，并将多个第一图像块划分为多个第一图像块组，分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块，由于针对每个第一图像块组中的第一图像块进行掩码处理，这样可以保证每个第一图像块组中均有遮挡图像块和未遮挡图像块，避免了通过随机遮挡的方式，将第一样本图像的上半部分全部遮挡或者下半部分全部遮挡，而造成的无法提取第一样本图像中的局部特征，只能提取全局特征的现象，使得提取出的特征信息更加全面。根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器，根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调初始行人重识别模型的网络参数，得到行人重识别模型。由于提取出的特征信息更加全面，因而预训练完成的编码器准确度也较高，使得得到的包含该预训练完成的编码器的行人重识别模型的精度也较高，提高了通过该行人重识别模型进行行人重识别的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的行人重识别模型训练方法的流程示意图之一；

图2为本发明实施例提供的图像掩码建模的过程示意图；

图3为本发明实施例提供的行人重识别方法的流程示意图之一；

图4为本发明实施例提供的行人重识别模型训练装置的示意图；

图5为本发明实施例提供的行人重识别装置的示意图；

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

行人重识别旨在从多个摄像头捕捉到的图像中寻找同一个目标人物，一大难点是外观相似的不同行人之间差异小，相同人物在不同视角和场景下外表差异可能很大，导致难以找到正确的目标人物。目前，在进行行人重识别时，越来越多的人开始研究模型的预训练方法。通过在大规模无标签行人数据集上，通过图像掩码建模（Masked Image Modeling）的方法进行行人重识别模型的预训练，得到更好的初始化模型，以提升行人重识别模型的判别能力。然而，目前的图像掩码建模的方式，通常采用随机遮挡图像块的方式，使得网络经过学习之后重构被遮挡的区域，通过该随机遮挡图像块的方式，会无法提取图片中的局部特征，例如可能会出现随机遮挡了图片的上半部分的图像块，仅保留了图片下半部分的部分图像块，或者随机遮挡了图片的下半部分的图像块，仅保留了图片上半部分的部分图像块等，因此，会造成预训练的初始化模型效果不好，导致行人重识别的准确度较低。

考虑到上述问题，本发明实施例提供了一种行人重识别模型训练方法，可以将第一样本图像划分后的多个第一图像块进行分组，并在每个组内随机进行图像块遮挡，这样，在每个组中都有未被遮挡的图像块，从而可以基于每个组内未被遮挡的图像块提取第一样本图像的局部特征，基于该局部特征进行行人重识别模型的预训练，从而可以使得预训练的初始化模型效果较高，精度较高，且通过对该预训练的初始化模型进行微调后得到的行人重识别模型，进行行人重识别的准确度较高。

本发明实施例提供的行人重识别模型训练方法，可以应用于监控场景、或者其他任何需要进行行人重识别的场景中，本发明实施例的执行主体为电子设备，如终端或服务器，只要其可以基于图像掩码建模的方式进行行人重识别模型训练即可。

下面结合图1-图3描述本发明的行人重识别模型训练方法。

图1为本发明实施例提供的行人重识别模型训练方法的流程示意图之一，如图1所示，该方法包括：

步骤101：将第一样本图像划分为多个第一图像块，并将多个第一图像块划分为多个第一图像块组。

具体地，第一样本图像为对行人重识别模型中的编码器进行预训练时所使用的样本图像。应理解，在通过图像掩码建模的方式对模型进行预训练时，需要将输入的二维的第一样本图像等分为相同大小的多个第一图像块，其中，该第一图像块的大小并不做限定，只要保证划分之后，第一样本图像中包括多行多列的第一图像块即可，如包含有m行n列的第一图像块，m和n均为大于或等于2的正整数。

示例性的，可以将尺寸为I的第一样本图像变换为2维图块，尺寸为

，其中，

为图块的大小。分块之后，按照从上到下的顺序，可以将多个第一图像块划分为多个第一图像块组，例如可以划分为4个第一图像块组。

图2为本发明实施例提供的图像掩码建模的过程示意图，如图2所示，在将第一样本图像划分为多个第一图像块之后，可以将这多个第一图像块划分为多个第一图像块组，其中，每个第一图像块组中包含至少两行第一图像块。需要进行说明的是，每个第一图像块组中包含的第一图像块的行数可以相同，也可以不同。如图2所示，可以将第1-3行的第一图像块划分为第1组，将第4-6行的第一图像块划分为第2组，将第7-9行的第一图像块划分为第3组。对于每个第一图像块组中包含的第一图像块的行数，本发明实施例在此不做限制。

步骤102：分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块。

具体地，在将多个第一图像块划分为多个第一图像块组之后，针对每个第一图像块组，在一种实现方式中，可以采用随机遮挡的方式，采用图像掩码模块，对每个第一图像块组中的部分第一图像块进行遮挡处理，也即进行掩码处理。在另一种可能的实现方式中，也可以采用图像掩码模块，遮挡每个第一图像块组中预设位置处的第一图像块，如遮挡每个第一图像块组中的前两行第一图像块等。通过上述任意一种方式，在对第一图像块进行掩码处理后，即可得到每个第一图像块组中的遮挡图像块和未遮挡图像块。

可选地，每个第一图像块组中包含有至少两行第一图像块，在对每个第一图像块组中的部分第一图像块进行掩码处理时，可以是分别对每个第一图像块组中的预设行数的第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块。

具体地，在采用图像掩码模块对每个第一图像块组中的第一图像块进行遮挡处理时，可以遮挡预设行数的第一图像块，这样可以保证整行的第一图像块未被遮挡，在将未被遮挡的第一图像块输入编码器中提取特征信息时，可以提高编码器的处理效率。

示例性的，上述的预设行数可以为多个第一图像块对应总行数的百分之八十。

具体地，针对每个第一图像块组，可以遮挡80%的行。也就是说，80%的行中的第一图像块将会被统一遮挡，只留下20%行上的第一图像块。由于只有没有被遮挡的图片块会被输入到编码器中，这样可以大幅度降低编码器计算量的消耗，提升处理速度。

如图2所示，可以采用图像掩码模块遮挡第1组中第一行和第三行的第一图像块，采用图像掩码模块遮挡第2组中前两行第一图像块，采用图像掩码模块遮挡第3组中后两行第一图像块等。

步骤103：根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器。

在本步骤中，由于编码器可以用于提取图像中的特征信息，编码器提取的特征信息的准确度，将直接影响行人重识别模型的准确度和精度，因此，为了提高行人重识别模型的准确度和精度，可以对初始行人重识别模型中的编码器进行预训练。具体地，可以基于每个第一图像块组中的遮挡图像块和未遮挡图像块中的特征信息，对初始预训练模型进行训练，将训练好的预训练模型中的编码器提取出来，作为初始行人重识别模型中预训练完成的编码器。

步骤104：根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调初始行人重识别模型的网络参数，得到行人重识别模型。

在本步骤中，将预训练完成的编码器作为初始行人重识别模型中的编码器，通过该预训练完成的编码器，对输入初始行人重识别模型中的第二样本图像进行特征提取后，输出特征表示，也即特征向量，从而基于该特征表示，微调初始行人重识别模型的网络参数，以对初始行人重识别模型进行训练，从而得到训练后的行人重识别模型，其中，初始行人重识别模型的网络参数，也可以理解为初始行人重识别模型的模型参数。

本发明实施例提供的行人重识别模型训练方法，通过将第一样本图像划分为多个第一图像块，并将多个第一图像块划分为多个第一图像块组，分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块，由于针对每个第一图像块组中的第一图像块进行掩码处理，这样可以保证每个第一图像块组中均有遮挡图像块和未遮挡图像块，避免了通过随机遮挡的方式，将第一样本图像的上半部分全部遮挡或者下半部分全部遮挡，而造成的无法提取第一样本图像中的局部特征，只能提取全局特征的现象，使得提取出的特征信息更加全面。根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器，根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调初始行人重识别模型的网络参数，得到行人重识别模型。由于提取出的特征信息更加全面，因而预训练完成的编码器准确度也较高，使得得到的行人重识别模型的精度也较高，提高了通过该行人重识别模型进行行人重识别的准确度。

可选地，根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器的过程，可以通过如下方式实现：针对每个第一图像块组，将第一图像块组中的未遮挡图像块输入初始预训练模型中的初始编码器中，得到第一特征向量；确定第一图像块组中的遮挡图像块对应的可学习向量；根据每个第一图像块组对应的第一特征向量和可学习向量，对初始预训练模型进行训练，得到预训练模型；将预训练模型中的编码器，确定为初始行人重识别模型中的预训练完成的编码器。

具体地，如图2所示，将每个第一图像块组中的未遮挡图像块输入初始预训练模型中的初始编码器中，经过初始编码器后，未遮挡图像块被编码为高维度特征向量。由于输入编码器中的仅为未遮挡图像块，因此可以降低计算量，提升图像块的处理速度。其中，初始预训练模型中的初始编码器由基础Transformer网络组成，其主要包括自注意力和多层感知机。自注意力首先将未遮挡图像块输入映射为Q、K和V三个向量，Q和K相乘得到注意力图，注意力图和V相乘得到最后的输出。将输出的信息通过多层全连接层，得到一层Transformer网络的输出，也即第一特征向量。其中，本发明中编码器网络包含了12层Transformer层。

针对每个第一图像块组中的遮挡图像块，可以确定这些遮挡图像块的可学习向量，其中，可学习向量可以理解为随机初始化的向量参数。通过每个第一图像块组中的未遮挡图像块对应的第一特征向量和遮挡图像块对应的可学习向量，可以对初始预训练模型进行训练，得到预训练模型。由于预训练模型中的编码器和行人重识别模型中的编码器均是用于提取图像中的特征向量的，因此，这两个编码器的网络参数大部分是相同或者相似的，因而，可以将训练好的预训练模型中的编码器提取出来，作为初始行人重识别模型中的预训练完成的编码器。

在本实施例中，由于仅将第一图像块组中的未遮挡图像块输入初始预训练模型中的初始编码器中，因此，可以降低计算量，提升图像处理的速度。另外，基于每个第一图像块组中的未遮挡图像块对应的第一特征向量和遮挡图像块对应的可学习向量，对初始预训练模型进行训练，得到预训练模型，并将该预训练模型中的编码器作为初始行人重识别模型中的预训练完成的编码器，由于每个第一图像块组中均包括有未遮挡图像块，可以使得预训练完成的编码器能够提取出第一样本图像的局部特征，提高了预训练完成的编码器的精度和预训练效果。另外，通过上述预训练完成的编码器，可以提取到更加具有判别力的特征，从而可以提高行人重识别的准确率。

可选地，在根据每个第一图像块组对应的第一特征向量和可学习向量，对初始预训练模型进行训练，得到预训练模型可以包括：

将每个第一图像块组中的第一特征向量和可学习向量输入初始预训练模型中的初始解码器中，得到解码特征；根据解码特征，确定重构样本图像；根据重构样本图像和第一样本图像，调整初始预训练模型的网络参数，得到预训练模型。

具体地，如图2所示，可以将每个第一图像块组中的未遮挡图像块对应的第一特征向量，和遮挡图像块对应的可学习向量输入初始预训练模型中的初始解码器中，得到解码特征。其中，初始解码器的主要架构和初始编码器一样，也是由基础Transformer网络组成，其主要包括自注意力和多层感知机。不同之处在于：（1）输入需要将被遮挡的图像块用可学习变量代替。（2）输出需要添加一个全连接层，将输出的特征向量映射回图像空间。也即，通过该全连接层，将得到的解码特征映射回图像空间，得到重构样本图像。

在得到重构样本图像之后，可以将该重构样本图像和第一样本图像进行对比，计算损失信息，并基于该损失信息调整初始预训练模型的网络参数。不断重复上述过程，直至调整参数后的初始预训练模型收敛或者损失信息最小，可以将最后得到的初始预训练模型确定为训练好的预训练模型。

应理解，在发明实施例中，通过特征重建网络，可以仅利用20%的可见像素，重建出整个图像，大大降低了图像处理的计算量。

在本实施例中，可以采用初始解码器输出的解码特征，确定重构样本图像，并利用第一样本图像监督重构样本图像，以此来优化初始预训练模型中的编码器和解码器的参数，提高了参数优化的准确性。

可选地，根据预训练完成的编码器对第二样本图像进行处理后输出的目标特征向量，微调初始行人重识别模型的网络参数，得到行人重识别模型，包括：将第二样本图像划分为多个第二图像块，并将多个第二图像块划分为多个第二图像块组；将多个第二图像块组依次输入预训练完成的编码器中，得到每个第二图像块组对应的第二特征向量，并将多个第二图像块组对应的第二特征向量进行拼接，得到预训练完成的编码器输出的拼接后的目标特征向量；根据目标特征向量，微调初始行人重识别模型的网络参数，得到行人重识别模型。

具体地，与第一样本图像类似，可以将第二样本图像等分为多个第二图像块，并将多个第二图像块划分为多个第二图像块组。与第一样本图像不同的是，此处并不对第二图像块组中的第二图像块进行掩码处理，而是将多个第二图像块组依次输入预训练完成的编码器中，针对每个第二图像块组，编码器可以提取该第二图像块组中的多个第二图像块各自对应的特征向量，通过对多个第二图像块各自对应的特征向量进行池化操作，即可得到该第二图像块组对应的第二特征向量。在确定出多个第二图像块组各自对应的第二特征向量之后，需要将多个第二图像块组各自对应的第二特征向量进行拼接，并将拼接后的目标特征向量作为预训练完成的编码器的输出。

将该目标特征向量输入至初始行人重识别模型的解码器中，输出行人重识别的识别结果，并将该识别结果和第二样本图像对应的标注信息进行比对，从而可以得到损失信息。基于该损失信息，可以微调初始行人重识别模型的模型参数，通过不断重复上述过程，直至微调参数后的初始行人重识别模型收敛或者损失信息最小，可以将最后得到的初始行人重识别模型确定为训练好的行人重识别模型。

在本实施例中，在得到预训练模型之后，可以采用该预训练模型中的编码器的参数，对初始行人重识别模型的网络参数进行微调，从而可以提高行人重识别模型的训练效率。

图3为本发明实施例提供的行人重识别方法的流程示意图之一，如图3所示，该方法包括：

步骤301：获取多个待识别图像。

在本步骤中，多个待识别图像可以为通过多个摄像头采集的图像，多个待识别图像中可能包括有同一个目标人物，也可能包括不同的目标人物。

步骤302：分别将每个待识别图像划分为多个第三图像块，并将多个第三图像块划分为多个第三图像块组。

在本步骤中，可以将每个待识别图像等分为相同大小的多个第三图像块，其中，该第三图像块的大小并不做限定，只要保证划分之后，每个待识别图像中包括多行多列的第三图像块即可。在分块之后，可以将这多个第三图像块划分为多个第三图像块组，其中，每个第三图像块组中包含至少两行第三图像块。需要进行说明的是，每个第三图像块组中包含的第三图像块的行数可以相同，也可以不同。

步骤303：将多个第三图像块组依次输入行人重识别模型中，得到行人重识别模型输出的每个待识别图像对应的特征向量。

其中，行人重识别模型为基于上述任一实施例中所述的行人重识别模型训练方法训练得到的。

具体地，将多个第三图像块组依次输入行人重识别模型的编码器中，针对每个第三图像块组，编码器可以提取该第三图像块组中的多个第三图像块各自对应的特征向量，通过对多个第三图像块各自对应的特征向量进行池化操作，即可得到该第三图像块组对应的特征向量。在确定出多个第三图像块组各自对应的特征向量之后，需要将多个第三图像块组各自对应的特征向量进行拼接，并将拼接后的特征向量作为每个待识别图像对应的特征向量，并输出。

步骤304：根据每个待识别图像对应的特征向量，确定行人重识别结果。

在本步骤中，在得到每个待识别图像对应的特征向量之后，可以比对各特征向量之间的相似度，从而确定行人重识别结果。例如，若有两张待识别图像的特征向量之间的相似度大于预设值，则说明这两张待识别图像中的目标对象为同一个目标人物，若不大于预设值，则说明这两张待识别图像中的目标对象为不同的目标人物。

示例性的，利用行人重识别模型的编码器进行特征提取之后，可以在行人重识别模型的网络末端添加行人重识别的分类层。需要进行说明的是，由于每个第三图像块组中的特征不同，因此，为了能够更好的进行分类，通过在对不同的第三图像块组中的特征进行池化操作之后，将分别添加不同的分类器。

本发明实施例提供的行人重识别方法，通过获取多个待识别图像，分别将每个待识别图像划分为多个第三图像块，并将多个第三图像块划分为多个第三图像块组，将多个第三图像块组依次输入行人重识别模型中，得到行人重识别模型输出的每个待识别图像对应的特征向量，从而根据每个待识别图像对应的特征向量，确定行人重识别结果。由于行人重识别模型中的编码器是将第一样本图像划分为多个第一样本图像块，并对这多个第一样本图像块进行分组之后，对每个第一样本图像块组中的部分第一图像块进行遮挡之后训练得到的，由于针对每个第一图像块组中的第一图像块进行掩码处理，这样可以保证每个第一图像块组中均有遮挡图像块和未遮挡图像块，避免了通过随机遮挡的方式，将第一样本图像的上半部分全部遮挡或者下半部分全部遮挡，而造成的无法提取第一样本图像中的局部特征，只能提取全局特征的现象，使得提取出的特征信息更加全面，使得预训练得到的编码器精度更高，从而基于包含该编码器的行人重识别模型进行行人重识别时，识别的准确度较高。

下面对本发明提供的行人重识别模型训练装置进行描述，下文描述的行人重识别模型训练装置与上文描述的行人重识别模型训练方法可相互对应参照。

图4为本发明实施例提供的行人重识别模型训练装置的示意图，如图4所示，该装置包括：

划分模块11，用于将第一样本图像划分为多个第一图像块，并将所述多个第一图像块划分为多个第一图像块组；

处理模块12，用于分别对每个第一图像块组中的部分第一图像块进行掩码处理，得到每个第一图像块组中的遮挡图像块和未遮挡图像块；

预训练模块13，用于根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器；

微调模块14，用于根据所述预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调所述初始行人重识别模型的网络参数，得到行人重识别模型。

可选地，所述预训练模块13，具体用于：

确定所述第一图像块组中的遮挡图像块对应的可学习向量；

可选地，所述预训练模块13，具体用于：

根据所述解码特征，确定重构样本图像；

可选地，每个第一图像块组中包含至少两行第一图像块；

所述处理模块12，具体用于：

可选地，所述微调模块14，具体用于：

本实施例的装置，可以用于执行前述电子设备侧方法实施例中任一实施例的方法，其具体实现过程与技术效果与电子设备侧方法实施例中类似，具体可以参见电子设备侧方法实施例中的详细介绍，此处不再赘述。

图5为本发明实施例提供的行人重识别装置的示意图，如图5所示，该装置包括：

获取模块21，用于获取多个待识别图像；

划分模块22，用于分别将每个所述待识别图像划分为多个第三图像块，并将所述多个第三图像块划分为多个第三图像块组；

处理模块23，用于将所述多个第三图像块组依次输入行人重识别模型中，得到所述行人重识别模型输出的每个所述待识别图像对应的特征向量，所述行人重识别模型为基于前述任一实施例中所述的行人重识别模型的训练装置得到的；

确定模块24，用于根据每个所述待识别图像对应的特征向量，确定行人重识别结果。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行行人重识别模型训练方法，该方法包括：将第一样本图像划分为多个第一图像块，并将所述多个第一图像块划分为多个第一图像块组；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的行人重识别模型训练方法，该方法包括：将第一样本图像划分为多个第一图像块，并将所述多个第一图像块划分为多个第一图像块组；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的行人重识别模型训练方法，该方法包括：将第一样本图像划分为多个第一图像块，并将所述多个第一图像块划分为多个第一图像块组；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行人重识别模型训练方法，其特征在于，包括：

根据所述预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调所述初始行人重识别模型的网络参数，得到行人重识别模型；

所述根据每个第一图像块组中的遮挡图像块和未遮挡图像块，对初始行人重识别模型中的编码器进行预训练，得到预训练完成的编码器，包括：

确定所述第一图像块组中的遮挡图像块对应的可学习向量；

将所述预训练模型中的编码器，确定为所述初始行人重识别模型中的预训练完成的编码器；

所述根据每个第一图像块组对应的所述第一特征向量和所述可学习向量，对所述初始预训练模型进行训练，得到预训练模型，包括：

根据所述解码特征，确定重构样本图像；

2.根据权利要求1所述的行人重识别模型训练方法，其特征在于，每个第一图像块组中包含至少两行第一图像块；

3.根据权利要求1所述的行人重识别模型训练方法，其特征在于，所述根据所述预训练完成的编码器对第二样本图像进行处理后输出的目标特征向量，微调所述初始行人重识别模型的网络参数，得到行人重识别模型，包括：

4.一种行人重识别方法，其特征在于，包括：

获取多个待识别图像；

将所述多个第三图像块组依次输入行人重识别模型中，得到所述行人重识别模型输出的每个所述待识别图像对应的特征向量，所述行人重识别模型为基于权利要求1-3任一项所述的行人重识别模型训练方法训练得到的；

5.一种行人重识别模型训练装置，其特征在于，包括：

微调模块，用于根据所述预训练完成的编码器对第二样本图像进行处理后输出的特征表示，微调所述初始行人重识别模型的网络参数，得到行人重识别模型；

所述预训练模块，具体用于：

确定所述第一图像块组中的遮挡图像块对应的可学习向量；

所述预训练模块，还具体用于：

根据所述解码特征，确定重构样本图像；

6.一种行人重识别装置，其特征在于，包括：

获取模块，用于获取多个待识别图像；

处理模块，用于将所述多个第三图像块组依次输入行人重识别模型中，得到所述行人重识别模型输出的每个所述待识别图像对应的特征向量，所述行人重识别模型为基于权利要求5所述的行人重识别模型的训练装置得到的；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述行人重识别模型训练方法，或者实现如权利要求4所述行人重识别方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述行人重识别模型训练方法，或者实现如权利要求4所述行人重识别方法。