CN116052220A

CN116052220A - 行人重识别方法、装置、设备及介质

Info

Publication number: CN116052220A
Application number: CN202310125013.0A
Authority: CN
Inventors: 闫文雪; 宋宏健; 张燕; 厉吉华; 李军宏
Original assignee: Beijing Duowei Shitong Technology Co ltd
Current assignee: Beijing Duowei Shitong Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-02
Anticipated expiration: 2043-02-07
Also published as: CN116052220B

Abstract

本公开提供了一种行人重识别方法、装置、设备及介质，涉及数字图像处理技术领域。该方法包括：提取行人图像的特征向量，得到目标图像的特征向量和每个第一图像的特征向量；其中，在行人图像类别为全身图像的情况下，行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征；在行人图像类别为半身图像的情况下，行人图像的特征向量包括行人图像的半身特征；基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，并根据余弦距离排序得到行人重识别结果。根据本公开实施例，能够提高行人重识别的准确率。

Description

行人重识别方法、装置、设备及介质

技术领域

本公开涉及数字图像处理技术领域，尤其涉及一种行人重识别方法、装置、设备及介质。

背景技术

行人重识别(Person Re-identification，ReID)技术旨在不同摄像头视频中判断是否存在目标对象(特定行人)，该技术能够用于目标追踪、智能视频监控、目标检索等多种场景。

相关技术中的行人重识别技术大多是基于目标整体图像的行人重识别，虽然目前的行人重识别模型能够学习到具有较强表征能力的行人特征，但是现实场景下的数据复杂，一些行人存在不同程度的遮挡，甚至由于相机拍摄角度的缘故，在摄像头视角范围内，无法拍摄到完整的行人图像。当行人图像不完整时，行人重识别的准确率常会大幅降低，导致现有的行人重识别技术误检率较高。因此，如何提高行人重识别的准确率，成为本领域亟待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种行人重识别方法、装置、设备及介质，至少在一定程度上克服由于相关技术中因行人图像不完整所导致的行人重识别准确率较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供了一种行人重识别方法，包括：

获取行人图像，行人图像至少包括目标图像和待识别的多个第一图像；

基于预设的图像特征提取方法，提取行人图像的特征向量，得到目标图像的特征向量和每个第一图像的特征向量；其中，在行人图像的类别为全身图像的情况下，行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征；在行人图像的类别为半身图像的情况下，行人图像的特征向量包括行人图像的半身特征；

基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，并根据余弦距离排序得到行人重识别结果。

在本公开的一个实施例中，预设的图像特征提取方法，包括：

判断行人图像的类别，是否为全身图像；

在行人图像为全身图像的情况下，将行人图像输入到预先训练的行人重识别全身模型中，得到行人图像的全身特征；以及基于行人图像，切分得到行人图像对应的半身图像，并将行人图像对应的半身图像输入到预先训练的行人重识别半身模型中，得到行人图像的半身特征；

在行人图像为半身图像的情况下，将行人图像输入到预先训练的行人重识别半身模型中，得到行人图像的半身特征。

在本公开的一个实施例中，基于行人图像，切分得到行人图像对应的半身图像，包括：

基于如下公式计算得到半身图像的高度H′：

H′＝s₁*H+s₂*n

其中，s₁表示图像高度尺度比例因子，s₂表示浮动值尺度比例因子，n为随机数，H表示原行人图像的高度；

基于计算得到的半身图像的高度，切分行人图像，得到行人图像对应的半身图像。

在本公开的一个实施例中，方法还包括：

在训练行人重识别全身模型和行人重识别半身模型时，采用全身半身互蒸馏方式，对行人重识别全身模型逻辑输出层和行人重识别半身模型逻辑输出层进行蒸馏。

在本公开的一个实施例中，判断行人图像的类别，是否为全身图像，包括：

将行人图像，输入到分类器中，计算行人图像属于半身图像的概率、属于全身图像的概率和属于非行人图像的概率，比较行人图像属于半身图像的概率、属于全身图像的概率和属于非行人图像的概率三者之间的大小；

在行人图像属于全身图像的概率最大，或行人图像属于非行人图像的概率最大的情况下，确定行人图像为全身图像。

在本公开的一个实施例中，基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，包括：

在目标图像的类别为全身图像且第一图像的类别为全身图像时，基于第一图像的全身特征和目标图像的全身特征，计算目标图像和第一图像之间的余弦距离；

在目标图像的类别为全身图像且第一图像的类别为半身图像时，基于第一图像的半身特征和目标图像的半身特征，计算目标图像和第一图像之间的余弦距离；

在目标图像的类别为半身图像且第一图像的类别为全身图像时，基于第一图像的半身特征和目标图像的半身特征，计算目标图像和第一图像之间的余弦距离；

在目标图像的类别为半身图像且第一图像的类别为半身图像时，基于第一图像的半身特征和目标图像的半身特征，计算目标图像和第一图像之间的余弦距离。

在本公开的一个实施例中，获取行人图像，包括：

获取目标图像和待检测视频，待检测视频包括多个监控设备拍摄的视频数据；

对待检测视频进行目标检测，得到待识别的多个第一图像，多个第一图像为待检测视频的视频帧图像中检测框框选范围的图像。

根据本公开的另一个方面，提供一种行人重识别装置，包括：

图像获取模块，用于获取行人图像，行人图像至少包括目标图像和待识别的多个第一图像；

特征提取模块，用于基于预设的图像特征提取方法，提取行人图像的特征向量，得到目标图像的特征向量和每个第一图像的特征向量；其中，在行人图像类别为全身图像的情况下，行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征；在行人图像类别为半身图像的情况下，行人图像的特征向量包括行人图像的半身特征；

距离计算模块，用于基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，并根据余弦距离排序得到行人重识别结果。

根据本公开的又一个方面，提供一种电子设备，包括：存储器，用于存储指令；处理器，用于调用所述存储器中存储的指令，实现上述的行人重识别方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现上述的行人重识别方法。

根据本公开的又一个方面，提供一种计算机程序产品，计算机程序产品存储有指令，所述指令在由计算机执行时，使得计算机实施上述的行人重识别方法。

根据本公开的又一个方面，提供一种芯片，包括至少一个处理器和接口；

接口，用于为至少一个处理器提供程序指令或者数据；

至少一个处理器用于执行程序指令，以实现上述的行人重识别方法。

本公开实施例所提供的行人重识别方法，在提取行人图像的特征向量时，在行人图像为全身图像的情况下，行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征；在行人图像为半身图像的情况下，行人图像的特征向量包括行人图像的半身特征，然后基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，并根据余弦距离排序得到行人重识别结果，本公开实施例能够充分利用行人图像的全身特征和半身特征信息，在余弦距离计算过程中减小了全身特征和半身特征间本身存在的特征差异而导致的误差，提高了行人重识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开实施例的一种应用环境的***架构示意图；

图2示出本公开实施例中一种行人重识别方法流程图；

图3示出本公开实施例中预设的图像特征提取方法流程图；

图4示出本公开实施例中分类器的架构示意图；

图5示出本公开实施例中提取第一图像的特征向量的流程图；

图6示出本公开实施例中提取目标图像的特征向量的流程图；

图7示出本公开实施例中计算余弦距离的流程图；

图8示出本公开实施例中一种行人重识别装置示意图；

图9示出本公开实施例中一种电子设备的结构框图。

具体实施方式

下面将参考附图更全面地描述示例实施方式。

需要说明的是，示例实施方式能够以多种形式实施，不应被理解为限于在此阐述的范例。

基于背景技术部分可知，当行人图像不完整时，行人重识别的准确率常会大幅降低，导致现有的行人重识别技术误检率较高。

具体地，发明人发现由于训练数据集不同，导致行人重识别模型(ReID模型)对图片中不同位置特征关注度不同，使用全身行人训练集训练的模型更关注全身语义信息，而使用半身行人训练集训练的模型更能挖掘细粒度、更具鉴别性的语义信息。ReID实际应用场景下的数据复杂，一些行人存在不同程度的遮挡，甚至由于相机拍摄角度的缘故，在摄像头视角范围内，无法拍摄到完整的行人图片。其次，图片全身特征和半身特征本身就存在语义信息上的差异，当全身特征与半身特征计算余弦相似度时，会导致结果的不准确性。

图1示出了可以应用本公开实施例中行人重识别方法及装置的示例性应用环境的***架构的示意图。

如图1所示，***架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用于在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是能够拍摄视频的各种电子设备，包括但不限于智能监控摄像头、智能手机和平板电脑等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的行人重识别方法可以由服务器105执行，相应地，行人重识别装置可以设置于服务器105中。

在一些实施例中，本公开实施例提供的行人重识别方法，能够在监控拍不到人脸的情况下，代替人脸识别在视频序列中找到想要找的目标对象，实现对拍摄到的行人进行重识别。

需要说明的是，执行本公开实施例提供的行人重识别方法的执行主体，不局限于图1所示的服务器105，本公开实施例提供的行人重识别方法可以由任意具备计算处理能力的电子设备执行。

图2示出本公开实施例中一种行人重识别方法流程图，如图2所示，本公开实施例中提供的行人重识别方法包括步骤S210-S230。

在S210中，获取行人图像，行人图像至少包括目标图像和待识别的多个第一图像。

目标图像可以是目标对象的图像，目标对象可以是目标行人。

在一个实施例中，该行人重识别方法可以用于在监控视频中查找目标行人(例如，路人甲)，此时，目标图像可以是包含路人甲的图像。

在实际应用中，路人甲的图像可以是包含路人甲全身的全身图像，也可以是只包含路人甲半身的半身图像。在一个示例中，路人甲的半身图像可以是路人甲的上半身图像，也就是包含路人甲头颈部的图像。

在上述示例中，待识别的多个第一图像，可以来源于监控视频中包含路人甲的视频帧图像。

需要说明的是，在进行后续步骤S220时，目标图像及第一图像为以图像中目标物为主体构成的图像，目标物可以是行人，行人可以是全身也可以是半身。

本公开实施例中的多个第一图像可以来源于多个监控设备拍摄的视频数据。

在一个实施例中，获取行人图像，可以包括：获取目标图像和待检测视频，待检测视频包括多个监控设备拍摄的视频数据；对待检测视频进行目标检测，得到待识别的多个第一图像，多个第一图像为待检测视频的视频帧图像中检测框框选范围的图像。

还需要说明的是，本公开实施例中待识别的多个第一图像中可以包含非行人图像，在一个示例中，可以将非行人图像按照全身的行人图像的处理流程进行处理。在一些场景中，待识别的多个第一图像也可以称为搜素库图像，目标图像也可以称为待查找的行人监控图像。

在S220中，基于预设的图像特征提取方法，提取行人图像的特征向量，得到目标图像的特征向量和每个第一图像的特征向量。

其中，在行人图像类别为全身图像的情况下，行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征；在行人图像类别为半身图像的情况下，行人图像的特征向量包括行人图像的半身特征。

在一些实施例中，在提取行人图像的特征向量时，可以先判断行人图像的类别，针对不同类别的行人图像采用不同的特征提取方式。

作为一个示例，针对不同类别的行人图像采用不同的特征提取方式，可以是针对不同类别的行人图像采用不同的特征提取模型提取特征，如此，在训练特征提取模型时，便可以采用不同类别的图像训练集来针对性训练，进而能够使得训练后的特征提取模型更关注其所属类别的特征信息。例如，在类别包括全身图像和半身图像的情况下，采用全身图像训练集训练的特征提取模型(例如行人重识别全身模型)会更关注全身图像的特征信息，能够更好地提取全身行人图像的特征，相应地，采用半身图像训练集训练的特征提取模型(例如行人重识别半身模型)能够更好地提取半身行人图像的特征。

在上述示例中，类别为全身图像的行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征，可以是先采用行人重识别全身模型提取得到全身特征，再采用行人重识别半身模型提取得到半身特征。在一个实施例中，在采用行人重识别半身模型提取得到半身特征前，可以先将全身的行人图像处理为半身图像，然后再输入至行人重识别半身模型提取特征。

S230，基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，并根据余弦距离排序得到行人重识别结果。

在一些实施例中，基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，可以是选择对应的特征进行计算，使得全身特征与全身特征之间进行计算，半身特征与半身特征之间进行计算。

基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，可以是在目标图像的特征向量中只有半身特征的情况下，选择第一图像特征向量中的半身特征与其计算余弦距离，在目标图像的特征向量中包括全身特征和半身特征的情况下，选择全身特征与全身的第一图像计算余弦距离，选择半身特征与半身的第一图像计算预先距离。

在一些实施例中，基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，可以包括如下步骤：

本公开实施例所提供的行人重识别方法，能够充分利用行人图像的全身特征和半身特征信息，在相似度计算过程中计算对应类别属性图像特征余弦距离，最终将所有余弦距离值进行排序，提高了模型在复杂场景下的适用性，使得排序结果更准确。

在一些实施例中，如图3所示，本公开实施例提供的预设的图像特征提取方法，包括步骤S310-S330。

在S310中，判断行人图像的类别，是否为全身图像。

在S320中，在行人图像为全身图像的情况下，将行人图像输入到预先训练的行人重识别全身模型中，得到行人图像的全身特征；以及基于行人图像，切分得到行人图像对应的半身图像，并将行人图像对应的半身图像输入到预先训练的行人重识别半身模型中，得到行人图像的半身特征。

在S330中，在行人图像为半身图像的情况下，将行人图像输入到预先训练的行人重识别半身模型中，得到行人图像的半身特征。

在一些实施例中，上述S310可以是将行人图像，输入到分类器中，计算行人图像属于半身图像的概率、属于全身图像的概率和属于非行人图像的概率，比较行人图像属于半身图像的概率、属于全身图像的概率和属于非行人图像的概率三者之间的大小；在行人图像属于全身图像的概率最大，或行人图像属于非行人图像的概率最大的情况下，确定行人图像为全身图像。

上述实施例中的分类器可以采用行人图像数据集训练得到。行人图像数据集可以包括全身图像和半身图像。在一个示例中，行人图像数据集中的部分半身图像可以基于全身图像切分得到。在训练分类器时，可以分别抽取全身图像和半身图像数量的9/10作为分类器训练集、1/10作为分类器测试集。

在一些实施例中，S320中基于行人图像，切分得到行人图像对应的半身图像，包括基于如下公式计算得到半身图像的高度H′：

H′＝s₁*H+s₂*n (1)

在一个实施例中，s₁的取值范围可以是0.4-0.7，作为一个示例，s₁的取值采用0.6时效果较佳。浮动值尺度比例因子s₂可以采用0.05，随机数n服从正态分布。

在一些实施例中，在训练上述行人重识别全身模型和行人重识别半身模型时，同样可以采用上述切分方式得到全身图像训练集和半身图像训练集，然后应用全身图像训练集训练行人重识别全身模型，应用半身图像训练集训练行人重识别半身模型。

在一些实施例中，为使模型有更高的准确率，且可使行人重识别全身模型挖掘更细粒度特征，行人重识别半身模型可获取更丰富语义信息，也可采用全身半身互蒸馏方式，对行人重识别全身模型和行人重识别半身模型逻辑输出层进行蒸馏。

上述逻辑输出层蒸馏采用反向kl散度传递两个模型间训练样本类别信息。全身模型和半身模型cls全连接层输出特征分别为G_kl和P_kl，输出特征分别除以蒸馏温度T得到软标签值，此处蒸馏温度取值为2，再经过softmax逻辑回归得到多标签分类概率值。根据kl散度计算公式，得到全身模型和半身模型间的kl散度值。同时，为保持模型间各自对不同特征的注意力，引入一个阈值β，取值可以为0.002，将kl散度值与阈值之差的绝对值作为逻辑层蒸馏损失。逻辑输出层蒸馏使得两模型间逻辑分布更紧密，从而使模型训练时更快速收敛。

在一些实施例中，如图4所示，为本公开中分类器全身半身属性分类流程，输入一张图像，经过骨干网络提取特征后，使用全连接层将每张图像特征转换为1×3通道的输出。根据输出值，求三个通道最大值的索引值。索引值为0，代表该图像类别为全身；索引值为1，代表该图像类别为半身；索引值为2，代表该图像类别为非行人图像。

下面结合附图5、附图6和附图7说明本公开实施例中特征提取及余弦值计算的过程。

图5示出本公开实施例针对待识别的多个第一图像(也可称为搜素库图像)的特征提取流程，在该示例中，每张图像提取的特征为1×2048维的向量。

获取待识别的多个第一图像，使用分类器判断每张图像的类别，当图像中行人为全身时，使用训练好的行人重识别全身模型提取图像的全身特征，记为G_i，同时，在图像高度方向上切分出上半部分，作为行人重识别半身模型的输入，提取图像上半部分特征(也就是前文中行人图像对应的半身图像的半身特征)，记为G_j；当图像中行人为半身时，直接使用行人重识别半身模型提取该图像特征，记为P_i。行人重识别全身模型和行人重识别半身模型图片输入尺寸可以为384×128。

图6示出本公开实施例针对目标图像(也可称为待查找的行人监控图像)的特征提取流程，该示例中特征提取流程与上文相似，在目标图像为全身图像时，得到全身特征G和半身特征G_p；在目标图像为半身图像时，得到半身特征P。

图7示出上述S230中特征选择及余弦距离计算的过程，包括如下步骤：

当目标图像为全身，第一图像为全身时，此时计算特征G与特征G_i的余弦距离；

当目标图像为全身，第一图像为半身时，此时计算特征G_p与特征P_i的余弦距离；

当目标图像为半身，第一图像为全身时，此时计算特征P与特征G_j的余弦距离；

当目标图像为半身，第一图像为半身时，此时计算特征P与特征P_i的余弦距离。

在一些实施例中，本公开实施例中余弦距离计算，可以采用如下公式：

在计算余弦距离相似度前可以先将特征向量标准化。其中m，n均为2048维特征向量，m_i和n_j为特征向量的特征值。

本公开实施例能够充分利用行人图像的全身特征和半身局部特征信息。既减小了全身和半身特征信息间，本身存在的特征信息差异而导致的误差，也减小了模型本身对图片不同位置特征提取关注度的误差。使用分类模型对行人图像属性判断，分别使用全身模型和半身模型提取图片特征，并计算对应类别属性图像间的特征相似度，最终将所有相似度值进行排序，该实施方案提高了模型在复杂场景下的适用性，使得排序结果更准确。

在本公开实施例中，术语“第一”、“第二”和“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。

在一些实施例中，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

基于同一发明构思，本公开实施例中还提供了一种行人重识别装置，如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似，因此该装置实施例的实施可以参见上述方法实施例的实施，重复之处不再赘述。

图8示出本公开实施例中一种行人重识别装置示意图，如图8所示，该行人重识别装置800，包括：

图像获取模块810，用于获取行人图像，行人图像至少包括目标图像和待识别的多个第一图像；

特征提取模块820，用于基于预设的图像特征提取方法，提取行人图像的特征向量，得到目标图像的特征向量和每个第一图像的特征向量；其中，在行人图像类别为全身图像的情况下，行人图像的特征向量包括行人图像的全身特征和行人图像的半身特征；在行人图像类别为半身图像的情况下，行人图像的特征向量包括行人图像的半身特征；

距离计算模块830，用于基于目标图像的类别和每个第一图像的类别，在目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算目标图像和每个第一图像之间的余弦距离，并根据余弦距离排序得到行人重识别结果。

在一些实施例中，预设的图像特征提取方法，包括：

判断行人图像的类别，是否为全身图像；

在一些实施例中，基于行人图像，切分得到行人图像对应的半身图像，包括：

基于上文中的公式(1)计算得到半身图像的高度；

在一些实施例中，在训练行人重识别全身模型和行重识别半身模型时，采用全身半身互蒸馏方式，对行人重识别全身模型逻辑输出层和行人重识别半身模型逻辑输出层进行蒸馏。

在一些实施例中，判断行人图像的类别，是否为全身图像，包括：

在一些实施例中，距离计算模块830，包括：

第一计算单元，用于在目标图像的类别为全身图像且第一图像的类别为全身图像时，基于第一图像的全身特征和目标图像的全身特征，计算目标图像和第一图像之间的余弦距离；

第二计算单元，用于在目标图像的类别为全身图像且第一图像的类别为半身图像时，基于第一图像的半身特征和目标图像的半身特征，计算目标图像和第一图像之间的余弦距离；

第三计算单元，用于在目标图像的类别为半身图像且第一图像的类别为全身图像时，基于第一图像的半身特征和目标图像的半身特征，计算目标图像和第一图像之间的余弦距离；

第四计算单元，用于在目标图像的类别为半身图像且第一图像的类别为半身图像时，基于第一图像的半身特征和目标图像的半身特征，计算目标图像和第一图像之间的余弦距离。

在一些实施例中，图像获取模块810，包括：

第一获取单元，用于获取目标图像和待检测视频，待检测视频包括多个监控设备拍摄的视频数据；

目标检测单元，用于对待检测视频进行目标检测，得到待识别的多个第一图像，多个第一图像为待检测视频的视频帧图像中检测框框选范围的图像。

本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

关于上述实施例中的行人重识别装置，其中各个模块执行操作的具体方式已经在有关该行人重识别方法的实施例中进行了详细描述，此处将不做详细阐述说明。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。

实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面参照图9来描述本公开实施例提供的电子设备。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图9示出本本公实施例提供的一种电子设备900的架构示意图。如图9所示，该电子设备900包括但不限于：至少一个处理器910、至少一个存储器920。

存储器920，用于存储指令。

在一些实施例中，存储器920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

在一些实施例中，存储器920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

在一些实施例中，存储器920可存储操作***。该操作***可以是实时操作***(Real Time eXecutive，RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作***。

在一些实施例中，存储器920中还可以存储有数据。

作为一个示例，处理器910可以读取存储器920中存储的数据，该数据可以与指令存储在相同的存储地址，该数据也可以与指令存储在不同的存储地址。

处理器910，用于调用存储器920中存储的指令，实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理器910可以执行上述方法实施例的各步骤。

需要说明的是，上述处理器910可以是通用处理器或者专用处理器。处理器910可以包括一个或者一个以上处理核心，处理器910通过运行指令执行各种功能应用以及数据处理。

在一些实施例中，处理器910可以包括中央处理器(central processing unit，CPU)和/或基带处理器。

在一些实施例中，处理器910可以根据各个控制指令中携带的优先级标识和/或功能类别信息确定一个指令。

本公开中，处理器910和存储器920可以单独设置，也可以集成在一起。

作为一个示例，处理器910和存储器920可以集成在单板或者***级芯片(systemon chip，SOC)上。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900还可以包括总线930。

总线930可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备940(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。

并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。

如图9所示，网络适配器960通过总线930与电子设备900的其它模块通信。

应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

可以理解的是，本公开实施例示意的结构并不构成对电子设备900的具体限定。在本公开另一些实施例中，电子设备900可以包括比图9所示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图9所示的部件可以以硬件，软件或软件和硬件的组合实现。

本公开还提供了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述方法实施例描述的行人重识别方法。

本公开实施例中计算机可读存储介质，为可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的计算机指令。

作为一个示例，计算机可读存储介质是非易失性存储介质。

在一些实施例中，本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、U盘、移动硬盘或者上述的任意合适的组合。

本公开实施例中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机指令(可读程序代码)。

这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。

在一些示例中，计算机可读存储介质上包含的计算指令可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

本公开实施例还提供一种计算机程序产品，计算机程序产品存储有指令，指令在由计算机执行时，使得计算机实施上述方法实施例描述的行人重识别方法。

上述指令可以是程序代码。在具体实施时，程序代码可以由一种或多种程序设计语言的任意组合来编写。

程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。

程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开实施例还提供了一种芯片，包括至少一个处理器和接口；

接口，用于为至少一个处理器提供程序指令或者数据；

至少一个处理器用于执行程序指令，以实现上述方法实施例描述的行人重识别方法。

在一些实施例中，该芯片还可以包括存储器，该存储器，用于保存程序指令和数据，存储器位于处理器之内或处理器之外。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。

本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种行人重识别方法，其特征在于，包括：

获取行人图像，所述行人图像至少包括目标图像和待识别的多个第一图像；

基于预设的图像特征提取方法，提取所述行人图像的特征向量，得到所述目标图像的特征向量和每个第一图像的特征向量；其中，在所述行人图像类别为全身图像的情况下，所述行人图像的特征向量包括所述行人图像的全身特征和所述行人图像的半身特征；在所述行人图像类别为半身图像的情况下，所述行人图像的特征向量包括所述行人图像的半身特征；

基于所述目标图像的类别和每个第一图像的类别，在所述目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算所述目标图像和每个第一图像之间的余弦距离，并根据所述余弦距离排序得到行人重识别结果。

2.根据权利要求1所述的方法，其特征在于，所述预设的图像特征提取方法，包括：

判断行人图像的类别，是否为全身图像；

在所述行人图像为全身图像的情况下，将所述行人图像输入到预先训练的行人重识别全身模型中，得到所述行人图像的全身特征；以及基于所述行人图像，切分得到所述行人图像对应的半身图像，并将所述行人图像对应的半身图像输入到预先训练的行人重识别半身模型中，得到所述行人图像的半身特征；

在所述行人图像为半身图像的情况下，将所述行人图像输入到预先训练的行人重识别半身模型中，得到所述行人图像的半身特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述行人图像，切分得到所述行人图像对应的半身图像，包括：

基于如下公式计算得到半身图像的高度H′：

H′＝s₁*H+s₂*n

基于计算得到的所述半身图像的高度，切分所述行人图像，得到所述行人图像对应的半身图像。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述判断行人图像的类别，是否为全身图像，包括：

将所述行人图像，输入到分类器中，计算所述行人图像属于半身图像的概率、属于全身图像的概率和属于非行人图像的概率，比较所述行人图像属于半身图像的概率、属于全身图像的概率和属于非行人图像的概率三者之间的大小；

在所述行人图像属于全身图像的概率最大，或所述行人图像属于非行人图像的概率最大的情况下，确定所述行人图像为全身图像。

6.根据权利要求1-5任一所述的方法，其特征在于，所述基于所述目标图像的类别和每个第一图像的类别，在所述目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算所述目标图像和每个第一图像之间的余弦距离，包括：

在所述目标图像的类别为全身图像且第一图像的类别为全身图像时，基于所述第一图像的全身特征和所述目标图像的全身特征，计算所述目标图像和所述第一图像之间的余弦距离；

在所述目标图像的类别为全身图像且第一图像的类别为半身图像时，基于所述第一图像的半身特征和所述目标图像的半身特征，计算所述目标图像和所述第一图像之间的余弦距离；

在所述目标图像的类别为半身图像且第一图像的类别为全身图像时，基于所述第一图像的半身特征和所述目标图像的半身特征，计算所述目标图像和所述第一图像之间的余弦距离；

在所述目标图像的类别为半身图像且第一图像的类别为半身图像时，基于所述第一图像的半身特征和所述目标图像的半身特征，计算所述目标图像和所述第一图像之间的余弦距离。

7.根据权利要求1所述的方法，其特征在于，所述获取行人图像，包括：

获取目标图像和待检测视频，所述待检测视频包括多个监控设备拍摄的视频数据；

对所述待检测视频进行目标检测，得到待识别的多个第一图像，所述多个第一图像为所述待检测视频的视频帧图像中检测框框选范围的图像。

8.一种行人重识别装置，其特征在于，包括：

图像获取模块，用于获取行人图像，所述行人图像至少包括目标图像和待识别的多个第一图像；

特征提取模块，用于基于预设的图像特征提取方法，提取所述行人图像的特征向量，得到所述目标图像的特征向量和每个第一图像的特征向量；其中，在所述行人图像类别为全身图像的情况下，所述行人图像的特征向量包括所述行人图像的全身特征和所述行人图像的半身特征；在所述行人图像类别为半身图像的情况下，所述行人图像的特征向量包括所述行人图像的半身特征；

距离计算模块，用于基于所述目标图像的类别和每个第一图像的类别，在所述目标图像的特征向量和第一图像的特征向量中选择对应的特征，计算所述目标图像和每个第一图像之间的余弦距离，并根据所述余弦距离排序得到行人重识别结果。

9.一种电子设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于调用所述存储器中存储的指令，实现如权利要求1-7任一项所述的行人重识别方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-7中任意一项所述的行人重识别方法。