CN115937906B

CN115937906B - 一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法

Info

Publication number: CN115937906B
Application number: CN202310121979.7A
Authority: CN
Inventors: 韩守东; 章孜闻; 郭维; 刘东海生
Original assignee: Wuhan Tuke Intelligent Technology Co ltd
Current assignee: Hangzhou Tuke Intelligent Information Technology Co ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-06
Anticipated expiration: 2043-02-16
Also published as: CN115937906A

Abstract

本发明公开了一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，属于图像处理技术领域。本发明首先使用随机的栅格对齐块状遮挡增强策略产生模拟遮挡的增强图像样本，用于自监督地训练遮挡感知器，可以预测行人图像中的遮挡位置。本发明对输入图像首先使用遮挡抑制编码器进行特征提取，该编码器采用自注意力机制对图像分块并进行图像块之间充分的信息交换，在这个过程中，利用遮挡感知的结果抑制遮挡位置的特征传递，可以产生关注非遮挡区域的全局特征。然后，本发明使用特征修复网络重建完整行人特征，最终获得一个鲁棒的特征表达。本发明方法构建的全局特征能够减少遮挡干扰，并提高遮挡场景下的检索精确度。

Description

一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法

技术领域

本发明涉及图像处理和机器视觉中的行人重识别领域，尤其涉及一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法。

背景技术

行人重识别是计算机视觉领域中的一个重要研究课题，其目标是匹配不同镜头下的相同行人图像，这项研究可以被应用于监控场景下的行人寻回、行人检索等任务。近年来基于完整行人图像的常规行人重识别工作已经取得了巨大的成功，然而遮挡场景下的行人重识别仍然是一个很大的挑战，在这种任务中需要用被遮挡了一部分的行人图像作为查询图像在图库中检索。在真实监控场景中行人目标往往会被频繁地遮挡，因此增强模型在遮挡场景的稳定性将很大程度上提高行人重识别方法的实用性。

遮挡行人重识别任务的难点在于两个方面。其一是行人的关键部位被遮挡时难以提取具有判别性的特征，其二是在人挡人的情况下非目标的行人会带来干扰特征，易于产生错误的匹配。目前的工作主要从两种思路解决行人重识别中的遮挡问题。第一种是充分利用全局信息产生鲁棒的特征表达。这种方法为了应对遮挡场景，尽可能地从更多位置或者尺度挖掘判别性的特征，这样在某些区域被遮挡时可以减少犯错。第二种是利用额外线索针对关键部位的局部特征进行增强。在遮挡场景中，针对某些关键部位的局部特征进行增强是至关重要的。因此有部分工作尝试利用额外线索找出没有遮挡的关键部位。

在遮挡场景中，如果充分利用所有局部区域提取一个统一的特征，很容易被遮挡物引入的特征干扰。这样会产生很多错误匹配，比如匹配到相同遮挡物的不同行人图像。现有的工作使用额外的模型对行人进行骨架提取，并对行人的各个部位的可视度进行预测，然后抑制被遮挡的局部特征，增强可视的局部特征。但是，这种做法会带来额外的计算开销，而且当目标行人被其他行人遮挡时，外部模型可能会失效。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，可以提高遮挡场景下行人重识别精度。

根据本发明的第一方面，提供了一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，包括：

步骤1，使用栅格对齐块状遮挡增强策略对完整行人图像进行数据增强，产生模拟遮挡的遮挡增强图像及其对应的遮挡标签；

步骤2，构建遮挡感知器，利用所述遮挡增强图像和对应的遮挡标签训练所述遮挡感知器；

步骤3，构建特征提取网络，对所述完整行人图像和所述遮挡增强图像分别进行特征提取，得到完整行人图像特征和遮挡增强图像特征；其中，在对所述遮挡增强图像进行特征提取时，利用所述遮挡感知器的遮挡感知结果抑制遮挡干扰；

步骤4，构建特征重建网络，利用所述遮挡增强图像特征和所述完整行人图像特征训练得到特征重建网络；

步骤5，利用所述遮挡感知器对真实场景的遮挡行人图像进行遮挡感知，得到所述遮挡感知结果；对所述遮挡行人图像进行特征提取，并利用所述遮挡感知结果对遮挡区域的特征进行抑制，得到关注行人可视区域的全局特征；基于所述特征重建网络对所述全局特征进行特征重建，得到用于行人重识别的最终全局特征；基于所述最终全局特征计算特征距离，完成行人重识别。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述步骤1中产生所述遮挡增强图像和对应的遮挡标签的过程包括：

将所述完整行人图像缩放到设定尺寸并按照等分的栅格划分为各个图像块；

将多个所述遮挡增强图像设为一个批次图像，设定遮挡比例，循环随机地产生和栅格对齐的矩形添加到蒙版集合中直到所述蒙版集合中所有矩形取并的总面积符合所述遮挡比例，基于所述蒙版集合形成不规则的块状蒙版，多次采样后生成该批次图像的多个随机蒙版；

每次采样时从批次图像中随机选择不同身份的其他完整行人图像，随机选择相同形状的区域覆盖到待处理的完整行人图像上，生成所述遮挡增强图像和对应的遮挡标签。

可选的，所述遮挡感知器由多层自注意力模块和一个线性层组成；

所述遮挡感知器的输入为由图像块特征嵌入序列和一个初始化为全零向量的遮挡指示特征组成的输入序列。

可选的，所述遮挡感知器的训练过程包括：

自注意力模块统合图像块特征嵌入中携带的信息，更新所述遮挡指示特征

，通过线性层将所述遮挡指示特征/>

转化为所述遮挡感知结果/>

，其中，遮挡预测由所述遮挡增强图像对应的遮挡标签进行监督。

可选的，所述步骤3中构建的所述特征提取网络由多层自注意力模块构成；

所述特征提取网络的输入为由图像块特征嵌入序列和一个身份分类指示特征组成的输入序列。

可选的，所述特征提取网络提取过程包括：统合图像块特征嵌入中携带的信息，更新所述身份分类指示特征，每一层自注意力模块均产生注意力矩阵；其中，所述注意力矩阵第一行的N个元素表示N个图像块嵌入特征向身份指示特征的信息传递强度；

在对所述遮挡增强图像进行特征提取时，根据所述遮挡感知结果对所述注意力矩阵进行修正，使遮挡分数高的图像块特征嵌入在特征交换的过程中具有更小的权重，并将修正后的注意力图用于计算特征更新。

可选的，所述步骤4中构建的所述特征重建网络由二分支的自注意力层构成，两个分支分别为：全局特征构建网络和完整特征推理网络；

所述全局特征构建网络基于所述完整行人图像特征构建得到完整全局特征

；所述完整特征推理网络基于所述遮挡增强图像特征推理得到重构全局特征/>

。

可选的，所述特征重建网络的目标是由完整特征推理网络从不完整的图像中构造和完整图像的特征尽可能相似的特征；

所述特征重建网络进行训练时的整体损失为

;

其中，

表示身份分类损失，/>

表示三元组损失，/>

表示遮挡预测损失，推理损失/>

，其中/>

表示欧氏距离，/>

、/>

、/>

和/>

分别是4类损失的平衡权重。

本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，其有益效果包括：

1、设计了一种数据增强策略，可以产生遮挡增强的图像和对应的标注，用于加强模型对遮挡情况的理解能力；

2、改进了在局部特征增强时确定关键可视部位的方式，不再依赖于额外的模型，而是以自监督的方式进行遮挡感知；

3、改进了在特征提取时增强局部特征的方式，不再额外地产生独立的局部特征再加权融合，而是直接产生关注特定局部的全局特征，这种方式更适用于基于自注意力机制的特征提取网络；

4、设计了一个特征重建网络，可以在遮挡场景中修复不完整的特征，重建完整的全局特征，提高行人重识别在遮挡场景下的精度。

附图说明

图1为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别的实施例的整体网络结构图；

图2为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别的实施例的网络训练流程图；

图3为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别的实施例的网络预测流程图；

图4为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法的栅格对齐块状遮挡增强所产生的标签的示例图；

图5为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法的特征重建的实施例的示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，首先使用随机的栅格对齐块状遮挡增强策略产生模拟遮挡的增强图像样本，用于自监督地训练遮挡感知器，可以预测行人图像中的遮挡位置。本发明对输入图像首先使用遮挡抑制编码器进行特征提取，该编码器采用自注意力机制对图像分块并进行图像块之间充分的信息交换，在这个过程中，利用遮挡感知的结果抑制遮挡位置的特征传递，可以产生关注非遮挡区域的全局特征。然后，本发明使用特征修复网络重建完整行人特征，最终获得一个鲁棒的特征表达。

图1为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别的实施例的整体网络结构图，图2和图3分别为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别的实施例的网络训练流程图和网络预测流程图，结合图1-图3可知，该重识别方法包括：

步骤1，使用栅格对齐块状遮挡增强策略对完整行人图像进行数据增强，产生模拟遮挡的遮挡增强图像及其对应的遮挡标签。

具体实施中，完整行人图像可以从行人重识别公开数据集中获取。

步骤2，构建遮挡感知器，利用所述遮挡增强图像和对应的遮挡标签训练所述遮挡感知器。

步骤3，构建特征提取网络，对所述完整行人图像和所述遮挡增强图像分别进行特征提取，得到完整行人图像特征和遮挡增强图像特征；其中，在对所述遮挡增强图像进行特征提取时，利用所述遮挡感知器的遮挡感知结果抑制遮挡干扰。

步骤4，构建特征重建网络，利用所述遮挡增强图像特征和所述完整行人图像特征训练得到特征重建网络。

本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，关键点在于，第一，提出了一种栅格对齐块状遮挡增强策略，用于以自监督的形式训练模型对遮挡的感知能力；第二，构建了一种遮挡感知器，可以预测行人图像分块后的每一个图像块的遮挡分数；第三，构建了一种特征重建网络，可以修复被遮挡的不完整特征，重建完整的全局特征。

实施例1

本发明提供的实施例1为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法的实施例，结合图1-图3可知，该方法的实施例包括：

在一种可能的实施例方式中，所述步骤1中产生所述遮挡增强图像和对应的遮挡标签的过程包括：

将所述完整行人图像缩放到设定尺寸并按照等分的栅格划分为各个图像块。

将多个所述遮挡增强图像设为一个批次图像，设定遮挡比例，循环随机地产生和栅格对齐的矩形添加到蒙版集合中直到所述蒙版集合中所有矩形取并的总面积符合所述遮挡比例，基于所述蒙版集合形成不规则的块状蒙版，多次采样后生成该批次图像的多个随机蒙版。

每次采样时从批次图像中选择随机选择不同身份的其他完整行人图像，随机选择相同形状的区域覆盖到待处理的完整行人图像上，生成所述遮挡增强图像和对应的遮挡标签。

具体实施中，该过程可以具体为：首先将原始图像缩放至

的尺寸，并按照均分栅格将其划分为/>

个图像块，其中/>

表示图像块的边长。设定一个遮挡比例/>

,然后不断地产生随机大小，且长宽均为/>

的整数倍的矩形，添加到一个初始为空的集合中，直到该集合中所有矩形取并产生的形状面积充分接近/>

，则完成随机的不规则块状蒙版的构建。每一次采样都将对一个批次中所有图像产生一个随机蒙版，并从同一批次中随机选择不同身份的其他行人图像，从中选择相同形状的区域覆盖到原始图像上，得到遮挡增强图像。同时，也能得到尺寸为/>

遮挡标签矩阵/>

，该矩阵元素的取值为0或1，其中0表示原图图像块，1表示模拟遮挡物图像块。

如图4所示为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法的栅格对齐块状遮挡增强示例图；图4中白色表示遮挡物，黑色表示原图。

在一种可能的实施例方式中，所述遮挡感知器由多层自注意力模块和一个线性层组成；具体的，可以为3层自注意力模块。

所述遮挡感知器的输入为由图像块特征嵌入序列和一个初始化为全零向量的遮挡指示特征组成的输入序列

。

在一种可能的实施例方式中，所述遮挡感知器的训练过程包括：

遮挡感知器将对上述输入使用自注意力机制，自注意力模块统合图像块特征嵌入中携带的信息，更新所述遮挡指示特征

，通过线性层将所述遮挡指示特征/>

转化为所述遮挡感知结果/>

，其中，遮挡预测由步骤1所得的所述遮挡增强图像对应的遮挡标签进行监督，产生遮挡预测损失/>

，其中，/>

表示交叉熵函数。

通过上述步骤，完成遮挡感知器的构建和训练。

在一种可能的实施例方式中，所述步骤3中构建的所述特征提取网络利用遮挡感知的结果抑制遮挡图像块的特征嵌入，由多层自注意力模块构成；具体的，可以为11层自注意力模块。

所述特征提取网络的输入为由图像块特征嵌入序列和一个身份分类指示特征组成的输入序列

。

在一种可能的实施例方式中，所述特征提取网络将对上述输入使用自注意力机制，提取过程包括：统合图像块特征嵌入中携带的信息，更新所述身份分类指示特征

，在这个过程中，每一层自注意力模块均产生注意力矩阵；其中，所述注意力矩阵第一行的N个元素，记为/>

，表示N个图像块嵌入特征向/>

的信息传递强度。/>

在对所述遮挡增强图像进行特征提取时，根据所述遮挡感知结果对所述注意力矩阵进行修正，使遮挡分数高的图像块特征嵌入在特征交换的过程中具有更小的权重，并将修正后的注意力图

用于计算特征更新。

具体实施中，修正过程可以为：

，其中/>

表示哈达玛积，/>

表示单位向量，/>

表示注意力图的修正程度。

如图5所示为本发明提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法的特征重建的实施例的示意图，结合图5可知，

在一种可能的实施例方式中，所述步骤4中构建的所述特征重建网络由二分支的自注意力层构成，两个分支分别为：全局特征构建网络和完整特征推理网络。

。

所述特征重建网络以自监督的方式训练，在特征层面将关注一部分可视区域的不完整特征恢复为完整行人的全局特征，得到的特征在遮挡场景的行人重识别中更具有判别性。

具体的，所述特征重建网络的目标是由完整特征推理网络从不完整的图像中构造和完整图像的特征尽可能相似的特征。

所述特征重建网络进行训练时的整体损失为

;

其中，

表示身份分类损失，/>

表示三元组损失，/>

表示遮挡预测损失，推理损失/>

，其中/>

表示欧氏距离,并且反向传播仅经过完整特征推理网络的支路；/>

、/>

、/>

和/>

分别是4类损失的平衡权重。

本发明实施例提供的一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，在预测阶段，首先利用步骤2训练所得的遮挡感知器对真实场景查询集中的遮挡行人图像进行遮挡感知，得到遮挡感知结果

；再利用步骤3所得的特征提取网络对遮挡行人图像进行特征提取，并利用步骤5所得的遮挡感知结果，以修正注意力图的方式对遮挡区域的特征进行抑制，产生关注行人可视区域的全局特征；最后利用步骤4训练所得的特征重建网络的其中一个分支，即完整特征推理网络，基于所得的全局特征进行特征重建，得到用于行人重识别的最终全局特征。最后利用所得的全局特征和图库集的按照相同方式提取的全局特征计算特征距离并按照余弦距离排序，按照特征距离由近到远的顺序依次输出，至此完成行人重识别任务。

其有益效果包括：

1、设计了一种数据增强策略，可以产生遮挡增强的图像和对应的标注，用于加强模型对遮挡情况的理解能力。

2、改进了在局部特征增强时确定关键可视部位的方式，不再依赖于额外的模型，而是以自监督的方式进行遮挡感知。

3、改进了在特征提取时增强局部特征的方式，不再额外地产生独立的局部特征再加权融合，而是直接产生关注特定局部的全局特征，这种方式更适用于基于自注意力机制的特征提取网络。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于遮挡抑制和特征重建的遮挡场景行人重识别方法，其特征在于，所述重识别方法包括：

步骤4，构建特征重建网络，利用所述遮挡增强图像特征和所述完整行人图像特征训练得到特征重建网络；所述步骤4中构建的所述特征重建网络由二分支的自注意力层构成，两个分支分别为：全局特征构建网络和完整特征推理网络；

；

步骤5，在预测阶段，利用所述步骤2训练所得的所述遮挡感知器对真实场景的遮挡行人图像进行遮挡感知，得到所述遮挡感知结果；利用所述步骤3所得的所述特征提取网络对所述遮挡行人图像进行特征提取，并利用所述所述遮挡感知结果以修正注意力图的方式对遮挡区域的特征进行抑制，得到关注行人可视区域的全局特征；利用所述步骤4训练所得的所述特征重建网络的其中一个分支对所述全局特征进行特征重建，得到用于行人重识别的最终全局特征；利用所述全局特征和图库集的按照相同方式提取的全局特征计算特征距离并按照余弦距离排序，按照特征距离由近到远的顺序依次输出，完成行人重识别；

所述步骤1中产生所述遮挡增强图像和对应的遮挡标签的过程包括：

2.根据权利要求1所述的重识别方法，其特征在于，所述遮挡感知器由多层自注意力模块和一个线性层组成；

3.根据权利要求2所述的重识别方法，其特征在于，所述遮挡感知器的训练过程包括：