CN115171165A

CN115171165A - 全局特征与阶梯型局部特征融合的行人重识别方法及装置

Info

Publication number: CN115171165A
Application number: CN202210906148.6A
Authority: CN
Inventors: 张登银; 王敬余; 赵乾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-11
Also published as: WO2024021394A1

Abstract

本发明公开了一种全局特征与阶梯型局部特征融合的行人重识别方法及装置，方法包括：利用预训练好的行人重识别网络模型对待识别图像、图库图像分别进行提取得到待识别图像行人特征、图库图像行人特征；将待识别图像行人特征与图库图像行人特征进行相似度匹配，输出相似度排名前N的行人图像，作为行人重识别结果；行人重识别网络包括骨干网络、改进的全局特征分支和块权重指导的阶梯型局部特征提取分支；采用公开的数据集训练行人重识别网络，获得训练好的行人重识别网络模型。本发明设计了全局特征与阶梯型局部特征融合的行人重识别方法。目标是学习鲁棒性更强的行人特征表示，以应对复杂的行人重识别场景，达到一个好的识别效果。

Description

全局特征与阶梯型局部特征融合的行人重识别方法及装置

技术领域

本发明属于数字图像处理技术领域，涉及一种全局特征与阶梯型局部特征融合的行人重识别方法及装置，具体涉及一种全局特征与块权重指导的阶梯型局部特征融合的行人重识别方法。

背景技术

行人重识别问题是跨摄像头的图像检索问题，旨在利用查询图在图像库中检索出属于同一身份的行人图像。首先从多个摄像头中提取原始行人视频图像，依次通过特征提取、相似度度量确认该行人其他图像。

当前，由于摄像头角度、天气等因素的影响，获得的原始视频图像质量不高。遮挡、模糊的图像会严重影响行人重识别的精度，因此在低质量图像上学习出高精度行人重识别模型成为研究重点。

根据损失类型，行人重识别分为表征学习和度量学习。表征学习将行人重识别问题当作图像分类和验证问题，度量学习将图像特征映射到高维特征空间，通过距离度量出两张图像相似度。2014年以来，通过卷积神经网络提取的更具鲁棒性的特征，利用更简单的距离度量公式查找更准确的行人图像，大大增强了行人重识别模型的精度与泛化能力。在本研究方向上大量学者提出更高质量算法，行人重识别研究迎来了爆发式增长。

然而，在真实的场景下，不同摄像头的同一行人由于受到光照、姿态、遮挡、分辨率等各种因素的影响，往往呈现很大的外观差异，这给行人重识别的研究与应用带来诸多挑战。因此，如何提取更具判别力的行人特征，并采用高效的相似性度量方法以减小类内差距，增大类间差距成为行人重识别的关键问题。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种全局特征与阶梯型局部特征融合的行人重识别方法及装置，基于全局特征与块权重指导的阶梯型局部特征融合，在显著提升了行人重识别效果的同时，不会带来过多的计算量，同时能够解决图像遮挡、拍摄角度变化、分辨率不高等现象所带来的行人重识别研究算法精度不高的问题。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，提供一种行人重识别方法，包括：

获取待识别图像和图库图像；

利用预训练好的行人重识别网络模型对所述待识别图像、图库图像分别进行提取得到待识别图像行人特征、图库图像行人特征；

将待识别图像行人特征与图库图像行人特征进行相似度匹配，输出相似度排名前N的行人图像，作为行人重识别结果；

其中，所述行人重识别网络模型的构建方法包括：

构建行人重识别网络，行人重识别网络包括骨干网络、改进的全局特征分支和块权重指导的阶梯型局部特征提取分支；所述骨干网络为Resnet50，并加载好预训练权重；所述改进的全局特征分支接在骨干网络Conv5_x上，包括通道注意力模块、多重感受野融合模块、GeM池化层、全连接层，被配置为提取行人全局特征；所述块权重指导的阶梯型局部特征提取分支接在骨干网络Conv4_x后，包括阶梯分块层、池化层、空间注意力模块、全连接层，被配置为提取行人局部特征；所述行人全局特征和行人局部特征连接起来作为最终行人特征；

采用公开的数据集训练行人重识别网络，获得训练好的行人重识别网络模型。

在一些实施例中，所述改进的全局特征分支的构建方法包括：

将从骨干网络Conv5_x得到的特征图作为输入，先经过通道注意力模块提取显著的行人信息，再通过多重感受野融合模块获取行人不同感受野下的特征信息进行融合，之后经过GeM池化层进行GeM池化，得到2048维的特征向量，使用难样本采样三元组损失约束，同时该特征向量接到全连接层上进行降维，得到512维的全局特征，使用交叉熵损失约束，利用三元组损失和交叉熵损失进行联合优化训练。

进一步地，所述通道注意力模块中，输入的特征图同时采用最大池化与平均池化得到两个一维的向量，之后被送进权重共享的多层感知机中，将输出进行逐元素的相加后经过Sigmoid激活得到对应的注意力权重；

所述GeM池化层公式为：

其中，X为GeM池化层的输入，f为GeM池化层的输出，p_k是一个超参数，在反向传播的过程中学习；

所述多重感受野融合模块包含3个分支，对输入的特征X分别经过卷积核大小为3×3，空洞率分别为1、2、3的分支进行卷积操作得到3个特征图，将此3个特征图进行融合为最终的输出X′。

在一些实施例中，所述块权重指导的阶梯型局部特征提取分支的构建方法包括：

将经过骨干网络Conv4_x得到的特征图作为输入，通过阶梯分块层得到9个局部特征图，对9个局部特征图进行池化操作得到9个1024维特征向量，然后经过第一全连接层进行降维得到9个256维特征向量，将所有降至256维的特征向量分别送入第二全连接层后使用交叉熵损失进行分类学习；

同时对骨干网络Conv4_x得到的特征图经过空间注意力模块、阶梯分块层后得到的9个局部特征图计算块权重，用块权重指导交叉熵损失。

进一步地，所述阶梯分块层首先将原始完整行人图像特征均匀分成12个水平块，最初以第1块为起始块，每4块为一个整体作为一个局部区域，随后以步长为1往下更改起始块进行阶梯型分块，最终得到9个局部特征图。

所述空间注意力模块，先在通道注意力模块中对输入H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述，并将这两个通道描述按照通道拼接在一起；然后，经过一个7×7的卷积层，激活函数为Sigmoid，得到H×W×1的空间注意力权重系数；

所述块权重计算方法包括：将空间注意力模块输出的H×W×1的空间注意力权重系数送入阶梯分块层得到9个局部系数块，分别用每个局部系数块的系数和除以9个系数块的系数总和得到9个块权重。

在一些实施例中，所述行人重识别网络模型采用双分支联合训练进行训练，联合训练损失函数L_total＝L_global+L_local，其中L_global代表改进的全局特征分支损失，L_local代表块权重指导的阶梯型局部特征分支损失。

进一步地，改进的全局特征分支损失L_total＝L_Softmax+L_{tri_hard}，其中L_Softmax为交叉熵损失，L_{tri_hard}为难样本采样三元组损失，

其中，N是批次数，H表示行人数，fi是图像i的特征向量，其真实标签为y_i，W为权重，b是偏置；

是第k个行人的权重向量的转置，bk是第k个行人的偏置向量；

采用难例样本挖掘三元组损失函数进行训练，三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组，训练时在每个批次中挑选出P个行人，每个行人挑选出K张图像，三元组均来自于P×K张图像，通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失，其中mar为设置的超参数，d_an,pos是锚点与正样本的距离，d_an,neg是锚点与负样本的距离，A、B表示该P×K张图像中不同的样本集，即所选正样本和负样本不重合；损失函数的最小化，就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。

进一步地，权重指导的阶梯型局部特征分支损失

其中n为局部特征块的个数，L_{Softmax_i}代表第i个局部特征图的交叉熵损失，W_i为第i个局部特征图的块权重。

第二方面，本发明提供了一种行人重识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

本发明的目标是学***分块，该模块可以提取到更细节的行人信息，同时通过计算块权重指导交叉熵损失，使训练的模型更关注行人重要的信息。最后采用双分支联合训练的策略对模型进行训练。

有益效果：本发明提供的全局特征与阶梯型局部特征融合的行人重识别方法及装置，具有以下优点：

(1)本发明提出了全局特征与块权重指导的阶梯型局部特征融合的行人重识别方法，提高了行人重识别的准确率。首先将Resnet50网络作为骨干网络提取行人图像的全局特征；然后送入到所设计的分支网络分别提取全局特征和局部特征，最后将两个分支的特征进行融合，所得到的特征既包含了更抽象的全局特征，又包含了细节信息更多的局部特征，因此具有更强的鲁棒性。

(2)本发明采用广义均值池化作为聚合模块，该池化介于最大池化和均值池化之间，通过一种统一池化类型，能更好的捕捉特征差异性。

(3)多重感受野融合模块可以有效聚合不同感受野的特征，使行人重识别性能进一步得到提升。

(4)通过阶梯分块层阶梯型划分图像区域从而加强局部特征之间的联系，能够避免特征学习过程中某些重要信息的丢失。

(5)通过设计的块权重对局部分支的交叉熵损失进行指导，可以使模型训练过程中更关注图片的关键信息，训练得到的模型也能更好的提取关键特征。

附图说明

图1为根据本发明一实施例的行人重识别网络框架图；

图2为根据本发明一实施例的通道注意力模块示意图；

图3为根据本发明一实施例中多重感受野融合模块示意图；

图4为根据本发明一实施例中空间注意力模块示意图；

具体实施方式

下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种行人重识别方法，包括：

获取待识别图像和图库图像；

其中，所述行人重识别网络模型的构建方法包括：

所述GeM池化层公式为：

是第k个行人的权重向量的转置，bk是第k个行人的偏置向量；

进一步地，权重指导的阶梯型局部特征分支损失

在一些实施例中，提供的全局特征与块权重指导的阶梯型局部特征融合的行人重识别方法，包括以下步骤：

步骤1:构建行人重识别网络，包括骨干网络、改进的全局特征分支、块权重指导的阶梯型局部特征提取分支；如图1所示；

本实施例中骨干网络resnet50分为5层，其中把最后一个卷积层的步长由2设为1使Conv4_x与Conv5_x采样的特征图具有相同的尺寸；

本实施例采用双分支网络进行联合训练，其中全局特征分支包括通道注意力模块、多重感受野融合模块、GeM池化层、FC层；块权重指导的局部特征分支包括阶梯分块层、GeM池化层、空间注意力模块、FC层；联合训练公式为L_total＝L_global+L_local，其中L_global代表改进的全局特征分支损失，L_local代表块权重指导的阶梯型局部特征分支损失；

本实施例中全局分支训练公式为L_global＝L_Softmax+L_{tri_hard},其中L_Softmax为交叉熵损失，L_{tri_hard}为难样本采样三元组损失，分别介绍两个公式:

是第k个行人的权重向量的转置，bk是第k个行人的偏置向量；

采用难例样本挖掘三元组损失函数进行训练，三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组，训练时在每个批次中挑选出P个行人，每个行人挑选出K张图像，三元组均来自于P×K张图像，通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失，其中mar为设置的超参数，d_an,pos是锚点与正样本的距离，d_an,neg是锚点与负样本的距离，A、B表示该P×K张图像中不同的样本集，即所选正样本和负样本不重合；损失函数的最小化，就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化；

本实施例中局部分支训练公式为：

其中n为局部特征块数，L_{Softnax_i}代表第i个局部特征图的交叉熵损失，W_i为第i个局部特征图的块权重，本实施例中n＝9；

本实施例中通道注意力模块如图2所示，在通道注意力模块中，输入的特征图同时采用最大池化与平均池化得到两个一维的向量,之后被送进权重共享的多层感知机中，将输出进行逐元素的相加后经过Sigmoid激活即可得到对应的注意力权重；

本实施例中多重感受野融合模块包含3个分支，对输入的行人特征X分别经过卷积核大小为3×3，空洞率分别为1、2、3的分支进行卷积操作得到3个特征图，将此3个特征图进行融合为最终的输出X′；

本实施例中GeM池化层所述池化公式为:

其中，X为池化层的输入，f为池化层的输出，p_k是一个超参数，在反向传播的过程中学习；

本实施例中阶梯分块层将首先将原始完整行人图像特征均匀分成12个水平块，最初以第1块为起始块，每4块为一个整体作为一个局部区域，随后以步长为1往下更改起始块进行阶梯型分块，最终得到9个局部特征图。

本实施例中空间注意力模块将Conv4_x输出的H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述，并将这两个描述按照通道拼接在一起。然后，经过一个7×7的卷积层，激活函数为Sigmoid，得到H×W×1的空间注意力权重系数。

本实施例中使用上述H×W×1的空间注意力权重系数，送入阶梯分块层得到9个局部系数块，分别用每个系数块的系数和除以9个系数块的系数总和得到9个块权重。

步骤2：训练行人重识别网络，获得训练好的行人重识别网络模型；

从公开数据源中获取训练数据并预处理，将预处理后的图像数据分为训练集和测试集，将训练集送入行人重识别网络进行训练，获得训练后的行人重识别网络；通过测试集测试训练后的行人重识别网络，若满足预设要求，则停止训练，获得训练好的行人重识别网络，否则继续执行训练过程；

本实施例中，数据来源于几个公开数据集，如Market1501、DukeMTMC-Reid、MSMT17。从数据集中提取的图像通过水平翻转、随机擦除等预处理方法进行预处理；

本实施例中，对于给定尺寸大小为H×W×3的输入行人图像，首先将其调整为384×128×3的图像大小，之后使用随机擦除、图像翻转等方法对输入图像进行预处理；

本实施例采用损失函数衡量深度学习模型的预测能力，使用损失函数监督模型训练过程，从而缩小真实值与预测值差距的目的；

首先，对于给定大小为384×128×3的行人图像，经过骨干网ResNet50得到初始特征图；

将骨干网Conv4_x和Conv5_x输出的特征分别送入局部分支和全局分支进行进一步的特征提取；

对于全局分支，输入是通道数为2048的特征图，经过通道注意力模块计算通道注意力权重系数与之相乘后得到带注意力权重的特征，输出特征图通道数仍为2048；

将该带注意力权重的特征输入多重感受野融合模块，对输入的行人特征X分别经过卷积核大小为3×3，卷积核个数为2048，空洞率分别为1、2、3的分支进行卷积操作得到3个特征图，3个特征图尺寸相同，通道数都为2048，将此3个特征图进行相加融合为最终的输出；

将该2048维的特征图进行GeM池化得到1×1×2048的特征向量，使用三元组损失对其进行约束，同时该特征向量接到全连接层上进行降维，得到512维的特征向量,送入全连接层后使用标签平滑的交叉熵损失进行分类学习，利用三元组损失和交叉熵损失进行联合优化训练；

对于局部分支，输入是通道数为1024的特征图，通过阶梯分块层得到9个局部特征图，对其分别进行池化操作得到9个1024维特征向量，然后全连接进行降维得到9个256维特征向量，将所有降至256维的特征分别送入全连接层后使用交叉熵损失进行分类学习，同时使用计算的块权重乘上每个局部特征图的交叉熵损失，并将结果相加得到最终的局部分支损失；

训练阶段采用局部分支和全局分支联合训练的方式，训练公式为L_total＝L_global+L_local，直到总损失值L_total为最小时停止训练。

步骤3：通过训练的模型提取待识别图像的行人特征，将提取的特征与图库中各图像所对应的特征进行匹配，根据与待识别图像的相似度输出排名前N的行人图像；

将全局分支降至512维的特征向量和局部分支9个256维特征向量连接起来作为最终特征，通过计算查询图像与图像库中图像的余弦相似度，得出模型性能评价结果mAP、rank-1、rank-5和rank-10。

实施例2

第二方面，本实施例提供了一种行人重识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种行人重识别方法，其特征在于，包括：

获取待识别图像和图库图像；

其中，所述行人重识别网络模型的构建方法包括：

2.根据权利要求1所述的行人重识别方法，其特征在于，所述改进的全局特征分支的构建方法包括：

3.根据权利要求1或2所述的行人重识别方法，其特征在于，所述通道注意力模块中，输入的特征图同时采用最大池化与平均池化得到两个一维的向量，之后被送进权重共享的多层感知机中，将输出进行逐元素的相加后经过Sigmoid激活得到对应的注意力权重；

和/或，所述GeM池化层公式为：

和/或，所述多重感受野融合模块包含3个分支，对输入的特征X分别经过卷积核大小为3×3，空洞率分别为1、2、3的分支进行卷积操作得到3个特征图，将此3个特征图进行融合为最终的输出X′。

4.根据权利要求1所述的行人重识别方法，其特征在于，所述块权重指导的阶梯型局部特征提取分支的构建方法包括：

5.根据权利要求1或4所述的行人重识别方法，其特征在于，所述阶梯分块层首先将原始完整行人图像特征均匀分成12个水平块，最初以第1块为起始块，每4块为一个整体作为一个局部区域，随后以步长为1往下更改起始块进行阶梯型分块，最终得到9个局部特征图。

6.根据权利要求4所述的行人重识别方法，其特征在于，所述空间注意力模块，先在通道注意力模块中对输入H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述，并将这两个通道描述按照通道拼接在一起；然后，经过一个7×7的卷积层，激活函数为Sigmoid，得到H×W×1的空间注意力权重系数；

7.根据权利要求1所述的行人重识别方法，其特征在于，所述行人重识别网络模型采用双分支联合训练进行训练，联合训练损失函数L_total＝L_global+L_local，其中L_global代表改进的全局特征分支损失，L_local代表块权重指导的阶梯型局部特征分支损失。

8.根据权利要求7所述的行人重识别方法，其特征在于，改进的全局特征分支损失L_total＝L_Softmax+L_{tri_hard}，其中L_Softmax为交叉熵损失，L_{tri_hard}为难样本采样三元组损失，

是第k个行人的权重向量的转置，bk是第k个行人的偏置向量；

9.根据权利要求7所述的行人重识别方法，其特征在于，权重指导的阶梯型局部特征分支损失

10.一种行人重识别装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述方法的步骤。