CN117351522A

CN117351522A - 基于风格注入与跨视角难样本挖掘的行人重识别方法

Info

Publication number: CN117351522A
Application number: CN202311660792.0A
Authority: CN
Inventors: 毛彦嵋; 林旭; 陶大鹏; 李华锋; 杨延华; 杨二昆
Original assignee: Yunnan United Visual Technology Co ltd
Current assignee: Yunnan United Visual Technology Co ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-01-05

Abstract

本发明涉及基于风格注入与跨视角难样本挖掘的行人重识别方法，属图像检索领域。包括：获取用于行人重识别模型训练数据集；将数据样本输入特征提取网络，对特征提取网络进行预训练，实现特征提取网络对行人特征提取的判别能力；利用预训练后的特征提取网络对特征进行分组，实现单视角下样本的特征提取；利用特征提取网络提取到的单视角样本特征送入风格注入模块，为当前视角下的样本生成其它视角的特征，并将不同风格相同身份的样本进行拉近，实现跨视角身份一致性特征学习；挖掘跨视角的难样本，并将挖掘出的跨视角难样本进行拉近，实现跨视角下的行人身份匹配。本发明能实现远距离场景下的行人检索，实现跨城区场景中同一身份行人搜索任务。

Description

基于风格注入与跨视角难样本挖掘的行人重识别方法

技术领域

本发明涉及基于风格注入与跨视角难样本挖掘的行人重识别方法，属于图像检索技术领域。

背景技术

行人重识别是匹配互不重叠摄像头下的行人是否为同一身份的技术。在现有行人重识别方法中，所涉及到的问题大都是近距离跨相机视角的行人匹配问题。由于近距离内跨相机视角下出现相同身份行人的概率较高，这为降低标签噪声起到了积极作用。然而，现实中可能需要跨城区匹配行人的身份，这就涉及到远距离跨摄像头行人身份匹配的问题。在这种场景下，相机间极有可能不会出现相同身份的行人。如果将已有的行人重识别方法直接部署到该场景下，将会因预测到的伪标签全为标签噪声而失去原有性能。针对这一问题，提出了一种基于风格注入与跨视角难样本挖掘的行人重识别方法。

发明内容

为了解决现有方法的不足，本发明针对跨城区行人重识别面临的挑战，在非成对样本监督下，提出了基于风格注入与跨视角难样本挖掘的行人重识别方法，本发明克服了已有方法对行人判别性特征提取的不准确性，解决了行人身份信息和相机风格信息混叠对性能的影响，能有效识别跨相机同一身份的行人，比现有方法性能更好。

本发明的技术方案是：基于风格注入与跨视角难样本挖掘的行人重识别方法，所述方法的具体步骤如下：

步骤1：获取用于行人重识别模型训练数据集；

步骤2：将数据样本输入特征提取网络中，对特征提取网络进行预训练，实现特征提取网络对行人特征提取的判别能力；

步骤3：利用预训练后的特征提取网络对特征进行分组，实现单视角下样本的特征提取，得到单视角的特征，表示为；

步骤4：利用特征提取网络提取到的单视角样本特征送入风格注入模块，为当前视角下的样本生成其它视角的特征，即生成风格注入后的特征，并将不同风格相同身份的样本进行拉近，即对风格注入后的特征进行分布对齐，实现跨视角身份一致性特征学习；

步骤5：挖掘跨视角的难样本，并将挖掘出的跨视角难样本进行拉近，实现跨视角下的行人身份匹配。

进一步地，所述步骤1中数据样本图像大小均为256×128大小，首先对采集的数据样本图像进行预处理，预处理的方法具体为，水平翻转、填充、随机裁剪和随机擦除。

进一步地，具体操作如下：

给定输入图像，其中，分别表示高、宽、通道数；首先将图片分为N 个大小为16×16的局部块P，，表示N个局部特征；每个局部块的维度为768，此外，增加一个额外的随机初始化的分类头和风格头，将输出的分类头视为类别特征，风格头视为风格特征；接着，将局部块、分类头和风格头一起送入线性映射层，将图片映射为向量的形式，线性映射层的输出为，其中，表示位置嵌入, 表示将每个局部块进行线性映射为D维向量，表示类别特征，表示风格特征；继而将送入特征提取网络进行特征提取和关系挖掘；特征提取网络的输出表示为: ，表示共个transformer 层；接下来，首先对特征提取网络进行预训练，使用交叉熵损失和三元组损失来优化特征提取网络，使得特征提取网络具备一定的特征提取能力。

进一步地，所述步骤2中，将数据样本输入特征提取网络进行预训练，通过有监督的训练使得特征提取网络具备特征提取能力与分类能力，此过程实现如下：；；

其中，为单个样本的交叉熵损失，、分别表示一个批次的多个样本的交叉熵损失和三元组损失，代表数据集中的第个样本，为特征提取网络，为行人分类器，为当前第个行人样本的身份标签，为数据集中行人身份类别总数；同时，和分别为当前样本的难正样本和难负样本的特征，为阈值。通过上述公式的约束，和具备了一定的行人信息的特征提取能力。

进一步地，所述步骤3中，单视角下样本的特征提取具体操作如下：

经过了预训练后的特征提取网络，已经具备了初步的特征提取能力和分类能力。此时，由于数据集中行人的相机标签可以获得，因此，本发明将数据样本按照相机标签进行分组，分组后的特征表示为，即单视角的特征，并将单视角下的风格特征存储在风格特征存储器中。

进一步地，所述步骤4具体操作如下：

将步骤3中获得的单视角的特征与当前样本的特征一同送入风格注入模块，利用风格注入模块将当前样本的风格特征进行替换，替换为其它视角下的风格特征。经过风格注入模块之后，获得了当前身份在不同视角下的风格特征，将其继续送入后续的特征提取网络，并利用身份一致性约束实现判别性特征的挖掘。

进一步地，所述步骤4中，风格注入模块将不同视角下的风格特征注入到当前样本中，首先获得第层网络的输出，此过程实现如下：

其中，为第个样本的类别特征，为第个样本的风格特征，为网络第层的输出特征，表示N个局部特征；

利用单视角的特征进行风格注入，定义为：

从而获得风格注入后的特征，将风格注入后的特征与原特征一起送入后续的特征提取网络进行信息挖掘，对风格注入后的特征进行分布上的对齐与特征一致性学习，从而实现跨视角身份一致性特征学习。

进一步地，所述步骤4中，对风格注入后的特征进行分布对齐，风格注入后的特征用表示，具体操作如下；

其中，为KL散度(Kullback-Leibler Divergence)。

进一步地，所述步骤5中，利用特征提取网络得到的特征进行跨相机的难样本挖掘，具体操作如下：

从特征提取网络输出的特征中得到类别特征，并利用所有样本的类别特征进行相似性度量，通过相似性度量矩阵，挖掘同一身份行人的难正样本和不同身份行人的难负样本。令，，，为当前样本与其正样本之间的距离，为当前样本与其难正样本之间的距离，为当前样本与其难负样本之间的距离。接下来，将挖掘出的跨视角难样本进行拉近，实现跨视角下的行人身份匹配，定义如下：

其中，为阈值，代表随着网络的迭代优化，距离值不断增大，代表随着网络的迭代优化，距离值不断减小。

本发明的有益效果是：

1、本发明通过设计风格注入模块，为当前样本获得其它视角下的风格特征，通过丰富特征的多样性，提升特征的判别性，克服了已有方法对行人判别性特征提取的不准确性，解决了行人身份信息和相机风格信息混叠对性能的影响。

2、本发明充分挖掘单相机下的行人样本，挖掘对应样本的难样本，并通过约束来增强网络提取特征的能力，解决了跨相机缺少正样本的挑战。

3、实验结果表明，本发明提出的方法能有效识别跨相机同一身份的行人，比现有方法性能更好。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

附图说明

下面将结合附图和详细实施方式对本发明进行详细说明，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图；

图1为本发明的流程结构示意图；

图2为本发明的风格注入模块示意图；

图3为本发明的难样本挖掘模块示意图。

具体实施方式

实施例1：如图1-图3所示，基于风格注入与跨视角难样本挖掘的行人重识别方法，所述方法的具体步骤如下：

步骤1：获取用于行人重识别模型训练数据集；数据样本图像大小均为256×128大小，首先对采集的数据样本图像进行预处理，预处理的方法具体为：水平翻转、填充、随机裁剪和随机擦除。

步骤2：将数据样本输入特征提取网络中，对特征提取网络进行预训练，实现特征提取网络对行人特征提取的判别能力；将数据样本输入特征提取网络进行预训练，通过有监督的训练使得特征提取网络具备特征提取能力与分类能力，此过程实现如下：；；

所述步骤2中，具体操作如下：

步骤3：利用预训练后的特征提取网络对特征进行分组，实现单视角下样本的特征提取，得到单视角的特征，表示为；单视角下样本的特征提取具体操作如下：

进一步地，所述步骤4具体操作如下：

利用单视角的特征进行风格注入，定义为：

其中，为KL散度(Kullback-Leibler Divergence)。

步骤5：挖掘跨视角的难样本，并将挖掘出的跨视角难样本进行拉近，实现跨视角下的行人身份匹配。利用特征提取网络得到的特征进行跨相机的难样本挖掘，具体操作如下：

为验证本发明的有效性，本发明利用面向跨城区场景下行人重识别而设定的两个数据集Market-SCT和MSMT-SCT作为目标数据集。这两个数据集是由Market和MSMT17数据集根据跨城区场景的特点重新设置得到。在Market、CUHK03和MSMT17中，训练集中每个行人图像都存在跨视角相同身份的行人样本。而在Market-SCT和MSMT17-SCT中，训练集仅有单视角行人图像样本，跨相机视角不存在相同行人身份的样本。本发明将数据集Market、CUHK03 和MSMT17作为源域数据，Market-SCT，MSMT17-SCT作为目标域。本发明算法是在PyTorch框架下开发的，所有的实验都在1张NVIDIA RTX 3090 24GB GPUD平台上完成。在训练中，使用 SGD优化器来对模型进行参数优化。在此过程中，Batch size设置为16，使用动量为0.9，权重衰减率为，学习率为的SGD优化器来对编码器的参数进行更新。在此过程中，学习率为，模型共训练300轮。在前10个epoch中，学习率通过预热策略线性调整。

进一步地，在算法性能的客观评价上，由于测试数据样本并未改变，因此依然利用先前的评价指标 Cumulative Matching Characteristic (CMC)和Mean AveragePrecision (mAP)来对不同方法的实验性能进行客观评价。

进一步地，为验证本发明的有效性以及相对于已有方法优越性，将 Market-SCT作为目标数据集，MSMT17和CUHK03分别作为源域数据。在该实验中，对比方法主要涉及无监督学习（USL）的方法和无监督域自适应 (UDA)的方法。USL的方法主要包括MCNL, Precise-ICS, AGW, SimSiam, STS, ICE, CCFP, CCSFG和PPLR。 UDA方法主要包括MMT, SPCL,Meb-Net, CAC, IDM, Dual-Refine, P2LR, DRDL和LRIMV。

表1本发明方法与现有无监督的方法在Market-SCT的性能比较。

表2 本发明方法与现有无监督域自适应的方法在Market-SCT的性能比较。

对于USL的方法，CCSFG在Market-SCT获得了次优的性能，R1和mAP分别达到了84.8%和68.4%。相比之下，本发明方法在任务Market-SCT上，R1和mAP的精度分别达到了87.8%和69.6%。这表明本发明方法相对于上述的USL方法在远距离跨城区行人重识别上具有更优的识别性能。由于本发明方法隶属于域自适应的识别方法。相对于表中所列的域自适应识别方法，本发明方法同样表现出了更优异的性能。这主要是因为已有方法受到了目标数据成对训练样本缺失的影响，限制了其在Market-SCT性能表现。

进一步地，为进一步证明本发明方法的有效性，在第二组实验中将MSMT-SCT作为目标数据集，Market和CUHK03均作为源域来对模型进行训练。由于MSMT-SCT数据集相比于Market和CUHK03包含更多的样本，因此任务Market→MSMT-SCT和CUHK03→MSMT-SCT更具有挑战性。为验证本发明方法相对于USL方法的优势，本发明方法首先与基于USL的方法进行了实验对比。对比的方法包括MCNL, Precise-ICS, AGW, SimSiam, STS, ICE, CCFP,CCSFG和PPLR，不同方法的实验结果表3所示。由此可以看出，本发明方法优于最新的USL的方法。此外，与域自适应的方法MMT, SPCL, Meb-Net, CAC, IDM, Dual-Refine, P2LR,DRDL和LRIMV相比，本发明方法也表现出了较强的竞争力。如表4所示，本发明方法在任务Market→MSMT-SCT(CUHK03→MSMT-SCT)上分别使R1和mAP的精度达到了54.3%和30.3%（53.1%和28.3%），相对于次优的方法性能提升了16.7%和15.6%（21.5%和14.4%）。这表明本发明方法在小数据跨到大数据集的任务上更具优势。

表3 本发明方法与现有无监督的方法在MSMT-SCT的性能比较。

表 4 本发明方法与无监督域自适应方法在MSMT-SCT的性能比较。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于：所述方法的具体步骤如下：

步骤1：获取用于行人重识别模型的训练数据集；

2.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤1中数据样本图像大小均为256×128大小，首先对采集的数据样本图像进行预处理，预处理的方法具体为：水平翻转、填充、随机裁剪和随机擦除。

3.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤2中，具体操作如下：

给定输入图像，其中，/>分别表示高、宽、通道数；首先将图片分为N 个大小为16×16的局部块P，/>，/>表示N个局部特征；每个局部块的维度为768，此外，增加一个额外的随机初始化的分类头和风格头，将输出的分类头视为类别特征，风格头视为风格特征；接着，将局部块、分类头和风格头一起送入线性映射层，将图片映射为向量的形式，线性映射层的输出为，其中，/>表示位置嵌入,表示将每个局部块进行线性映射为D维向量，/>表示类别特征，/>表示风格特征；继而将/>送入特征提取网络进行特征提取和关系挖掘；特征提取网络的输出表示为:，/>表示共/>个transformer 层；接下来，首先对特征提取网络进行预训练，使用交叉熵损失和三元组损失来优化特征提取网络，使得特征提取网络具备一定的特征提取能力。

4.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤2中，将数据样本输入特征提取网络进行预训练，通过有监督的训练使得特征提取网络具备特征提取能力与分类能力，此过程实现如下：

；；

其中，为单个样本的交叉熵损失，/>、/>分别表示一个批次的多个样本的交叉熵损失和三元组损失，/>代表数据集中的第/>个样本，/>为特征提取网络，/>为行人分类器，/>为当前第/>个行人样本的身份标签，/>为数据集中行人身份类别总数；同时，/>和/> 分别为当前样本/>的难正样本和难负样本的特征，/>为阈值，通过上述公式的约束，/>和/>具备了一定的行人信息的特征提取能力。

5.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤3中，单视角下样本的特征提取具体操作如下：

将数据样本按照相机标签进行分组，分组后的特征表示为，即单视角的特征，并将单视角下的风格特征存储在风格特征存储器中。

6.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤4具体操作如下：

将步骤3中获得的单视角的特征与当前样本的特征/>一同送入风格注入模块，利用风格注入模块将当前样本的风格特征进行替换，替换为其它视角下的风格特征；经过风格注入模块之后，获得了当前身份在不同视角下的风格特征，将其继续送入后续的特征提取网络，并利用身份一致性约束实现判别性特征的挖掘。

7.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤4中，风格注入模块将不同视角下的风格特征注入到当前样本中，首先获得第层网络的输出，此过程实现如下：

；

其中，为第/>个样本的类别特征，/>为第/>个样本的风格特征，/>为网络第/>层的输出特征，/>表示N个局部特征；

利用单视角的特征进行风格注入，定义为：

；

8.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤4中，对风格注入后的特征进行分布对齐，风格注入后的特征用表示，具体操作如下；

；

其中，为KL散度。

9.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法，其特征在于，所述步骤5中，利用特征提取网络得到的特征进行跨相机的难样本挖掘，具体操作如下：

从特征提取网络输出的特征中得到类别特征，并利用所有样本的类别特征进行相似性度量，通过相似性度量矩阵，挖掘同一身份行人的难正样本/>和不同身份行人的难负样本/>。