CN117635973B

CN117635973B - 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Info

Publication number: CN117635973B
Application number: CN202311661718.0A
Authority: CN
Inventors: 张国庆; 周洁琼
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-05-10
Anticipated expiration: 2043-12-06
Also published as: CN117635973A

Abstract

本发明公开了一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，包括以下步骤:(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作；(2)构建输入到Transformer模型的序列；(3)构建基于标准Transformer架构的行人特征提取网络；(4)利用多层动态聚焦模块，对得到的Transformer各层特征进行动态权重调整与融合处理；(5)通过局部金字塔聚合模块选择性地提取并融合Transformer网络中的特定层特征，以获取多尺度特征信息；(6)根据步骤(4)‑(5)所得的特征输出应用于损失函数，以验证查询图像与测试图像是否为同一类别，从而完成模型的训练和优化；本发明在复杂场景下，尤其是面对换衣行人重识别任务时，能够显著提升算法的识别精度和鲁棒性。

Description

一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

技术领域

本发明涉及计算机视觉图像识别技术领域，具体涉及一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。

背景技术

行人重识别(Person Re-identification,ReID)是计算机视觉领域和公共安全领域研究的一个关键议题，旨在实现个体在不同监控摄像头下的身份确认与追踪。现有的ReID算法主要聚焦在短期内有效的识别策略，但这些策略往往没有充分地考量到行人服装变更的动态性，限制了它们在长时间跨度中的应用效果。在实际应用中，尤其是法律执法和刑事侦查场景，重点关注人员可能通过改变服饰来逃避识别，这对ReID***提出了更高的要求。因此，研究和开发具有鲁棒性的长期ReID技术(即CC-ReID)是解决服装变更引起的识别问题的必要路径。

当前针对CC-ReID的研究主要分为两类方法：第一类是引入辅助模块(例如，生成人体轮廓草图、提取姿态关键点、步态分析等)来识别与服装无关的生物特征。例如，Yang[1]等人的研究通过构建基于人体轮廓的网络模型来克服服装变化的影响。尽管如此，这种方法容易受到外界环境(例如照明和遮挡)的影响，并可能忽视如面部特征和步态模式等其他重要生物标志。第二类方法则是专注于分离身份特征与服装特征。举例来说，Xu等人提出的对抗性特征解缠网络(AFD-Net)利用类内重建和类间对抗机制来区分身份相关与无关(如服装)特征。然而，这种方法可能面临计算成本高、模型稳定性和数据依赖性问题的挑战。

在近几年的发展中，基于Transformer架构的模型得益于其先进的多头注意力机制，在综合分析图像多个关键特征以实现身份识别的任务上取得了突破性成就。多头注意力机制通过并行处理，能够有效地集中于图像不同区域的关键特征，增强了模型对于各视角变换和行人服装更迭的适应性和鉴别能力。尽管如此，现有方法主要是利用Transformer顶层的高级信息来提取判别特征，而未能充分利用网络较低层的细节信息，这可能限制了模型对于复杂场景下细粒度特征的捕获能力。为了解决这个问题，我们提出一种创新的自适应感知注意力机制与金字塔级特征融合网络。该网络设计旨在实现多尺度信息的高效整合，以增强换衣行人重识别算法在复杂场景下的识别精度和鲁棒性。

发明内容

发明目的：本发明的目的是提供一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。

技术方案：本发明所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，包括以下步骤：

(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作；

(2)将经预处理的图像分割为N个尺寸一致、互不重叠的区块，引入附加的可学习嵌入[CLS_TOKEN]作为序列输入的全局特征，同时对每个区块赋予位置编码[POS_TOKEN]，构成输入到Transformer模型的序列；

(3)构建基于标准Transformer架构的行人特征提取网络，输入步骤(2)生成的序列，提取行人特征并记录下各Transformer层的特征；

(4)利用多层动态聚焦模块，对步骤(3)中得到的Transformer各层特征进行动态权重调整与融合处理；

(5)通过局部金字塔聚合模块选择性地提取并融合Transformer网络中的特定层特征，以获取多尺度特征信息，并采用快速傅立叶变换嵌入至自注意力机制中；

(6)根据步骤(4)-(5)所得的特征输出应用于损失函数，以验证查询图像与测试图像是否为同一类别，从而完成模型的训练和优化。

进一步的的，所述步骤(1)对图像数据集添加风雨场景包括以下步骤：

(11)通过公式N～Uniform(0,255),N∈Rw*h在图像的宽度w和高度h范围内，生成一个服从均匀分布的噪声矩阵N，模拟雨点在不同位置的随机散布效果；

(12)通过公式N‘＝N*K对噪声矩阵施加模糊处理，生成无特定方向的雨滴效果；

其中，K代表预定义的模糊核，(*)表示二维卷积操作；

(13)构造对角矩阵D表示雨滴的直线下落路径；通过旋转对角矩阵D模拟雨滴的倾斜，再应用高斯模糊处理再现雨滴在空中下落的速度和方向，最终得到了模拟雨滴的模糊核M；

(14)通过公式：将模拟的风雨效果与原始图像融合；

其中，C表示图像通道，β为混合权重，N″为模糊核后的噪声矩阵。

进一步的，所述步骤(1)标准化预处理及数据增强操作包括：水平翻转、随机裁剪、随机擦除。

进一步的，所述步骤(2)具体如下：

设图像x属于R^W*H*C，其中，H，W和C分别表示其高度、宽度和通道数；

首先，将图像分割成N个不重叠的块，表示为其次，引入额外的可学习嵌入x_cls，作为输入序列开始时聚合的特征表示；然后，在每个图像区块的特征向量后附加位置编码P；最后，传输给Transformer层的输入序列公式化为：

Z₀＝[x_cls；F(x¹)；F(x²)；...；F(x^N)]+P

其中，Z₀代表输入序列的嵌入；P∈R^(N+1)*D表示位置嵌入；F为线性投影函数，将图像映射到D维空间。

进一步的，所述步骤(3)具体如下：

输入序列Z₀输入到Transformer网络中进行处理，每一层通过多头自注意力机制对特征进行提炼和上下文信息整合，第l层的输出Z^l可以通过以下方式计算：

Z^l＝Transformerlayer(Z^l-1),l＝1,2,...,L

其中，TransformerLayer代表标准Transformer中的层，L代表层数总和；

则每一层Transformer的输出{Z¹,Z²,...,Z^L}。

进一步的，所述步骤(4)包括以下步骤：

(41)构建权重向量W＝{w₁,w₂,...,w_L}，其中，w_i为对应模型层次结构中第i层所提取的特征的重要性；利用正交性约束加权对每一层进行权重计算；具体的加权计算公式如下所示：

其中，f_i表示第i层的特征重要性，在所有层上初始化为统一值；β和γ是可学习的参数；<F_i,F_j>表示第i层和第j层的特征集之间的内积作为它们特征相关性的度量；α是一个正则化系数；L是总层数。

(42)引入L2正则化项计算融合后的特征，公式如下：

其中，λ是一个非负正则化参数，用于通过限制模型内权重的大小来减轻过度拟合；是权重矩阵W的Frobenius范数，计算所有层权重的平方和。

进一步的，所述步骤(5)具体如下：

在局部金字塔聚合模块中，选取四个不同Transformer层的输出特征f₁,f₂,f₃,f₄作为输入，分别进行卷积块操作：

首先，使用1×1卷积层；其次，使用BacthNorm2D和ReLU函数调整特征维度并引入非线性；然后，添加快速傅立叶变换的自注意力机制，使用序列中所有元素的全局信息优化特征；最后，将所有特征连接起来，并输入到相同卷积块中得到融合后的特征。公式如下：

其中表示整个卷积块操作，f_t表示由f_m和f_m+1融合后得到的特征。如图2所示，通过局部金字塔聚合模块最终获得三个输出。

进一步的，所述步骤(6)损失函数包括：ID损失和三元组损失；ID损失采用传统的交叉熵损失函数，不包括标签平滑；公式如下：

其中，C是类别数，y_i是真实标签的one-hot编码，p_i是模型预测样本属于第i个类别的概率。

三元组损失公式如下：

其中，d(ap)和d(an)分别表示锚样本与正样本/>和负样本/>之间的距离；超参数m作为正负样本对之间距离的下限，M为上限；

其中，函数f(·)表示将输入图像映射到嵌入空间的特征提取算子；表示L2范数，用于计算两个特征向量之间的欧氏距离；[·]₊是铰链损失函数，仅当括号中的值为正数时才计算损失，否则损失为0；

总损失函数公式L如下：

其中，N表示整个训练架构产生的输出量，最初每个输出的损失被设置为相等的权重，表示为w_i(i＝0,1,2,3)；然后在训练过程中通过反向传播算法动态调整各部分的权重。

判断是否达到最大迭代次数，若则输出最终的模型精度，若未达到，则重复步骤(2)-(5)。

进一步的，还包括以下步骤：(0)构建监控网络，获取行人视频数据；采用目标检测算法检测行人，再采用目标跟踪算法获得行人检测框；裁剪为258*128像素规格的行人视频序列，组成图库集gallery。

本发明所述的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现任一项所述的种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。

有益效果：与现有技术相比，本发明具有如下显著优点：通过结合网络低层的细节信息，能更有效地捕获和处理复杂场景中的细粒度特征；金字塔级特征融合网络能够整合不同层级的信息，从而提供更全面的数据分析和处理；在复杂场景下，尤其是面对换衣行人重识别任务时，本方法能够显著提升算法的识别精度和鲁棒性；更加全面地利用了Transformer网络的各个层级，克服了其在处理复杂场景时的局限性。

附图说明

图1为本发明的流程图；

图2为本发明提出的基于多层动态集中和局部金字塔聚合框架的网络结构图；

图3为本发明基于多层动态集中和局部金字塔聚合框架内的局部金字塔聚合模块的卷积块结构图：

图4为本发明基于图神经网络的动态小股行人再识别框架中结合快速傅立叶变换的自注意力的示意图；

图5为本发明添加了风雨场景的行人图像示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1-5所示，本发明实施例提供一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，包括以下步骤：

(0)构建监控网络，获取行人视频数据；采用目标检测算法检测行人，再采用目标跟踪算法获得行人检测框；裁剪为258*128像素规格的行人视频序列，组成图库集gallery；

(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作；对图像数据集添加风雨场景包括以下步骤：

(11)通过公式N～Uniform(0,255),N∈R^w*^h在图像的宽度w和高度h范围内，生成一个服从均匀分布的噪声矩阵N，模拟雨点在不同位置的随机散布效果；

其中，K代表预定义的模糊核，(*)表示二维卷积操作；

(14)通过公式：将模拟的风雨效果与原始图像融合；

其中，C表示图像通道，β为混合权重，N″为模糊核后的噪声矩阵；

标准化预处理及数据增强操作包括：水平翻转、随机裁剪、随机擦除。

(2)将经预处理的图像分割为N个尺寸一致、互不重叠的区块，引入附加的可学习嵌入[CLS_TOKEN]作为序列输入的全局特征，同时对每个区块赋予位置编码[POS_TOKEN]，构成输入到Transformer模型的序列；具体如下：

Z₀＝[x_cls；F(x¹)；F(x²)；...；F(x^N)]+P

(3)构建基于标准Transformer架构的行人特征提取网络，输入步骤(2)生成的序列，提取行人特征并记录下各Transformer层的特征；具体如下：

Z^l＝Transformerlayer(Z^l-1),l＝1,2,...,L

则每一层Transformer的输出{Z¹,Z²,...,Z^L}。

(4)利用多层动态聚焦模块，对步骤(3)中得到的Transformer各层特征进行动态权重调整与融合处理；包括以下步骤：

(42)引入L2正则化项计算融合后的特征，公式如下：

(5)通过局部金字塔聚合模块选择性地提取并融合Transformer网络中的特定层特征，以获取多尺度特征信息，并采用快速傅立叶变换嵌入至自注意力机制中；具体如下：

其中，快速傅立叶变换的自注意力机制具体过程如下：

首先，自注意力模块接收输入X∈R^B*N*C，其中B是batch size，N是序列长度，C是特征维度。其次，通过三个线性层，输入X转换为查询Q、键K和值V：Q＝XW^Q,K＝XW^K,V＝XW^V。其中，W^Q，W^K和W^V都是是可学习的权重矩阵；然后，查询、键和值被分成多个头；当输入大小为2的整数幂时，快速傅立叶变换(FFT)算法表现出最佳效率。最后，对Q和K应用适当的填充，将FFT应用于填充的Q_padded和K_padded，并估计它们在频域中的相关性。输出公式如下：

Attn＝Softmax(F^-1(F(Q_padded)⊙F(K_padded))[:,:,:,:Q.size(1)])

其中，F(·)和F^-1(·)分别表示FFT和逆FFT。先计算FFT结果的点积，对点积结果进行逆FFT(IFFT)，截取为原始大小。然后使用softmax函数对上一步得到的点积结果进行归一化，得到注意力权重Attn。然后，通过点积运算，对注意力得分和对应的值向量进行加权聚合，并将结果与输入X相加，得到特征增强的自注意力输出：

Out＝Attn⊙V+X

(6)根据步骤(4)-(5)所得的特征输出应用于损失函数，以验证查询图像与测试图像是否为同一类别，从而完成模型的训练和优化。损失函数包括：ID损失和三元组损失；ID损失采用传统的交叉熵损失函数，不包括标签平滑；公式如下：

三元组损失公式如下：

总损失函数公式L如下：

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现任一项所述的种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。

Claims

1.一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，包括以下步骤：

(2)将经预处理的图像分割为Q个尺寸一致、互不重叠的区块，引入附加的可学习嵌入[CLS_TOKEN]作为序列输入的全局特征，同时对每个区块赋予位置编码[POS_TOKEN]，构成输入到行人特征提取网络的序列Z₀；

(3)构建基于标准Transformer架构的行人特征提取网络，输入步骤(2)生成的序列，提取行人特征并记录下各Transformer层的输出特征Z_l,l＝1,2,...,L；L为所述行人特征提取网络所包括的Transformer层的层数；

(4)利用多层动态聚焦模块，对步骤(3)中得到的各Transformer层的输出特征进行动态权重调整与融合处理；

所述步骤(4)包括以下步骤：

(41)构建权重向量W＝{w₁,w₂,...,w_L}，其中，w_i为行人特征提取网络中第i层Transformer层所输出的特征的权重；利用正交性约束加权对每一层Transformer层进行权重计算；具体的加权计算公式如下所示：

其中，g_i表示第i层的特征重要性，在所有层上初始化为统一值；β和γ是可学习的参数；<Zⁱ,Z^j>表示第i层Transformer层和第j层Transformer层的输出特征之间的内积，是它们输出特征相关性的度量；α是一个正则化系数；

(42)引入L2正则化项计算融合后的特征，公式如下：

其中，λ是一个非负正则化参数，用于通过限制模型内权重的大小来减轻过度拟合；是权重向量W的Frobenius范数，计算所有Transformer层权重的平方和；

(5)通过局部金字塔聚合模块选择性地提取并融合行人特征提取网络中的特定Transformer层的输出特征，以获取多尺度特征信息，并采用快速傅立叶变换嵌入至自注意力机制中；

所述步骤(5)具体如下：

在局部金字塔聚合模块中，选取四个不同Transformer层的输出特征f₁,f₂,f₃,f₄作为输入，进行三层金字塔特征聚合操作，每个特征聚合操作包括将两个输入分别进行卷积块计算后得到的自注意力输出连接起来，并输入到相同卷积块中得到融合后的特征；通过局部金字塔聚合模块最终获得三个输出；

所述卷积块计算具体为：首先，使用1×1卷积层；其次，使用BacthNorm2D和ReLU函数调整特征维度并引入非线性；然后，添加快速傅立叶变换的自注意力机制，得到特征增强的自注意力输出；

2.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，所述步骤(1)对图像数据集添加风雨场景包括以下步骤：

(11)通过公式N～Uniform(0,255),N∈R^W*H在图像的宽度W和高度H范围内，生成一个服从均匀分布的噪声矩阵N，模拟雨点在不同位置的随机散布效果；

(12)通过公式N′＝N*K对噪声矩阵施加模糊处理，生成无特定方向的雨滴效果；其中，K代表预定义的模糊核，*表示二维卷积操作；

(14)通过公式：将模拟的风雨效果与原始图像融合；

其中，I_C表示原始图像，β为混合权重，N″为模糊核后的噪声矩阵。

3.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，所述步骤(1)标准化预处理及数据增强操作包括：水平翻转、随机裁剪、随机擦除。

4.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，所述步骤(2)具体如下：

首先，将图像分割成Q个不重叠的块，表示为{xⁱ|i＝1,2,…,Q}；其次，引入额外的可学习嵌入x_cls，作为输入序列开始时聚合的特征表示；然后，在每个图像区块的特征向量后附加位置编码P；最后，传输给Transformer层的输入序列公式化为：

Z₀＝[x_cls；F(x¹)；F(x²)；...；F(x^Q)]+P

其中，Z₀代表输入序列；P∈R^(Q+1)*D表示位置嵌入；F为线性投影函数，将图像映射到D维空间。

5.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，所述步骤(3)具体如下：

输入序列Z₀输入到行人特征提取网络中进行处理，每一层通过多头自注意力机制对特征进行提炼和上下文信息整合，第l层的输出特征Z^l可以通过以下方式计算：

Z^l＝Transformerlayer(Z^l-1),l＝1,2,...,L

其中，TransformerLayer代表标准Transformer架构中的层；

每一层Transformer层的输出特征构成{Z¹,Z²,...,Z^L}。

6.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，所述步骤(6)损失函数包括：ID损失和三元组损失；ID损失采用传统的交叉熵损失函数，不包括标签平滑；公式如下：

其中，B是类别数，y_i是真实标签的one-hot编码，p_i是模型预测样本属于第i个类别的概率；

三元组损失公式如下：

其中，d(ap)和d(an)分别表示锚样本与正样本/>和负样本/>之间的距离；超参数m作为正负样本对之间距离的下限：

总损失函数公式L如下：

其中，最初每个输出的损失被设置为相等的权重，表示为u_i，其中，i＝0,1,2,3；然后在训练过程中通过反向传播算法动态调整各部分的权重；

判断是否达到最大迭代次数，若达到则输出最终的模型精度，若未达到，则重复步骤(2)-(5)。

7.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法，其特征在于，还包括以下步骤：(0)构建监控网络，获取行人视频数据；采用目标检测算法检测行人，再采用目标跟踪算法获得行人检测框；裁剪为258*128像素规格的行人视频序列，组成图像数据集。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。