CN116403171B

CN116403171B - 一种车辆重识别方法、***及电子设备

Info

Publication number: CN116403171B
Application number: CN202310670579.1A
Authority: CN
Inventors: 刘寒松; 王国强; 王永; 刘瑞; 谭连盛; 李贤超
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-09-01
Anticipated expiration: 2043-06-08
Also published as: CN116403171A

Abstract

本发明属于图像处理技术领域，涉及一种车辆重识别方法、***及电子设备，Transformer金字塔网络结构预训练模块用于提取对车辆图像的细微视觉线索敏感的特征，学习车辆的稳定特征表示；基于移位和混洗的图像块重组模块提取细粒度的车辆关键性局部辨别特征；基于辅助信息嵌入的信息编码模块通过可学习的辅助边缘信息嵌入，将非视觉信息结合到细粒度的车辆关键性辨别特征中以学习不变特征得到车辆图像特征；基于三元组损失的车辆重识别模块将输入的车辆图像特征与其他摄像机拍摄到的车辆图像特征计算相似度，进行排序和匹配，完成车辆重识别任务；降低计算资源需求，提高准确性和可靠性，便于网络快速迁移。

Description

一种车辆重识别方法、***及电子设备

技术领域

本发明属于图像处理技术领域，涉及一种车辆重识别方法、***及电子设备，特别是一种基于预训练Transformer金字塔网络快速迁移的车辆重识别方法、***及电子设备。

背景技术

随着现代社会车辆数量的不断增加，各种交通问题也随之出现，公共安全需求大幅度增加。虽然车牌识别是区分不同车辆最简单直接的方法，但是在很多情况下仅依靠车牌信息无法完成重识别任务。因此，采用智能化的车辆重识别技术，匹配城市管理场景中不同监控视角之下的车辆，是智能城市和智能交通应用驱动的一项主动任务，对公共安全和智慧交通而言意义重大。

在现代公共交通***中，用于交通控制和安全的高位摄像头，因为具有更广泛的视野和监控能力，发挥着重要作用。但是在实际应用过程中，车辆重识别技术面临很多挑战。首先，由于存在拍摄视角变化、车辆视点和拍摄时间等原因，同一车辆图像在不同状态下会存在差异；其次，不同的车辆可能有相似的颜色和形状等属性,尤其是来自同一个制造商的特定型号、装饰和年份的车辆，具有极大的相似性。这种同一车辆的差异性和不同车辆的相似性，提升了寻找目标车辆的难度，在很大程度上降低了车辆重识别的准确性和可靠性。

为应对这些问题，人们开始关注如何在较大的类内差异和较小的类间差异中学习车辆的多样性覆盖范围和关键性辨别信息，提高车辆重识别准确性和可靠性。近年来，随着深度学习的发展，深度学习技术被广泛应用于车辆再识别任务。尽管基于卷积神经网络(CNN) 的方法取得了巨大成功，但CNN一次只处理一个局部邻域，并且由于卷积和下采样运算符（例如池化和逐步卷积）而导致详细信息丢失；并且CNN 在处理边缘、形状和原始车辆特征时不考虑这些特征之间的相互关系；因此，当车辆图像被旋转或以不同的旋转方式捕获时，模型的性能往往不尽如人意。注意力机制的出现从本质上解决了卷积神经网络中的细节丢失问题，Transformer捕获长距离依赖性特征并驱动模型关注车辆的不同部位，在处理不同姿势、方向和被遮挡的车辆对象时表现优秀，很好地解决了CNN在车辆重识别上存在的问题。

综上所述，在高位摄像头车辆重识别应用背景下，如何更好地学习车辆的多样性覆盖范围和关键性辨别信息是一个值得关注的问题。因此，继续一种新型的车辆重识别方法，通过探索和发展不同的深度学习算法和预训练手段等方法，提高车辆重识别的准确性和可靠性，为城市公共安全和智慧交通提供更有效的技术手段。

发明内容

为了解决现有技术高位摄像头下车辆重识别中类内差异大，类间差异小的问题，本发明提出了一种基于预训练Transformer金字塔网络快速迁移的车辆重识别方法、***及电子设备，基于Transformer模型和金字塔网络，充分融合多层次、多尺度的像素信息，使用图像块而不是整个图像输入到模型中，并基于自注意力机制构建的Transformer金字塔网络去提取车辆图像的全局特征和局部特征，发掘车辆的多样性覆盖范围和关键性辨别信息，进行相似性度量，提高车辆重识别算法的准确性和可靠性，完成车辆重识别任务。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明一种车辆重识别方法，包括以下步骤：

S1、Transformer金字塔网络结构预训练：通过使用Transformer金字塔网络结构在ImageNet-1K数据集上进行预训练，其中每张训练图像被预处理为224×224的大小，并被分割成196个大小为16×16的图像特征块，通过优化像素级重建损失来保留细微的视觉线索，学习更稳定的特征表示；

S2、基于移位和混洗的图像块重组：将步骤S1得到的图像特征块进行打乱重组，每个组包含整个图像的多个随机图像块，用于提取细粒度的车辆关键性局部辨别特征；

S3、基于辅助信息嵌入的信息编码：通过可学习的辅助边缘信息嵌入，将非视觉信息结合到步骤S2得到的细粒度的车辆关键性辨别特征中以学习不变特征得到车辆图像特征，其中辅助边缘信息包括高位摄像机的辅助边缘信息和视点的辅助边缘信息；

S4、基于三元组损失的车辆重识别：将S3得到的车辆图像特征与其他摄像机拍摄到的车辆图像经过步骤S1-S3得到的车辆图像特征计算相似度，进行排序和匹配，完成车辆重识别任务。

作为本发明的进一步技术方案，步骤S1所述Transformer金字塔网络结构使用分层Transformer作为预训练的主干网络，将特征金字塔作为颈部模块，并为分层的每一个阶段添加一个重建头集合到预训练阶段，其中分层Transformer包含S个阶段，每个阶段都由几个堆叠的Transformer block组成，Transformer 编码器由两层子层组成，第一个子层是多头自注意力机制，第二个子层是全连接前馈网络，两个子层之间使用一个残差连接，然后进行归一化；Transformer解码器在Transformer编码器结构基础上，增加第三个子层，该子层对编码器堆栈的输出执行多头注意力。

作为本发明的进一步技术方案，步骤S1所述预训练过程采用数据集使用掩码特征建模来重建图像，其中N是样本的数量，主干网络、颈部模块和重建头分别用符号表示为/>，其中/>是可学习的参数，/>直接将/>作为输入，而/>和/>分别作用于/>和/>的输出，整个函数表示为，预训练阶段的目标表示为。

作为本发明的进一步技术方案，所述重建图像的过程为：

（1）分层Transformer中的Transformer 编码器对输入图像进行下采样并生成S1个特征图，表示为/>，其中 /> 表示直接的输入嵌入，每个特征图由一组特征块组成，表示为/>，其中/>是第S个特征图中的特征块数量；

（2）对输入的车辆图像应用随机掩码/>，表示为/>，分层Transformer输出的特征图/>上不包含索引为/>的图像块表示为/>，即颈部模块的特征金字塔结构表示为：

，

其中对/>进行上采样以适应 /> 的分辨率；

(3)使用移动平均编码器生成中间重建目标表示为。

作为本发明的进一步技术方案，所述掩码特征建模的过程为：先最小化重建损失，其中/>表示从/>中重构原始图像的Transformer块，在分层的每一个阶段添加一个重建头，表示为/>，并优化后续的多阶段损失，表示为/>，其中/>是第s个解码器阶段的期望输出，/>为超参数。

作为本发明的进一步技术方案，步骤S3的具体过程为:

（1）假设共有台高位摄像机，将可学习到的辅助边缘信息嵌入初始化为 /> ，若高位摄像机的ID为/>，则该高位摄像机的辅助边缘信息嵌入表示为/>；假设共有/>个车辆视点ID，将视点标签/>编码为/>，用于车辆图像的所有图像块，其中/> ；

（2）将高位摄像机的辅助边缘信息和视点的辅助边缘信息联合编码为；

（3）具有高位摄像机和视点/> />的序列表示为，将其嵌入到细粒度的车辆关键性局部辨别特征中得到车辆图像特征，其中/>是权衡基于辅助信息嵌入的信息编码模块的超参数。

作为本发明的进一步技术方案，步骤S4计算相似度时，通过计算重识别损失和三元组损失得到相似度，其中重识别损失定义为识别每辆车的信息，通过交叉熵进行计算，表示为，其中/>和/>分别表示第i个车辆图像的分类标记和标签；三元组损失表示为/>，其中/>是一个包含样本、正样本和负样本的三元组，则损失函数定义为/>。

第二方面，本发明提供一种车辆重识别***，包括：

Transformer金字塔网络结构预训练模块，用于提取对车辆图像的细微视觉线索敏感的特征，学习车辆的稳定特征表示；

基于移位和混洗的图像块重组模块，用于提取细粒度的车辆关键性局部辨别特征；

基于辅助信息嵌入的信息编码模块，通过可学习的辅助边缘信息嵌入，将非视觉信息结合到细粒度的车辆关键性辨别特征中以学习不变特征得到车辆图像特征；

基于三元组损失的车辆重识别模块，将输入的车辆图像特征与其他摄像机拍摄到的车辆图像特征计算相似度，进行排序和匹配，完成车辆重识别任务。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于预训练Transformer金字塔网络快速迁移的车辆重识别方法、***及电子设备，以解决由于拍摄视角变化、车辆视点和拍摄时间等原因导致车辆类内差异大，类间差异小的问题，从而提高车辆重识别的准确性和可靠性，其创新性主要体现在三个方面：金字塔多尺度信息提取模块，基于移位和混洗的图像块重组模块，基于辅助信息嵌入的信息编码模块，具体优点如下：

Transformer金字塔网络结构预训练模块，可以提取对车辆图像的细微视觉线索敏感的特征，学习车辆的稳定特征表示，有助于在车辆重识别任务中区分不同的车辆，更适合车辆重识别；

基于移位和混洗的图像块重组模块，充分利用并扩展 Transformer 的全局远程依赖关系，同时也有助于特征的鲁棒性。

（3）基于辅助信息嵌入的信息编码模块，通过可学习的辅助信息嵌入信息有效地结合非视觉线索，以减轻高位摄像机或车辆视点带来的数据偏差，有助于解决高位摄像机间和高位摄像机内匹配之间巨大的成对相似性差异。

（4）在预训练完成后，使用轻量级网络进行车辆重识别，这样可以降低计算资源需求，便于网络快速迁移，在各种硬件环境下部署。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本公开，并不构成对本发明的不当限定。

图1为本发明提供的车辆重识别方法流程示意图。

图2为本发明提供的车辆重识别***结构框图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本实施例提供一种车辆重识别方法，包括如下步骤：

S1、 Transformer金字塔网络结构预训练：

预训练阶段建立在数据集之上，其中N是样本的数量，使用分层Transformer作为预训练深度神经网络的主干网络，将特征金字塔作为颈部模块，并为分层的每一个阶段添加一个重建头集合到预训练阶段，构建整体预训练的Transformer金字塔网络结构，主干网络、颈部模块和重建头分别用符号表示为/>，其中是可学习的参数，/>直接将/>作为输入，而/>和/>分别作用于/>和/>的输出，整个函数表示为/>；

在预训练阶段，使用特征金字塔作为统一的颈部模块，并应用掩码特征建模来重建图像，预训练阶段的目标表示为：

，

重建图像的过程为：使用的分层Transformer主干网络包含S个阶段，每个阶段都由几个堆叠的Transformer block组成，Transformer 编码器（由两层子层组成，第一个子层是多头自注意力机制，第二个子层是全连接前馈网络，两个子层之间使用一个残差连接，然后进行归一化）逐渐对输入图像进行下采样并生成 S+1 个特征图，表示为，其中 /> 表示直接的输入嵌入，每个特征图由一组特征块组成，表示为/>，其中/>是第S个特征图中的特征块数量；

对输入的车辆图像应用随机掩码/>，表示为/>，因此，分层Transformer主干网络输出的特征图/>上不包含索引为/>的图像块，表示为/>，即作为颈部模块的特征金字塔结构表示为：

，

其中对/>进行上采样以适应 /> 的分辨率；

使用移动平均编码器生成中间重建目标，表示为,

在使用解码器（与Transformer编码器结构相似，但多出了第三个子层，该子层对编码器堆栈的输出执行多头注意力，解码器同样引入了残差连接块，修改了解码器堆栈中的自注意力子层）进行重构前，通过将伪标记添加到掩码索引进行补充，然后输入到解码器中进行图像重建；

掩码特征建模过程为：首先最小化重建损失，其中表示从/>中重构原始图像的Transformer块，为更好地获取多阶段特征，在每一个阶段添加一个重建头，表示为/>，并优化后续的多阶段损失，表示为:，其中/>是第s个解码器阶段的期望输出,/>为超参数；

轻量级解码器将在预训练后被移除，只有编码器将在微调阶段用作骨干网络，这种预训练方法可以提取对车辆图像的细微视觉线索敏感的特征，有助于在车辆重识别任务中区分不同的车辆；

S2、基于移位和混洗的图像块重组：

假设Transformer金字塔网络结构预训练模块的输出特征表示为=，首先使用移位将/>中除分类块外的前m个patch移至末尾变成/>，再通过图像块混洗操作将移位后的序列分为k组，然后将 k 个特征组馈送到共享的Transformer 编码器以学习 k 个局部特征得到细粒度的车辆关键性局部辨别特征；

S3、基于辅助信息嵌入的信息编码：

假设共有台高位摄像机，将可学习到的辅助边缘信息嵌入初始化为 /> ，若高位摄像机的ID为/>，则该高位摄像机的辅助边缘信息嵌入表示为 />；假设共有/>个车辆视点ID，将视点标签/>编码为 />，用于车辆图像的所有图像块，其中/> ；

然后将高位摄像机的辅助边缘信息和视点的辅助边缘信息联合编码为，整合两种不同类型的信息；

最后具有相机和视点/> />的序列表示为 />，将其嵌入到细粒度的车辆关键性局部辨别特征中得到车辆图像特征，其中/>是权衡基于辅助信息嵌入的信息编码模块的超参数，并且 /> 对于每个补丁相同但对于不同车辆图像可能具有不同值；

S4、基于三元组损失的车辆重识别：

将S3得到的车辆图像特征与其他摄像机拍摄到的车辆图像经过步骤S1-S3得到的车辆图像特征计算相似度，进行排序和匹配，完成车辆重识别任务，其中计算相似度时，将Transformer编码器输出的分类头输入到分类器，进行归一化后，计算重识别损失和三元组损失，重识别损失定义为识别每辆车的信息，通过交叉熵进行计算，表示为，其中/>和/>分别表示第i个车辆图像的分类标记和标签；三元组损失旨在缩短正样本（来自同一车辆的两张图像）之间的距离，扩大负样本（来自不同车辆的两张图像）之间的距离，表示为/>，其中是一个包含样本、正样本和负样本的三元组；损失函数定义为/>。

表1是本实施例方法的一个仿真实验，该实验采用Rank-1识别率（R-1）、Rank-5识别率（R-5）和平均精度(mAP) 用作性能指标进行度量，本任务所使用的数据集中共包含776 辆不同车辆的 49357 张图像，这些图像是在 20 个具有不同方向和光照条件的非重叠高位摄像机中拍摄的，由表1可以看出，本实施例所述车辆重识别方法极大地提高车辆重识别的准确率。

表1：本实施例与其他算法准确度比较

。

实施例2：

如图2所示，本实施例提供一种车辆重识别***，包括：

基于移位和混洗的图像块重组模块，用于提取细粒度的车辆关键性辨别特征；

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种车辆重识别方法，其特征在于，包括以下步骤：

所述Transformer金字塔网络结构使用分层Transformer作为预训练的主干网络，将特征金字塔作为颈部模块，并为分层的每一个阶段添加一个重建头集合到预训练阶段；

所述预训练过程采用数据集使用掩码特征建模来重建图像，其中N是样本的数量，主干网络、颈部模块和重建头分别用符号表示为/>，其中是可学习的参数，/>直接将/>作为输入，而/>和/>分别作用于/>和/>的输出，整个函数表示为/>，预训练阶段的目标表示为；

所述重建图像的过程为：

，

其中对/>进行上采样以适应 /> 的分辨率；

(3)使用移动平均编码器生成中间重建目标表示为；

所述掩码特征建模的过程为：先最小化重建损失，其中表示从/>中重构原始图像的Transformer块，在分层的每一个阶段添加一个重建头，表示为/>，并优化后续的多阶段损失，表示为，其中/>是第s个解码器阶段的期望输出，/>为超参数；

S2、基于移位和混洗的图像块重组：将步骤S1得到的图像特征块进行打乱重组，每个组包含整个图像的多个随机图像块，用于提取细粒度的车辆关键性局部辨别特征；具体为：假设Transformer金字塔网络结构预训练模块的输出特征表示为= />，首先使用移位将/>中除分类块外的前m个patch移至末尾变成，再通过图像块混洗操作将移位后的序列分为k组，然后将 k 个特征组馈送到共享的Transformer 编码器以学习 k 个局部特征得到细粒度的车辆关键性局部辨别特征；

2.根据权利要求1所述车辆重识别方法，其特征在于，步骤S1所述分层Transformer包含S个阶段，每个阶段都由多个堆叠的Transformer block组成，Transformer 编码器由两层子层组成，第一个子层是多头自注意力机制，第二个子层是全连接前馈网络，两个子层之间使用一个残差连接，然后进行归一化；Transformer解码器在Transformer编码器结构基础上，增加第三个子层，该子层对编码器堆栈的输出执行多头注意力。

3.根据权利要求2所述车辆重识别方法，其特征在于，步骤S3的具体过程为:

（1）假设共有台高位摄像机，将可学习到的辅助边缘信息嵌入初始化为 /> ，若高位摄像机的ID为/>，则该高位摄像机的辅助边缘信息嵌入表示为 />；假设共有/>个车辆视点ID，将视点标签/>编码为/>，用于车辆图像的所有图像块，其中/> ；

（3）具有高位摄像机和视点/> 的序列表示为 />，将其嵌入到细粒度的车辆关键性局部辨别特征中得到车辆图像特征，其中/>是权衡基于辅助信息嵌入的信息编码的超参数。

4.根据权利要求3所述车辆重识别方法，其特征在于，步骤S4计算相似度时，通过计算重识别损失和三元组损失得到相似度，其中重识别损失定义为识别每辆车的信息，通过交叉熵进行计算，表示为，其中/>和/>分别表示第i个车辆图像的分类标记和标签；三元组损失表示为/>，其中/>是一个包含样本、正样本和负样本的三元组，则损失函数定义为。

5.一种车辆重识别***，其特征在于，能完成如权利要求1-4任一项所述的方法，包括：

6.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成如权利要求1-4任一项所述的方法。