CN116311106B

CN116311106B - 一种遮挡图像识别模型的训练方法、装置、设备及介质

Info

Publication number: CN116311106B
Application number: CN202310586717.8A
Authority: CN
Inventors: 吕强; 王雪雁; 吕建春; 周平; 江斌; 杨涛; 胡美玲
Original assignee: Zenmorn Hefei Technology Co ltd
Current assignee: Zenmorn Hefei Technology Co ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-22
Anticipated expiration: 2043-05-24
Also published as: CN116311106A

Abstract

本发明提供了一种遮挡图像识别模型的训练方法、装置、设备及介质，所述遮挡图像识别模型的训练方法包括：获取待识别车辆的图像并进行预处理，获取预处理图像；获取初始遮挡图像识别模型，并在所述初始遮挡图像识别模型的编码器中设置掩码感知模块和多头注意力约束模块，在解码器中设置多个局部原型，且在所述初始遮挡图像识别模型中设置瞬时方向提取模块和损失函数模块，建立中间遮挡图像识别模型；以及将所述预处理图像作为所述中间遮挡图像识别模型的输入变量，对所述中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型。通过本发明公开的一种遮挡图像识别模型的训练方法，提高了遮挡图像识别模型的鲁棒性和精确性。

Description

一种遮挡图像识别模型的训练方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种遮挡图像识别模型的训练方法、装置、设备及介质。

背景技术

随着计算机视觉技术的不断发展，通过道路交通监控***抓拍各道路站点的车辆图像，并对车辆类型进行识别已经成为智能交通***的重要组成部分。但是在现实生活中，抓拍的车辆可能会被行人和其他车辆等障碍物遮挡，被遮挡的车辆图像降低了车辆识别的准确率。现有的遮挡图像识别模型对被遮挡车辆的识别精度低，而且对于不同遮挡位置的车辆图像，不能精确的进行车辆识别，降低了模型的鲁棒性。

发明内容

本发明的目的在于提供一种遮挡图像识别模型的训练方法、装置、设备及介质，通过本发明的一种遮挡图像识别模型的训练方法，有效解决了现有的遮挡图像识别模型对被遮挡车辆的识别精度低，而且对于不同遮挡位置的车辆图像，不能精确的进行车辆识别，降低了模型的鲁棒性的问题，且本方法提高了遮挡图像识别模型的准确性和鲁棒性。

为解决上述技术问题，本发明是通过以下技术方案实现的：

如上所述，本发明提供了一种遮挡图像识别模型的训练方法，包括以下步骤：

获取待识别车辆的图像，并对所述待识别车辆的图像进行预处理，获取预处理图像；

获取初始遮挡图像识别模型，并在所述初始遮挡图像识别模型的编码器中设置动态的掩码感知模块和多头注意力约束模块，建立编码神经网络；

在所述初始遮挡图像识别模型的解码器中设置多个局部原型，建立解码神经网络；

在所述初始遮挡图像识别模型中设置瞬时方向提取模块和损失函数模块，并将所述编码神经网络的输出端以及所述瞬时方向提取模块的输出端与所述解码神经网络的输入端连接，建立中间遮挡图像识别模型；以及

将所述预处理图像作为所述中间遮挡图像识别模型的输入变量，对所述中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型。

在本发明一实施例中，对所述待识别车辆的图像进行预处理，获取所述预处理图像的步骤包括：

对所述待识别车辆的图像进行像素大小调整，获取像素统一的车辆图像；

对所述像素统一的车辆图像进行数据增强，获取数据增强后的车辆图像；以及

对所述数据增强后的车辆图像进行分割，获取所述预处理图像。

在本发明一实施例中，对所述数据增强后的车辆图像进行分割，获取所述预处理图像的步骤包括：

对所述数据增强后的车辆图像进行分割，获取车辆图像块的向量序列；

对所述车辆图像块的向量序列进行线性变换，获取所述车辆图像块的线性向量序列；

获取所述车辆图像块的位置信息和摄像头信息；以及

将所述车辆图像块的位置信息和所述摄像头信息嵌入所述线性向量序列中，获取所述预处理图像。

在本发明一实施例中，建立所述编码神经网络的步骤包括：

根据所述多头注意力约束模块，获取每个头部的注意力模块的注意力权重矩阵，其中，所述注意力权重矩阵满足以下公式：

；

其中，是欧几里得范数，/>是单位矩阵，/>是一个对多头注意力矩阵进行标准化的矩阵。

在本发明一实施例中，建立所述解码神经网络的步骤包括：

对所述待识别车辆的图像进行平均池化处理，获取池化后的车辆图像，其中，获取所述池化后的车辆图像满足以下公式：

；

其中，是池化后的车辆图像，/>是平均池化处理，/>为所述待识别车辆的图像；

对所述池化后的车辆图像进行卷积操作，获取多个子特征图，其中，获取所述子特征图满足以下公式：

；

其中，为深度卷积函数，/>为子特征图；以及

将多个所述子特征图展开并进行连接，获取车辆图像的特征图，并将所述车辆图像的特征图合并到所述局部原型上，其中，获取所述特征图满足以下公式：

；

其中，为连接函数，/>为归一化函数。

在本发明一实施例中，对所述中间遮挡图像识别模型进行训练和优化的步骤包括：

对所述预处理图像进行展平处理，获取展平后的车辆图像；

获取所述掩码感知模块的二进制门；以及

将所述展平后的车辆图像和所述二进制门进行卷积处理，获取所述车辆图像的特征向量。

在本发明一实施例中，获取所述车辆图像的特征向量之后的步骤包括：

对所述车辆图像的特征向量进行全局平均池化处理，获取原型掩码；

对所述原型掩码进行归一化处理，获取归一化的原型掩码，其中，获取所述归一化的原型掩码满足以下公式：

；

其中，为所述车辆图像的特征向量，/>表示平均池化处理，/>表示为Sigmoid函数；以及

根据所述归一化的原型掩码，对所述预处理图像的向量序列进行掩码处理，获取所述掩码感知模块的输出结果。

本发明还提供一种遮挡图像识别模型的训练装置，所述装置包括：

图像预处理模块，用于获取待识别车辆的图像，并对所述待识别车辆的图像进行预处理，获取预处理图像；

编码神经网络建立模块，用于获取初始遮挡图像识别模型，并在所述初始遮挡图像识别模型的编码器中设置动态的掩码感知模块和多头注意力约束模块，建立编码神经网络；

解码神经网络建立模块，用于在所述初始遮挡图像识别模型的解码器中设置多个局部原型，以建立解码神经网络；

中间遮挡图像识别模型建立模块，用于在所述初始遮挡图像识别模型中设置瞬时方向提取模块和损失函数模块，并将所述编码神经网络的输出端以及所述瞬时方向提取模块的输出端与所述解码神经网络的输入端连接，建立中间遮挡图像识别模型；以及

模型训练模块，用于将所述预处理图像作为所述中间遮挡图像识别模型的输入变量，对所述中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型。

一种电子设备，所述电子设备包括：

至少一个处理器；

存储装置，用于存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述电子设备实现上述任一项所述的遮挡图像识别模型的训练方法。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机的处理器执行时，使计算机执行上述任一项所述的遮挡图像识别模型的训练方法。

如上所述本发明提供的一种遮挡图像识别模型的训练方法、装置、设备及介质，通过使用注意力网络模型对输入的车辆图像进行更好的特征提取，有效的提高了被遮挡的车辆重识别的准确率。在注意力网络模型中设置掩码感知模块，对遮挡的车辆图像中进行掩码处理和语义分割，使得解码器可以专注于图像的目标信息，提高了对图像的特征提取，提高车辆重识别的准确性和效率。利用多头注意力约束模块对图像的特征向量进行聚类，并利用瞬时方向模块获取车辆图像的上下文信息，提高了注意力网络模型的泛化能力、鲁棒性和可靠性。而且通过设置损失函数模块对注意力网络模型进行优化和在解码器中设置多个局部原型，提高了遮挡图像识别模型的预测输出结果的准确性，从而提高了对被遮挡车辆进行识别的准确率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中提供的遮挡图像识别模型的训练方法的应用环境图。

图2为本发明一实施例中提供的遮挡图像识别模型的训练方法的流程图。

图3为本发明一实施例中提供的中间遮挡图像识别模型的结构图。

图4为本发明一实施例中提供的一种应用编码神经网络对车辆图像进行处理的方法的流程图。

图5为本发明一实施例中提供的遮挡图像识别模型的训练装置的结构图。

图6为本发明一实施例中提供的掩码感知模块的处理过程示意图。

图7为本发明一实施例中提供的多头注意力模块的结构图。

图8为本发明一实施例中提供的池化注意力模块的结构图。

图9示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

图中：10、摄像机；20、遮挡图像识别模型的训练装置；30、图像块；31、展开后的车辆图像；32、卷积层；33、全局平均池化模块；34、原型掩码；35、整体原型；36、掩码后的整体原型；40、第一线性变换模块；41、注意力权重计算模块；411、多头注意力约束模块；42、权重拼接模块；43、第二线性变换模块；100、编码神经网络；110、编码处理层；111、掩码感知模块；112、多头注意力模块； 113、前馈全连接层；200、解码神经网络；210、解码神经网络；220、局部原型；211、解码多头注意力模块；212、多头编码器-解码器注意力层；213、解码前馈全连接层；300、瞬时方向提取模块；400、池化注意力模块；410、平均池化模块；420、深度卷积模块；430、特征图连接模块；440、层归一化模块；500、损失函数模块；510、图像预处理模块；520、编码神经网络建立模块；530、解码神经网络建立模块；540、中间遮挡图像识别模型建立模块；550、模型训练模块；600、计算机***；601、中央处理单元；602、只读存储器；603、随机访问存储器；604、总线；605、I/O接口；606、键盘输入部分；607、输出部分；608、储存部分；609、通信部分；610、驱动器；611、可拆卸介质。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1所示，本发明公开的一种遮挡图像识别模型的训练方法可应用于对车辆进行识别，在公共事件中可以帮助公共安全人员快速找到犯罪嫌疑车辆并对其进行跟踪，减少犯罪率。本方法还可以应用在智能停车场等应用场景中，可以应用训练好的遮挡图像识别模型快速识别用户停放的车辆，并指导车辆驶入合适的停车位。在应用本方法得到的遮挡图像识别模型对犯罪嫌疑车辆进行跟踪时，通过多个摄像机10对路上的车辆进行拍照，获取被遮挡和未被遮挡的车辆图像。然后摄像机10将被遮挡和未被遮挡的车辆图像上传到遮挡图像识别模型的训练装置20中，通过遮挡图像识别模型的训练装置20对车辆图像进行处理，获取车辆重识别的结果，以获取目标车辆并进行跟踪。

请参阅图2所示，在本发明的一实施例中，本申请提供的一种遮挡图像识别模型的训练方法，包括以下步骤：

步骤S210，获取待识别车辆的图像，并对所述待识别车辆的图像进行预处理，获取预处理图像。

请参阅图1所示，在本发明的一实施例中，通过摄像机10对车辆进行抓拍，获取多个待识别车辆的图像，其中待识别车辆的图像包括车辆被遮挡图像和车辆未被遮挡图像。然后对数据增强后的车辆图像进行预处理，并将多个车辆的图像划分为训练集车辆图像和测试集车辆图像，其中将训练集车辆图像和测试集车辆图像的大小调整为像素统一的车辆图像，其中，车辆图像的像素大小例如为256px*128px。其中，训练集车辆图像采用随机水平翻转、填充、随机裁剪和随机擦除进行数据增强，获取数据增强后的车辆图像。其中，数据增强后的车辆图像例如表示为，（H，W）表示分辨率大小，C表示通道数，即图像中单个像素点包含的颜色信息的数量。将车辆图像/>划分为多个图像块，其中图像块例如表示为/>，N表示图像块的数量，/>表示图像块的分辨率。此时，车辆图像变换成长度为N且注意力网络模型即Transformer网络模型可进行处理的向量序列，且向量序列例如表示为/>。之后对车辆图像预处理后得到的每个向量做线性变换，且通过全连接层E完成向量序列的线性变换，线性变换例如为PatchEmbedding，。通过全连接层E对向量序列做线性变换后得到线性向量序列，线性向量序列例如为/>。其中，全连接层E的压缩维度为D，压缩维度D的大小取决于Transformer网络模型的大小。通过压缩维度D可以实现全连接层E输出的压缩，从而减少Transformer网络模型输入的参数数量。并将多个图像块的位置信息和相机信息嵌入车辆图像的线性向量序列中，得到车辆图像的预处理向量序列，并将预处理向量序列输入到初始遮挡图像识别模型。

步骤S220，建立初始遮挡图像识别模型，并在初始遮挡图像识别模型的编码器中设置动态的掩码感知模块和多头注意力约束模块，建立编码神经网络。

在本发明的一实施例中，先建立初始遮挡图像识别模型，初始车辆识别网络例如为初始的Transformer网络模型。Transformer网络模型是一种先进的神经网络模型，被广泛应用于自然语言处理、机器翻译和语音识别等领域。Transformer网络模型使用注意力机制（Self-Attention）代替传统的循环结构，可以用于处理任意长度的序列数据并进行特征提取，有效的减少了计算成本和提高了网络模型的并行性能。Transformer网络模型的结构主要包括编码器和解码器，其中，编码器例如表示为Transformer Encoder，解码器例如表示为Decoder。编码器和解码器由循环L次标准处理层即Transformer block构成，编码器主要由多个编码器处理层即Encoder block构成，解码器主要由多个解码器处理器即Decoderblock构成。

在本发明的一实施例中，为了实现对图像中的不同特征物体进行分割，提取到被遮挡车辆的图像更多的识别特征，在Transformer网络模型的编码器引入动态的掩码感知模块。并从浅层网络开始聚合图像的特征表示，以生成有效的动态原型掩码对图像的整体原型进行分割，以便生成对应的子空间对分割后的图像的整体原型进行处理。首先通过卷积神经网络（Convolutional Neural Network，CNN）对输入的车辆图像的线性向量序列进行卷积处理，卷积神经网络可以考虑每个图像块的邻居节点，所以获取车辆图像的局部特征信息。车辆图像的局部特征通过全局平均池化生成原型掩码。并且为了通过原型掩码对图像进行分割，获得更加精细和准确的图像分割结果，在生成原型掩码时需要考虑CNN中的各个通道的加权值。通过对通道的权重不断进行训练，增强不同通道之间的关联性，提取更为准确的特征表示，从而生成更加精确的动态的原型掩码，提高图像分割的准确性和效率。

请参阅图3和图6所示，在本发明的一实施例中，在特征表示中排除标记后，标记例如表示为class-token，掩码感知模块111的输入端输入的车辆图像也可表示为，（H，W）表示分辨率大小，C表示通道数。因为单纯的Transformer模型不能关注车辆图像中的邻居节点的信息，所以根据视觉分析模型将车辆图像划分为K个不重叠的窗口，即将车辆图像分割成多个图像块30，多个图像块30表示为/>，其中，视觉分析模型例如为Swin-Transformer模型。然后将多个图像块30展开，展开后的车辆图像31可以表示为/>，其中K是车辆图像被分割成图像块的个数。获取掩码感知模块的二进制门，并在卷积层32处将展平后的车辆图像和二进制门进行卷积处理获取车辆图像的特性向量。其中，获取车辆图像的特征向量的计算公式可表示为，其中/>表示卷积层32，G是二进制门。然后在全局平均池化模块33处对车辆图像的特性向量进行全局平均池化处理，获取原型掩码34。为了增强Transformer网络模型的泛化能力和鲁棒性，将平原型掩码通过Sigmoid函数进行归一化处理，归一化处理表示为/>，其中，/>表示为Sigmoid函数，/>表示平均池化处理。通过Sigmoid函数对平均池化的特征信息进行归一化处理的目的是将特征信息映射在（0,1）之间，有利于提高Transformer网络模型的可视化、可解释性和抗干扰性，并增加特征信息的非线性变换能力，增强了Transformer网络模型的学习效果和泛化能力。而且，根据归一化的原型掩码，对整体原型35进行掩码处理，获取掩码处理后的整体原型即为掩码感知模块的输出结果。

在本发明的一实施例中，随着解码器中网络结构的深入，车辆图像的特征信息变得更加平滑和相似，基于高相似度的特征信息的输入，掩码感知模块很难生成有效的原型掩码。所以在掩码感知模块的输出结果输入到Encoder block中的多头注意力模块中进行处理后，在编码器的多头注意力模块中引入多头注意力约束模块来丰富和聚合车辆图像的特征信息。但通过多头注意力约束模块的每个头聚合车辆图像的特征信息，这样不同的头可能存在相似的特征信息，相似的特征信息反过来限制Transformer网络模型选择一个对应的子空间进行处理。所以采用一个标准的正交约束来分离每个头部的注意力，获取每个头部的注意力模块的注意力权重矩阵，其中，每个头部的注意力模块的注意力权重矩阵的计算公式如下：

其中，是欧几里得范数（Frobenius范数），/>是单位矩阵，/>是一个对多头注意力矩阵进行标准化的矩阵，矩阵/>每一行都经过了/>标准化，即将矩阵/>的每一行都除以欧几里得范数的一种数据预处理方法。通过在编码器的中设置掩码感知模块和多头注意力约束模块，并利用每个头部的注意力模块的注意力权重矩阵对每个头部的特性信息进行区分，获取编码神经网络，并利用ImageNet-21K对编码神经网络进行预训练，然后在ImageNet-1K上进行调整，获取编码器的初始权值，并输入车辆图像并输出编码后的车辆图像的特征信息。其中，ImageNet-21K是一个大型的和高分辨率的图像数据集，包含了大量带有标签的高质量图像和多个图像类别。ImageNet-1K也是一个大型的图像分类基准数据集，也包括多个类别的高分辨率的图像，但是ImageNet-1K内的图像质量优于ImageNet-21K内的图像，所以利用ImageNet-1K对解码神经网络的初始权值进行微调。

请参阅图3所示，在本发明的一实施例中，初始的Transformer网络模型的编码神经网络100包括多个编码器处理层110即Encoder block，编码器处理层110包括掩码感知模块111、多头注意力模块112和前馈全连接层113。掩码感知模块111的输出端与多头注意力模块112的输入端连接，多头注意力模块112的输出端与前馈全连接层113的输入端连接。前馈全连接层113的输出端即编码器处理层110的输出端，多个编码器处理层110的输出端输出编码神经网络100的输出结果。

请参阅图3和图7所示，在本发明的一实施例中，多头注意力模块112用于对掩码感知模块111的输出结果进行加权聚合和特性提取。通过使用查询向量Q（Query）、键向量K（Key）和数值向量V（value）表示掩码感知模块111的输出结果的不同维度。多头注意力模块112包括第一线性变换模块40、注意力权重计算模块41、权重拼接模块42和第二线性变换模块43，其中，在注意力权重计算模块41中设置多头注意力约束模块411。首先通过第一线性变换模块40对Q、K和V进行线性变换，将Q、K和V转换成查询张量、键张量和值张量。然后通过每个头部的注意力权重计算模块41对查询张量、键张量和值张量进行加权处理，获取每个头部注意力模块的输出结果。在权重拼接模块42上对每个头部注意力模块的输出结果进行加权合并，获取总的输出结果，并通过第二线性变换43对总的输出结果进行线性变换，获取多头注意力模块112的输出结果。前反馈全连接层113对多头注意力模块112的输出结果进一步加工处理，最后输出编码神经网络100的输出结果。

在本发明的一实施例中，在初始遮挡图像识别模型的编码器中设置动态的掩码感知模块和多头注意力约束模块，获取编码神经网络，预处理后的车辆图像从编码神经网络的输入端输入，最后输出编码后的全局特征向量。

步骤S230，在初始遮挡图像识别模型的解码器中设置多个局部原型，建立解码神经网络。

请参阅图3和图8所示，在本发明的一实施例中，为了提高Transformer网络模型生成多样化、自然流畅和准确的输出向量序列的能力，可以在初始遮挡图像识别模型的解码器中引入多个可学***均池化模块410、深度卷积模块420、特征图连接模块430和层归一化模块440。其中，池化注意力模块获取车辆图像的特征图的步骤包括，在平均池化模块410上对输入的多个车辆图像I进行展平，获取展平后的车辆图像，其中获取展平后的车辆图像/>的计算公式为：

其中，为平均池化函数，然后在深度卷积模块420上对展平后的车辆图像/>进行深度卷积操作，获取多个子特征图，获取子特征图的计算公式为：

其中，为深度卷积函数，/>为子特征图，之后在特征图连接模块430上将多个子特征图展平并连接起来，并在层归一化模块440对连接起来的子特征图进行归一化处理，获取车辆图像的特征图，其中，获取车辆图像的特征图的计算公式可表示为：

其中，为连接函数，/>为归一化函数，将子特征图连接起来后进行归一化处理的目的是提高Transformer网络模型中的数据的稳定性，从而提高Transformer网络模型的泛化能力和准确度。

在本发明的一实施例中，利用池化注意力模块进行池化操作时，如果池化比足够大，那么P可以是一个比输入的车辆图像的向量序列X更短的序列。P包含了输入的车辆图像的向量序列X的上下文抽象信息，所以在计算注意力时，P可取代原始的X进行计算。若利用原始的X进行计算获取的注意力特征向量，其中，Q为查询向量（Query）、K为键向量（Key）和V为数值向量（value），/>、/>和/>分别表示用于生成查询向量、键数和值向量的线性变换的权重矩阵。Q向量表示输入的多个车辆图像的关联程度，K向量表示输入的车辆图像的多个向量之间的相似性和区别，V向量表示图像内容特征。若采用池化比足够大的池化注意力模块获取注意力特征向量/>，/>的计算公式为：。这时，注意力的特征向量的计算公式是：/>，其中，/>表示Q、K和V的维数，softmax()为一种归一化函数，由于K和V中包含了车辆图像的高度抽象的多尺度信息，具有更强的局部信息特征提取能力。

请参阅图3所示，在本发明的一实施例中，初始的Transformer网络模型包括解码神经网络200和池化注意力模块400，解码神经网络200包括多个解码器处理层210即Decoder block和多个局部原型220，解码器处理层210包括解码多头注意力模块211、多头编码器-解码器注意力层212和解码前馈全连接层213。多个局部原型220作为查询向量Q添加到每个解码多头注意力模块211中。

请参阅图3所示，在本发明的一实施例中，解码多头注意力模块211用于对编码神经网络100的输出结果中多个位置的信息进行加权聚合，并通过多头编码器-解码器注意力层212和解码前馈全连接层213对解码多头注意力模块211的输出结果进行处理，获取解码神经网络的输出结果。

步骤S240，在初始遮挡图像识别模型中设置瞬时方向提取模块和损失函数模块，并将编码神经网络的输出端以及瞬时方向提取模块的输出端与解码神经网络的输入端连接，建立中间遮挡图像识别模型。

在本发明的一实施例中，在对车辆进行重识别时，车辆的瞬时方向即车辆的朝向也是一个重要的特征信息。因为车辆在不同时间或地点拍摄时，由于外部环境和角度的变换，车身外观和形态会随着发生改变，而且不同角度和距离的摄像机所捕捉到的视野范围和精度不一样，导致得到的车辆图像的质量和特征表示的稳定性不足。所以通过在Transformer网络模型中设置瞬时方向提取模块300来处理车辆图像数据的复杂性、异构性和高变性，增强了Transformer网络模型的鲁棒性和泛化能力和对多样化场景的适应性。瞬时方向提取模块对输入的车辆图像进行处理的步骤是，给定一个输入的车辆图像，瞬时方向提取模块从输入的车辆图像中提取多个地标，然后根据地标生成热图，每个热图的最大响应点对应一个车身关键点。

在本发明的一实施例中，编码神经网络的输出结果即全局特征向量和瞬时方向提取模块的输出结果作为解码神经网络的输入向量。在解码器的交叉注意力机制中应用局部原型和输入向量生成注意力特征向量（/>，/>，/>）。获取查询向量/>、键向量/>和数值向量/>的步骤包括，引入一组可学***均池化层应用于瞬时方向提取模块获取的热图，将热图转换成可利用的特征向量，然后将可利用的特征向量与全局特征向量/>相乘，最后输出解码器的输入向量/>。最终解码器的输入向量/>经过图3所示的解码多头注意力模块220后输出的特征向量（查询向量/>、键向量/>和数值向量/>），其中，因为多个局部原型210作为查询向量Q添加到每个解码多头注意力模块220中，所以查询向量/>、键向量/>和数值向量/>可表示为：

其中，、/>和/>是生成查询向量/>、键向量/>和数值向量/>的线性变换的权重矩阵。

在本发明的一实施例中，在初始遮挡图像识别模型中设置损失函数模块500，损失函数模块包括车辆关键点损失函数、身份损失函数/>和三元组损失函数/>。其中，通过池化注意力模块来提取输入的车辆图像的上下文信息，并将下上下文的信息输入到解码神经网络中，获取车辆关键点损失函数/>。其中，计算车辆关键点损失函数/>的步骤包括，根据车辆图像包含车身信息的概率获取车辆图像中的关键点的置信度，并根据置信度将关键点可以分成高置信度的关键点的合集和低置信度的关键点的合集。其中，高置信度的关键点的合集例如表示为/>，低置信度的关键点的合集例如表示为，其中，L是热图的标签等于1的次数。然后对置信度的关键点的合集和低置信度的关键点的合集进行平均池化操作，获取/>和/>。然后车辆关键点损失函数/>的计算公式表示为：

其中，B表示车辆图像的训练批次数量。通过车辆关键点损失函数可以计算车辆图像中的车辆部分和非车辆部分的相似性，若车辆部分和非车辆部分越相似，车辆关键点损失函数/>的值就会越大。

在本发明的一实施例中，根据身份损失函数和三元组损失函数/>可获取编码器损失/>和解码器损失/>，其中，编码器损失/>和解码器损失/>的计算公式表示为：

其中，P为池化注意力模块输出的特征图，K表示特征组的个数，表示编码神经网络输出的全局特征向量，/>表示平衡参数。/>表示在解码器中，将输入到最后一层神经网络的特征向量分成/>个组，然后将/>个特征向量输入到最后一层神经网络用于学习/>个局部特征向量，/>为多头注意力模块的每个头的注意力权重矩阵。

在本发明的一实施例中，Transformer网络的总损失函数的计算公式表示为：

其中，和/>分别是编码器损失和解码器损失的比例因子，在本实施例中，/>和/>均设为0.5。

请参阅图3所示，在本发明的一实施例中，在初始遮挡图像识别模型中设置瞬时方向提取模块300和损失函数模块500，并对编码神经网络100的输出和瞬时方向提取模块300的输出进行处理，获取输出结果并将输出结果作为解码神经网络100的输入向量，建立中间遮挡图像识别模型。

步骤S250，将预处理图像作为中间遮挡图像识别模型的输入变量，对中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型。

请参阅图3所示，在本发明的一实施例中，将预处理的训练集车辆图像作为中间遮挡图像识别模型的输入变量，对中间遮挡图像识别模型进行训练，不断调整中间遮挡图像识别模型内的权重，并根据损失函数模块500对中间遮挡图像识别模型进行优化，获取目标遮挡图像识别模型，即输出结果稳定的注意力网络模型。在中间遮挡图像识别模型的训练阶段，本申请中的Transformer网络模型的编码处理层110和解码器处理层210设置的数量相同，对每个车辆图像分割后的图像块的数量例如为64个。且利用随机梯度下降算法（Stochastic Gradient Descent，SGD）作为优化器对中间遮挡图像识别模型进行优化，且初始学习率例如设置为0.008，初始学习率是用来控制权重参数更新速度的一个超参数。并将待识别车辆的图像输入目标遮挡图像识别模型的输入端，获取目标遮挡图像识别模型的输出结果，目标遮挡图像识别模型的输出结果例如为具有可视化的车辆图像。可视化的车辆图像作为特征匹配模块600的输入，特征匹配模块600对可视化的车辆图像与已有图像之间的相似度进行评估，最终获取车辆识别的结果。

请参阅图4所示，在本发明的一实施例中，本申请提供一种应用编码神经网络对车辆图像进行处理的方法，包括以下步骤：

步骤S410，获取预处理的车辆图像。

在本发明的一实施例中，通过图1所示的摄像头110对车辆进行抓拍，获取多个车辆图像，其中车辆图像包括车辆被遮挡图像和车辆未被遮挡图像。并将多个车辆图像划分为训练集车辆图像和测试集车辆图像，其中将训练集车辆图像和测试集车辆图像的大小调整为例如256px*128px。其中，训练集车辆图像采用随机水平翻转、填充、随机裁剪和随机擦除进行数据增强。然后对数据增强后的车辆图像进行分割，数据增强后的车辆图像例如表示为，（H，W）表示分辨率大小，C表示通道数，即图像中单个像素点包含的颜色信息的数量。将车辆图像/>划分为多个图像块，其中图像块例如表示为/>，N表示图像块的数量，/>表示图像块的分辨率。此时，车辆图像/>变换成长度为N且注意力网络模型即Transformer网络模型可进行处理的向量序列，且向量序列例如表示为/>。之后对车辆图像预处理后得到的每个向量做线性变换，且通过全连接层E完成向量序列的线性变换，线性变换例如为Patch Embedding，。通过全连接层E对向量序列做线性变换后得到线性向量序列，线性向量序列例如为/>。其中，全连接层E的压缩维度为D，压缩维度D的大小取决于Transformer网络模型的大小。通过压缩维度D可以实现全连接层E输出的压缩，从而减少Transformer网络模型输入的参数数量。并将多个图像块的位置信息和相机信息嵌入车辆图像的线性向量序列中，得到车辆图像的预处理向量序列，并将预处理向量序列输入图3所示的编码神经网络100中。

步骤S420，对预处理的车辆图像进行掩码处理，获取掩码后的车辆图像。

请参阅图3所示，在本发明的一实施例中，通过编码神经网络100中的掩码感知模块111对预处理的车辆图像进行掩码处理，获取掩码后的车辆图像。

步骤S430，对掩码后的车辆图像进行特征提取和分类，获取掩码后的车辆图像的特征向量。

请参阅图3所示，在本发明的一实施例中，根据多头注意力模块112对掩码后的车辆图像进行特征提取和分类，获取掩码后的车辆图像的特征向量。

步骤S440，对掩码后的车辆图像的特征向量进行处理，获取全局特征向量。

请参阅图3所示，在本发明的一实施例中，根据前馈全连接层113对掩码后的车辆图像的特征向量进行处理，获取全局特征向量。

请参阅图5，在本发明的一实施例中，本申请提供的一种遮挡图像识别模型的训练装置包括图像预处理模块510、编码神经网络建立模块520、解码神经网络建立模块530、中间遮挡图像识别模型建立模块540和模型训练模块550。其中，图像预处理模块510，用于获取待识别车辆的图像，并对待识别车辆的图像进行预处理，获取预处理图像。编码神经网络建立模块520，用于获取初始遮挡图像识别模型，并在初始遮挡图像识别模型的编码器中设置动态的掩码感知模块和多头注意力约束模块，建立编码神经网络。解码神经网络建立模块530，用于在初始遮挡图像识别模型的解码器中设置多个局部原型，以建立解码神经网络。中间遮挡图像识别模型建立模块540，用于在初始遮挡图像识别模型中设置瞬时方向提取模块和损失函数模块，并将编码神经网络的输出端以及瞬时方向提取模块的输出端与解码神经网络的输入端连接，建立中间遮挡图像识别模型。以及模型训练模块550，用于将预处理图像作为中间遮挡图像识别模型的输入变量，对中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型。

本申请的实施例还提供了一种电子设备，包括：至少一个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的遮挡图像识别模型的训练方法。

图9示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。需要说明的是，图9示出的电子设备的计算机***600仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机***600包括中央处理单元（Central Processing Unit，CPU）601，其可以根据存储在只读存储器（Read-Only Memory，ROM）602中的程序或者从储存部分608加载到随机访问存储器（Random Access Memory，RAM）603中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 603中，还存储有***操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（Input/Output，I/O）接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分607；包括硬盘等的储存部分608；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入储存部分608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元（CPU）601执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和应用结构的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机的处理器执行时，使计算机执行如前所述的遮挡图像识别模型的训练方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的遮挡图像识别模型的训练方法。

综上所述，本发明提供的一种遮挡图像识别模型的训练方法，通过使用注意力网络模型对输入的车辆图像进行更好的特征提取，有效的提高了被遮挡的车辆重识别的准确率。在注意力网络模型中设置掩码感知模块，对遮挡的车辆图像中进行掩码和语义分割，使得解码器可以专注于图像的目标信息，提高了对图像的特征提取，提高车辆重识别的准确性和效率。利用多头注意力约束模块对图像的特征向量进行聚类，并利用瞬时方向模块获取车辆图像的上下文信息，提高了遮挡图像识别模型的泛化能力、鲁棒性和可靠性。而且通过设置损失函数模块对注意力网络模型进行优化和在解码器中设置多个局部原型，提高了遮挡图像识别模型的预测输出结果的准确性，从而提高了对被遮挡车辆进行识别的准确率。

在本说明书的描述中，参考术语“本实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明实施例只是用于帮助阐述本发明。实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种遮挡图像识别模型的训练方法，其特征在于，包括以下步骤：

将所述预处理图像作为所述中间遮挡图像识别模型的输入变量，对所述中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型；

其中，所述在所述初始遮挡图像识别模型的解码器中设置多个局部原型，建立解码神经网络的步骤，包括：

；

其中，为深度卷积函数，/>为子特征图；以及

；

其中，为连接函数，/>为归一化函数。

2.根据权利要求1所述的一种遮挡图像识别模型的训练方法，其特征在于，对所述待识别车辆的图像进行预处理，获取所述预处理图像的步骤包括：

3.根据权利要求2所述的一种遮挡图像识别模型的训练方法，其特征在于，对所述数据增强后的车辆图像进行分割，获取所述预处理图像的步骤包括：

获取所述车辆图像块的位置信息和摄像头信息；以及

4.根据权利要求1所述的一种遮挡图像识别模型的训练方法，其特征在于，建立所述编码神经网络的步骤包括：

；

5.根据权利要求1所述的一种遮挡图像识别模型的训练方法，其特征在于，对所述中间遮挡图像识别模型进行训练和优化的步骤包括：

对所述预处理图像进行展平处理，获取展平后的车辆图像；

获取所述掩码感知模块的二进制门；以及

6.根据权利要求5所述的一种遮挡图像识别模型的训练方法，其特征在于，获取所述车辆图像的特征向量之后的步骤包括：

；

7.一种遮挡图像识别模型的训练装置，其特征在于，包括：

模型训练模块，用于将所述预处理图像作为所述中间遮挡图像识别模型的输入变量，对所述中间遮挡图像识别模型进行训练和优化，获取目标遮挡图像识别模型；

其中，所述解码神经网络建立模块还用于对所述待识别车辆的图像进行平均池化处理，获取池化后的车辆图像，其中，获取所述池化后的车辆图像满足以下公式：

；

其中，为深度卷积函数，/>为子特征图；以及

其中，为连接函数，/>为归一化函数。

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；

存储装置，用于存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述电子设备实现权利要求1-6任一项所述的遮挡图像识别模型的训练方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被计算机的处理器执行时，使计算机执行权利要求1-6任一项所述的遮挡图像识别模型的训练方法。