CN113420742A - 一种用于车辆重识别的全局注意力网络模型 - Google Patents
一种用于车辆重识别的全局注意力网络模型 Download PDFInfo
- Publication number
- CN113420742A CN113420742A CN202110977958.6A CN202110977958A CN113420742A CN 113420742 A CN113420742 A CN 113420742A CN 202110977958 A CN202110977958 A CN 202110977958A CN 113420742 A CN113420742 A CN 113420742A
- Authority
- CN
- China
- Prior art keywords
- global
- channels
- network model
- global attention
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 26
- 238000002474 experimental method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 6
- 240000002791 Brassica napus Species 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006378 damage Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 2
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及车辆识别技术领域,具体地涉及一种用于车辆重识别的全局注意力网络模型,包括一个骨干网、一个将特征图分成两部分的局部分支和两个具有全局注意力模块的全局分支;所述骨干网络***为3个分支;所述全局注意力网络模型使用全局平均池化来提取特征向量,以覆盖整个车辆信息;所述局部分支,仅将特征图水平划分成两部分。本发明构建了一个具有三个分支的全局注意网络,以提取大量鉴别性信息;构建了CGAM和SGAM两个全局注意力模块,通过结点间的平均成对关系建模结点全局关系并推断结点的重要性程度,降低了计算复杂度;局部分支上将特征图仅水平分割成两部分,很大程度上解决了不对齐和局部不一致性问题。
Description
技术领域
本发明涉及车辆识别技术领域,具体地涉及一种用于车辆重识别的全局注意力网络模型。
背景技术
车辆重识别是指在不同摄像头下对目标车辆的识别,它在智能交通和智慧城市中起着重要作用,它在现实生活中有很多应用。例如,在真实的交通监控***中,车辆重识别可以对目标车辆起到定位、监督和刑事侦查的作用。随着深度神经网络的兴起和大数据集的提出,提高车辆重识别的准确性已成为近年来计算机视觉和多媒体领域的研究热点。然而,由于多台摄像机下视角不同,以及光照、遮挡等方面的影响,导致类内特征距离变大,类间特征距离变小,进一步增加了识别的难度。
行人重识别和车辆重识别本质上是相同的,都属于图像检索任务。近年来,基于卷积神经网络(CNN)的方法在行人重识别上取得了很大的进展。因此,应用于行人重识别的CNN模型在车辆识别中也具有良好的性能。大多数先进的基于CNN的行人重识别方法采用在ImageNet上预先训练的CNN模型,并在不同的损失的监督下,在重识别数据集上对它们进行调整。
基于CNN的车辆和行人的重识别通常侧重于提取人或车辆图像的全局特征。这样可以从全局上获得完整的特征信息,但全局特征不能很好地描述视角等因素引起的类内差异。为了提取细粒度的局部特征,带有局部分支的PCB(Part-based ConvolutionalBaseline,基于部分卷积基线)和MGN(Multiple Granularity Network,多粒度网络)等行人重识别网络模型被设计出来。这些网络把特征图分成若干条来提取局部特征。另外,后者将局部特征与全局特征相结合,进一步提高了模型的性能。对于车辆重识别,同一车型的车辆在全局外观上基本相同。而在一些小区域,如检验标志、装饰和使用痕迹等,它们可能有很大的差异。因此,汽车局部细微信息对车辆重识别任务同样至关重要。
然而,这些基于局部的模型一方面有一个共同的缺点:为了学习显著的局部特征,它们需要为同一个人提供相对对齐的身体部位。虽然车辆重识别和行人重识别本质上都是图像检索问题,但是车辆的车身部位界限不像行人的那么清晰,并且从不同角度观察到同一辆车的车身差异很大。另一方面,特征图的严格均匀划分破坏了局部内一致性。并且局部一致性的破坏程度一般与局部划分的数量成正比,即划分数量越多,越容易破坏局部内一致性。这将使深度神经网络难以从局部中获取有意义的细粒度局部信息,从而降低了性能。因此,将行人重识别任务中的局部划分方法简单地应用到车辆上是不可行的。
注意机制在人类感知***中起着重要的作用,它帮助人们专注于识别有用的显著的鉴别性特征,消除一些噪音和背景干扰。对于网络模型,注意力机制可以使模型聚焦于目标主体而不是背景,在重识别任务中得到了广泛的应用。因此,许多带有注意力模块的网络被提出。然而,它们主要是通过在自身信息上直接卷积来构建结点(通道、空间位置)的注意力,或使用结点之间的成对关系来直接重构结点,没有考虑到结点与结点之间的全局关系对构建结点的注意力(重要性)具有重要的指导作用。
在车辆重识别任务中,不同的相机位置会产生光照变化、透视变化和分辨率差异,导致同一车辆在不同视角下的类内差异较大,或由于同一车型而导致不同车辆的类间差异较小。这大大增加了车辆重识别任务的难度。车辆再识别的关键在于车辆辨别性特征的提取。为了更好地从车辆图像中提取此类特征,提高识别的准确率,有必要提出一种用于车辆重识别的全局注意力网络模型。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种用于车辆重识别的全局注意力网络模型,既能简单地提取出局部的细微信息,在很大程度上解决局部不对齐和局部一致性破坏问题;又能根据结点与结点之间的全局关系构建结点的可靠注意力,从而提取用于车辆重识别的更加可信的显著性信息。
本发明解决其技术问题所采取的技术方案是:
一种用于车辆重识别的全局注意力网络模型,包括一个骨干网、一个将特征图划分成两部分的局部分支和两个具有全局注意力模块的全局分支;所述骨干网络***为3个分支;所述全局注意力网络模型在每个分支输出的最终特征图上使用全局平均池化GAP来提取得到特征向量,以覆盖车辆图像的整个车身信息;所述局部分支,仅将车辆特征图水平划分成两部分,能够很大程度上解决不对齐和局部一致性破坏的问题。
两个全局分支分别具有通道全局注意力模块CGAM(Channel Globle AttentionModule)和空间全局注意力模块SGAM(Spatial Globle Attention Module),用于提取更加可靠的显著性信息。骨干网采用ResNet50网络模型。
为了提高分辨率,将全局分支Global-C Branch和局部分支Local Branch的res_conv5_1块的降采样的步长由2改为1,然后,在两个全局分支的res_conv5块后分别添加空间全局注意力模块、通道全局注意力模块,以提取可靠的显著性信息,增强特征鉴别能力,其中res_cov5表示Resnet50网络模型的第四层;res_cov5_1表示Resnet50网络模型的第四层中的第一个组成块。
在每个分支上使用全局平均池化GAP来提取特征向量后,包含1*1卷积、BN层和ReLU函数的特征降维模块,将特征向量维度降至256,从而提供紧凑的特征表示。通过在每个分支上都施加三元组损失和交叉熵损失来训练网络模型,具体的,直接在256维特征向量上施加三元组损失,在256维特征向量后面追加一个全连接层再施加交叉熵损失。在测试阶段,将三个分支的全连接层之前的特征连接,作为最终的输出特征。
所述CGAM体系结构:设张量为CGAM输入的特征图,其中为通道数,和分别为张量的空间高度和宽度;从函数和中得到张量和,并且将变形为, 将变形为,和体系结构相同,均由两个1*1卷积和两个3*3分组卷积以及两个BatchNormal层和两个Relu激活函数组成。所述体系结构,利用两个3*3分组卷积来增加感受野,并减少参数的数量。随后,利用矩阵乘法得到矩阵,它表示了所有通道的两两成对关系。写成:
利用一个通道相对于其他通道的全局关系重要性来获得该通道在所有通道中的权重的过程为:将关系平均池化RAP应用于矩阵,得到一个向量, 其中为通道数,此时,向量r的每个元素表示每个通道和所有通道之间的全局关系,将向量r的第个元素定义为。
采用softmax函数将所有全局关系转换为每个通道的权重。
为了获得注意力图,先将向量变形为,然后广播为,即为得到的注意图。最后,对原始特征图应用相同位置的两个元素相乘element-wisemultiplication和相同位置的两个元素相加element-wise sum来获得最终的特征图。可以表示为:
所述SGAM体系结构:空间注意力和通道注意力分别利用位置之间和通道之间的全局关系来确定每个位置和通道的重要性,它们的工作方式是相似的。但与CGAM相比,SGAM有三个不同之处。首先,设张量为SGAM输入的特征图,与体系结构相同,均包含一个1*1卷积,一个BN层和一个ReLU函数,将通道的数量减少为,为缩减因子,在实验中设为2;由函数和得到张量和,并将变形为,将变形为;然后,采用矩阵乘法来确定位置间的成对关系且获得矩阵,
在CGAM和SGAM中,将应用注意力后的特征图和原始特征图相加,得到最终的输出特征图。这里使用加法操作有两个原因。首先,这里使用的归一化函数是Softmax, Softmax函数是将权值映射到0到1的范围,并且所有权值之和为1。由于大量权值的存在,注意力模块输出的特征映射元素值可能较小,这将打破原有网络的特征,若不加上原始特征图,将给训练带来很大困难。其次,这一加法操作也突出了中的可靠的显著性信息。实验也表明,通过这种残差结构,模型具有很好的性能。与没有加法操作的模型相比,模型在mAP和Top-1上分别提高了1.2%/1.5%。
对于损失函数,使用最常见的交叉熵损失函数(Cross Entropy Loss)和三元组损失函数(Triplet loss)。
交叉熵表示真实概率分布和预测概率分布之间的差异。可以表示为:
三元组损失的目的是使具有相同标签的样本在嵌入空间中尽可能靠近,而具有不同标签的样本保持尽可能远的距离。本发明采用了硬批三元组损失batch-hard tripletloss,对每个小批量随机抽取个身份和个图像,以满足batch-hard triplet loss的要求。损失可以定义为
总的训练损失是交叉熵损失和三元组损失的和,由
本发明的技术效果:
与现有技术相比,本发明的一种用于车辆重识别的全局注意力网络模型,具有以下优点:本发明构建了一个具有三个分支的全局注意网络,以提取大量的鉴别性信息;基于结点的全局关系,本发明构建了CGAM和SGAM两个全局注意力模块;通过对结点与所有其他结点之间的平均成对关系进行建模,得到结点的全局关系,进而推断出结点的全局重要性,这样做一方面不仅减轻了注意力学***分割成两部分,这样可以在很大程度上解决部位不对齐和局部一致性破坏的问题。本发明在两个车辆重识别数据集上的实验验证了该算法的有效性。该方法的性能优于SOTA方法。
附图说明
图1为本发明整体网络架构示意图;
图2为本发明CGAM体系结构图;
图4为本发明SGAM体系结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,一种用于车辆重识别的全局注意力网络模型,包括一个骨干网、一个将特征图分成两部分的局部分支和两个具有全局注意力模块的全局分支;所述骨干网络,使用ResNet50作为特征图提取的基础,通过调整阶段并去除原始的全连接层来进行多损失训练,ResNet50骨干网在res_conv4_1残块后***为3个分支;所述全局注意网络模型使用全局平均池化GAP来覆盖车辆图像的整个车身部位;所述局部分支,仅将车辆特征图水平划分成两部分,能够很大程度上解决不对齐和局部一致性被破坏的问题。
为了提高分辨率,将全局分支Global-C Branch和局部分支Local Branch的res_conv5_1块的降采样的步长由2改为1,然后,在两个全局分支的res_conv5块后分别添加空间全局注意力模块、通道全局注意力模块,以提取可靠的显著性信息,增强特征鉴别能力。
特征降维模块包含一个1*1卷积、一个BN层和一个ReLU函数,它将特征向量维度降至256,从而提供紧凑的特征表示。通过在每个分支上都施加三元组损失和交叉熵损失来训练网络模型,具体的,直接在256维特征向量上施加三元组损失,在256维特征向量后面追加一个全连接层再施加交叉熵损失。在测试阶段,将三个分支的全连接层之前的特征连接,作为最终的输出特征。
两个全局分支分别具有通道全局注意力模块CGAM(Channel Globle AttentionModule)和空间全局注意力模块SGAM(Spatial Globle Attention Module),用于提取更加可靠的显著性信息。
如图2所示,展示了CGAM体系结构,设张量为CGAM输入的特征图,其中为通道数,和分别为张量的空间高度和宽度;从函数和中得到张量和,并且将变形为, 将变形为,和体系结构相同,由两个1*1卷积和两个3*3分组卷积以及两个BatchNormal层和两个Relu激活函数组成。所述体系结构,利用两个3*3分组卷积来增加感受野,并减少参数的数量。随后,利用矩阵乘法得到矩阵,它表示了所有通道的成对关系,写成:
具体的如图3所示,先通过1*1卷积将输入张量的通道数量减少一半,然后通过3*3的分组卷积将特征图分为32个组,让每个组分别进行卷积,并填充一个值使特征图大小保持不变。另外,此3*3卷积保持通道数量不变。BatchNormal(BN)层用来进行归一化,且利用Relu激活函数增加非线性因素。之后,再利用1*1和3*3卷积使得通道数量与原始输入张量保持一致。
利用一个通道相对于其他通道的全局关系重要性来获得该通道在所有通道中的权重的过程为:将关系平均池化(RAP)应用于矩阵,得到一个向量, 其中为通道数,此时,向量r的每个元素表示每个通道和所有通道之间的全局关系,将向量r的第个元素定义为。
采用softmax函数将所有全局关系转换为每个通道的权重。
如图4所示,展示了SGAM体系结构,空间注意力和通道注意力分别利用位置之间和通道之间的全局关系来确定每个位置和通道的重要性,它们的工作方式是相似的。但与CGAM相比,SGAM有三个不同之处。首先,设张量为SGAM输入的特征图,与体系结构相同,均包含一个1*1卷积,一个BN层和一个ReLU函数,将通道的数量减少为,为缩减因子,在实验中设为2;由函数和得到张量和,并将变形为,将变形为;然后,采用矩阵乘法来确定位置间的成对关系且获得矩阵,
在CGAM和SGAM中,将应用注意力后的特征图和原始特征图相加,得到最终的输出特征图。这里使用加法运算有两个原因。首先,这里使用的归一化函数是Softmax, Softmax函数是将权值映射到0到1的范围,并且所有权值之和为1。由于大量权值的存在,注意力模块输出的特征映射元素值可能较小,这将打破原有网络的特征,若不加上原始特征图,将给训练带来很大困难。其次,这一加法操作也突出了中的可靠的显著性信息。实验也表明,通过这种残差结构,模型具有很好的性能。与没有加法操作的模型相比,模型在mAP和Top-1上分别提高了1.2%/1.5%。
对于损失函数,使用最常见的交叉熵损失函数(Cross Entropy Loss Function)和三元组损失函数(Triplet loss)。
交叉熵表示真实概率分布和预测概率分布之间的差异。可以表示为
三元组损失的目的是使具有相同标签的样本在嵌入空间中尽可能靠近,而具有不同标签的样本保持尽可能远的距离。本发明采用了batch-hard triplet loss,对每个小批量随机抽取个身份和个图像,以满足batch-hard triplet loss的要求。损失可以定义为
总的训练损失是交叉熵损失和三元组损失的和,由
实验:
数据集:在两个常用的车辆重识别数据集上评估了本发明的模型,包括VeRi776和VehicleID。
VeRi776:它由大约5万张776辆汽车的图像组成,这些图像是由20个摄像头在不同的位置、不同的视角拍摄的。训练集包含576辆车,测试集包含剩下的200辆车。
VehicleID:它包含了分布在中国一个小城市的多个真实监控摄像头捕捉到的白天的数据。整个数据集中有26267辆汽车(221763张图片)。根据测试集的大小,提取出小、中、大三个测试集。在推理阶段,对每辆车随机选取一幅图像作为图库集,其他图像作为查询图像。
评估指标:在对每个数据集进行综合评价的基础上,采用CMC和mAP两指标,与现有方法进行了比较。CMC是在返回结果的前K中找到正确匹配的估计。mAP是一种综合考虑查询结果准确率和查全率的综合指标。
实施细则:选择ResNet50作为生成特征的骨干网络。本发明对两个数据集采用相同的训练策略。每个像素的RGB三通道被归一化,图像大小在输入到网络之前被调整为256*256。从每个mini-batch中随机抽取个身份,每个身份随机抽取个图像,以满足三元组损失的要求。在实验中,设置和来训练本发明提出的模型。对于三元组损失的margin参数,本发明在所有的实验中都设置为1.2。用Adam作为优化器。对于学习率策略,设置初始学习率为2e-4,在120 epoch后衰减到2e-5,在220、320 epoch进一步下降到2e-6、2e-7,以便更快地收敛。整个训练过程持续450个epoch.采用交叉熵损失和batch-hardtriplet loss一起来训练各分支。
在测试阶段,Veri776数据集以image-to-track的形式进行测试。通过计算查询图像与图库集中所有图像之间的距离,将图像到图像的最小距离作为image-to-track的距离。对于VehicleID数据集,分别对其三个测试集进行测试。将三个分支的全连接层之前的特征连接,作为最终的输出特征。
实验结果:将所提出的模型与其他最先进的模型在两个数据集上的结果进行了比较。现有技术设计了局部最大遮挡表示(LOMO)来解决视觉和光线变化的问题。为了在CompCars数据集上获得更好的结果,对Googlenet模型进行了微调,微调后的模型称为GoogleNet。然后采用SIFT、Color Name和GoogLeNet特征对联合域的车辆进行识别。RAM首先将图像水平分割成三部分,然后在这些局部区域嵌入详细的视觉线索。为了提高识别细微差异的能力,PRN在车辆重新识别任务中引入了局部归一化(local normalization, PR)约束。基于解析的视图感知嵌入网络(PVEN)可以避免不同视图下局部特征的不匹配。生成式对抗网络(Generative Adversarial Networks, GAN)使用生成式模型和判别式模型相互学习以产生良好的输出。VAMI在GAN的帮助下生成不同视图的特性。TAMR提出了两级注意网络,以逐渐关注车辆视觉外观中细微但明显的局部细节,并提出了多粒排名损失学习结构化深度特征嵌入。
在VeRi776和VehicleID上的实验结果分别如表1和表2所示。在所有基于视觉的方法中,本发明的TGRA方法取得了最好的效果,优于其他方法。由表1发现,首先,与PVEN相比,TGRA在mAP上提高了2.7%,在CMC@1上提高了0.1%。其次,本发明的方法的CMC@5已经超过了99.1%,这在真实车辆重识别场景中是一个很有前景的性能。表2显示了在三个不同规模的测试数据集上的比较结果。本发明TGRA在CMC@5上在不同的测试数据上比PRN提高了4.0%+。需要注意的是,一些先进的网络模型需要利用其他辅助模型,这增加了算法的复杂度。例如,PVEN使用U-Net将一辆车解析成四个不同的视图。PRN把YOLO作为局部定位的检测网络。TAMR采用STN自动定位挡风玻璃和车头部位。但是,本发明的模型在没有利用任何辅助模型的情况下仍具有更好的性能。
本发明模型在VeRi776的测试集上报告mAP为82.24%,CMC@1为95.77%,CMC@5为99.11%。在VehicleID的三个测试集上报告CMC@1为81.51%,95.54%,72.81%,CMC@5为96.38%,93.69%,91.01%。所有结果都是在单查询模式下获得的,没有进行重排序。表1:
表2:
消融研究:在两个数据集上进行了大量实验,验证了TGRA中关键模块的有效性。通过比较不同结构的性能,以确定所提模型的最优结构。
CGAM和SGAM的有效性:CGAM和SGAM分别是通道全局注意模块和空间全局注意模块。在VeRi776的测试集上的结果如表3所示。表3:
如表4所示,在 VeRi 776上验证局部分支的有效性。“w/o”是指没有;“local”是指TGRA的局部分支;“PART-3” 和“PART-4”是指将特征图分别分成三或四部分的参考。
表4:
本发明模型由三个分支组成,在两个全局分支上,通道全局注意力和空间全局注意力被用来提取可靠的显著性信息。本发明分别验证了SGAM和CGAM对模型的影响(表3)。从表3可以看出,在VeRi776的测试集上,与Baseline相比,“Baseline+SGAM” 在mAP和CMC@1分别提高了0.6%和0.6%。此外,与Baseline相比,“Global-C (Branch)”在mAP上提高了1.7%,在CMC@1上提高了1.0%。然后,当带有CGAM和SGAM的两个分支同时训练时,与Baseline相比,模型在mAP和CMC@1上得到5.0%和1.6%的提高。
此外,本发明还对全局注意力模块进行了定性分析,以便更直观地看到其有效性。实验结果表明带有全局注意力模块的网络可以准确地找到相同的车辆图像。当查询图像和目标图像处于不同视角时识别同一辆车是非常困难的,但本发明的模型也可以很好地识别同一辆车。因此,本发明的全局注意力模块在增强区别像素和抑制噪声像素方面具有很好的表现。
局部分支验证:TGRA w/o local表示没有局部分支的TGRA模型。为了充分验证本发明提出的局部分支的有效性,本发明还进行了两个实验,一个是将特征图划分为三部分,另一个是将其分为四部分。由表4可知,首先,在四个模型中,没有局部分支的TGRA的性能最差,说明局部细节信息在车辆再识别任务中是至关重要的。第二,与“TGRA (Part-3)”相比,“TGRA (our)”在VeRi776的测试集上在mAP中提高了0.5%,在CMC@1中提高了0.6%。另外,可以看出划分数量越多,性能越差。这是由于不对齐和局部一致性破坏造成的。然而,本发明提出的局部分支可以在很大程度上解决这些问题。消融实验证明了该方法的有效性。
本发明提出了一个带有三分支的全局注意网络用于车辆重识别,该模型可以从多个角度提取车辆的有用特征。此外,在局部分支上,为了在很大程度上解决不对齐和局部一致性破坏的问题,本发明只将车辆特征图均匀地分成两部分。最后,通过全局注意力模块,该网络可以在车辆重识别任务中专注于最显著的部分,学习到更多的识别性和鲁棒性特征。在测试阶段,将这三个分支的特征连接起来,以获得更好的性能。实验表明,在VeRi776和VehicleID数据集上,本发明的模型明显优于当前最好的模型。
Claims (8)
1.一种用于车辆重识别的全局注意力网络模型,其特征在于:包括一个骨干网、一个将特征图划分成两部分的局部分支和两个具有全局注意力模块的全局分支;所述骨干网络***为3个分支;所述全局注意力网络模型在每个分支最终输出的特征图上使用全局平均池化GAP得到特征向量;所述局部分支,仅将车辆特征图水平划分成两部分。
2.根据权利要求1所述的用于车辆重识别的全局注意力网络模型,其特征在于:两个全局分支分别具有通道全局注意力模块CGAM和空间全局注意力模块SGAM,骨干网采用ResNet50。
3.根据权利要求1或2所述的用于车辆重识别的全局注意力网络模型,其特征在于:将全局分支和局部分支的res_conv5_1块的降采样的步长由2改为1,然后,在两个全局分支的res_conv5块后分别添加空间全局注意力模块、通道全局注意力模块,以提取可靠的显著性信息,增强特征鉴别能力,其中res_conv5表示Resnet50网络模型的第四层;res_conv5_1表示Resnet50网络模型的第四层中的第一个组成块。
6.根据权利要求5所述的用于车辆重识别的全局注意力网络模型,其特征在于:利用一个通道相对于其他通道的全局关系重要性来获得该通道在所有通道中的权重的具体过程为:
采用softmax函数将所有全局关系转换为每个通道的权重;
先将向量变形为,然后广播为,即为得到的注意图;最后,对原始特征图应用相同位置的两个元素相乘element-wise multiplication和相同位置的两个元素相加element-wise sum来获得最终的特征图:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110977958.6A CN113420742B (zh) | 2021-08-25 | 2021-08-25 | 一种用于车辆重识别的全局注意力网络模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110977958.6A CN113420742B (zh) | 2021-08-25 | 2021-08-25 | 一种用于车辆重识别的全局注意力网络模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420742A true CN113420742A (zh) | 2021-09-21 |
CN113420742B CN113420742B (zh) | 2022-01-11 |
Family
ID=77719317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110977958.6A Active CN113420742B (zh) | 2021-08-25 | 2021-08-25 | 一种用于车辆重识别的全局注意力网络模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420742B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN113989836A (zh) * | 2021-10-20 | 2022-01-28 | 华南农业大学 | 基于深度学习的奶牛牛脸重识别方法、***、设备及介质 |
CN114663861A (zh) * | 2022-05-17 | 2022-06-24 | 山东交通学院 | 一种基于维度解耦和非局部关系的车辆重识别方法 |
CN116052218A (zh) * | 2023-02-13 | 2023-05-02 | 中国矿业大学 | 一种行人重识别方法 |
CN116110076A (zh) * | 2023-02-09 | 2023-05-12 | 国网江苏省电力有限公司苏州供电分公司 | 基于混合粒度网络的输电高空作业人员身份重识别方法和*** |
CN116311105A (zh) * | 2023-05-15 | 2023-06-23 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
CN116704453A (zh) * | 2023-08-08 | 2023-09-05 | 山东交通学院 | 用于车辆重识别的自适应划分和先验强化部位学习网络 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110084139A (zh) * | 2019-04-04 | 2019-08-02 | 长沙千视通智能科技有限公司 | 一种基于多分支深度学习的车辆重识别方法 |
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
CN111368815A (zh) * | 2020-05-28 | 2020-07-03 | 之江实验室 | 一种基于多部件自注意力机制的行人重识别方法 |
CN111401177A (zh) * | 2020-03-09 | 2020-07-10 | 山东大学 | 基于自适应时空注意力机制的端到端行为识别方法及*** |
CN111507217A (zh) * | 2020-04-08 | 2020-08-07 | 南京邮电大学 | 一种基于局部分辨特征融合的行人重识别方法 |
CN111931624A (zh) * | 2020-08-03 | 2020-11-13 | 重庆邮电大学 | 基于注意力机制的轻量级多分支行人重识别方法及*** |
-
2021
- 2021-08-25 CN CN202110977958.6A patent/CN113420742B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084139A (zh) * | 2019-04-04 | 2019-08-02 | 长沙千视通智能科技有限公司 | 一种基于多分支深度学习的车辆重识别方法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN111401177A (zh) * | 2020-03-09 | 2020-07-10 | 山东大学 | 基于自适应时空注意力机制的端到端行为识别方法及*** |
CN111507217A (zh) * | 2020-04-08 | 2020-08-07 | 南京邮电大学 | 一种基于局部分辨特征融合的行人重识别方法 |
CN111368815A (zh) * | 2020-05-28 | 2020-07-03 | 之江实验室 | 一种基于多部件自注意力机制的行人重识别方法 |
CN111931624A (zh) * | 2020-08-03 | 2020-11-13 | 重庆邮电大学 | 基于注意力机制的轻量级多分支行人重识别方法及*** |
Non-Patent Citations (5)
Title |
---|
QIAN SHI等: "Hyperspectral Image Denoising Using a 3-D", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
TENG, SZ等: "SCAN: Spatial and Channel Attention Network for Vehicle Re-Identification", 《 ADVANCES IN MULTIMEDIA INFORMATION PROCESSING》 * |
刘紫燕 等: "基于注意力机制的行人重识别特征提取方法", 《计算机应用》 * |
朱绍祥: "基于深度学习的行人重识别***的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
谢彭宇等: "基于多尺度联合学习的行人重识别", 《北京航空航天大学学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989836A (zh) * | 2021-10-20 | 2022-01-28 | 华南农业大学 | 基于深度学习的奶牛牛脸重识别方法、***、设备及介质 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114663861A (zh) * | 2022-05-17 | 2022-06-24 | 山东交通学院 | 一种基于维度解耦和非局部关系的车辆重识别方法 |
CN114663861B (zh) * | 2022-05-17 | 2022-08-26 | 山东交通学院 | 一种基于维度解耦和非局部关系的车辆重识别方法 |
CN116110076A (zh) * | 2023-02-09 | 2023-05-12 | 国网江苏省电力有限公司苏州供电分公司 | 基于混合粒度网络的输电高空作业人员身份重识别方法和*** |
CN116110076B (zh) * | 2023-02-09 | 2023-11-07 | 国网江苏省电力有限公司苏州供电分公司 | 基于混合粒度网络的输电高空作业人员身份重识别方法和*** |
CN116052218A (zh) * | 2023-02-13 | 2023-05-02 | 中国矿业大学 | 一种行人重识别方法 |
CN116052218B (zh) * | 2023-02-13 | 2023-07-18 | 中国矿业大学 | 一种行人重识别方法 |
CN116311105A (zh) * | 2023-05-15 | 2023-06-23 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
CN116311105B (zh) * | 2023-05-15 | 2023-09-19 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
CN116704453A (zh) * | 2023-08-08 | 2023-09-05 | 山东交通学院 | 用于车辆重识别的自适应划分和先验强化部位学习网络 |
CN116704453B (zh) * | 2023-08-08 | 2023-11-28 | 山东交通学院 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113420742B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420742B (zh) | 一种用于车辆重识别的全局注意力网络模型 | |
Chen et al. | Partition and reunion: A two-branch neural network for vehicle re-identification. | |
CN108197326B (zh) | 一种车辆检索方法及装置、电子设备、存储介质 | |
CN112966137B (zh) | 基于全局与局部特征重排的图像检索方法与*** | |
CN106557579B (zh) | 一种基于卷积神经网络的车辆型号检索***及方法 | |
CN111507217A (zh) | 一种基于局部分辨特征融合的行人重识别方法 | |
CN108154133B (zh) | 基于非对称联合学习的人脸画像-照片识别方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN111582339B (zh) | 一种基于深度学习的车辆检测与识别的方法 | |
CN108764096B (zh) | 一种行人重识别***和方法 | |
CN113592007B (zh) | 一种基于知识蒸馏的不良图片识别***、方法、计算机及存储介质 | |
CN112785480B (zh) | 基于频域变换和残差反馈模块的图像拼接篡改检测方法 | |
CN110826415A (zh) | 一种场景图像中车辆的重识别方法及设备 | |
Zang et al. | Traffic lane detection using fully convolutional neural network | |
CN113269224A (zh) | 一种场景图像分类方法、***及存储介质 | |
CN109325407B (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
CN112861605A (zh) | 基于时空混合特征的多人步态识别方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN115830637B (zh) | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和*** | |
CN105184299A (zh) | 基于局部约束线性编码的车身颜色识别方法 | |
Elkerdawy et al. | Fine-grained vehicle classification with unsupervised parts co-occurrence learning | |
CN110516640B (zh) | 一种基于特征金字塔联合表示的车辆再辨识方法 | |
CN112418262A (zh) | 车辆再识别的方法、客户端及*** | |
CN112257553B (zh) | 一种基于循环矩阵的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |