CN116644788B - 一种用于车辆重识别的局部细化和全局强化网络 - Google Patents

一种用于车辆重识别的局部细化和全局强化网络 Download PDF

Info

Publication number
CN116644788B
CN116644788B CN202310926540.1A CN202310926540A CN116644788B CN 116644788 B CN116644788 B CN 116644788B CN 202310926540 A CN202310926540 A CN 202310926540A CN 116644788 B CN116644788 B CN 116644788B
Authority
CN
China
Prior art keywords
global
matrix
vehicle
module
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310926540.1A
Other languages
English (en)
Other versions
CN116644788A (zh
Inventor
郑美凤
王成
张峰
孙珂
李曦
周厚仁
庞希愚
周晓颖
田佳琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jiaotong University
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN202310926540.1A priority Critical patent/CN116644788B/zh
Publication of CN116644788A publication Critical patent/CN116644788A/zh
Application granted granted Critical
Publication of CN116644788B publication Critical patent/CN116644788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的局部细化和全局强化网络,该网络为三分支网络,通过局部细化模块和全局强化模块来学习车辆的鉴别性的局部特征和全局特征。其中,局部细化模块旨在学习细化的局部表示,通过目标像素与其距离最近的像素的交互来捕获相邻像素间丰富的相关性信息;全局强化模块旨在学习强化的全局表示,首先将目标像素的注意力分散到各个窗口中来强调区域内重要的远程依赖,然后通过跨窗***互聚集全局上有意义的远程连接。本发明局部细化模块和全局强化模块的相互配合,能够有效提取车辆的鉴别性的局部信息和整体信息。

Description

一种用于车辆重识别的局部细化和全局强化网络
技术领域
本发明涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的局部细化和全局强化网络。
背景技术
车辆重识别旨在从图像库中检索出与查询ID相同的车辆图像。目前,车辆重识别任务主要面临类内差异大和类间差异小两种挑战。学习车辆的鉴别性的局部特征和全局特征对解决这两种挑战至关重要。自注意力机制是一种特殊的注意力,它主要包含完全自注意力(full self-attention)和局部自注意力(local self-attention)两种形式,已在计算机视觉领域中表现出了巨大的潜力。但是,full self-attention建模的全局上下文中的远程连接通常较弱,这限制了对车辆的整体信息的学习;localself-attention的窗口模式阻碍了对车辆的局部细节信息的充分学习。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种用于车辆重识别的局部细化和全局强化网络。
本发明解决其技术问题所采取的技术方案是:
一种用于车辆重识别的局部细化和全局强化网络,采用ResNet-50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:GLBranch、GS Branch和LR Branch,并移除三个分支的res_conv5_1残差块的下采样操作,以提供更大的空间视图;
未使用注意力模块的GL Branch用于学习车辆的整体的概括性信息;
在GS Branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;
在LR Branch的res_conv5层之后应用一个局部细化模块来学习车辆的细化的局部表示;
其中,所述局部细化模块旨在捕获车辆的鉴别性的局部信息,其结构为:
设特征图为该模块的输入,其中,C、H、W分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3C的1*1卷积得到x的查询张量/>、键张量和值张量/>:/>
x中第i个像素的查询为,表示x q 在位置i处的特征向量;第i个像素的/>邻域内的键集合记为/>,表示x k 中与位置i距离最近的k 2个位置的特征向量。
为了实现第i个像素与它的最近的k 2个像素的交互,将q i k i 的转置进行矩阵乘积计算并执行softmax归一化得到注意力权重向量,其公式如下:
其中,表示矩阵乘法计算;注意力权重向量的第j个元素表示了第i个像素与它的/>邻域内的第j个像素的成对亲和性;然后,本发明从x v 中抽取位置i的/>邻域内的特征向量,记作/>,代表第i个像素的k 2 个最近邻的值;最后,本发明根据注意力得分A i 聚集v i 来捕获第i个像素的局部上下文并对其表征进行重建,得到,其计算过程表示为:
所述全局强化模块旨在捕获车辆的鉴别性的整体信息,其结构为:
设特征图为全局强化模块的输入,其中,C、H、W分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层得到x的查询矩阵/>
该矩阵的第i表示第i个像素的查询向量;为了将一目标像素处的注意力分数分散到多个窗口内,本发明沿空间维度将x均匀地划分为/>个窗口,其中,hw分别为一个窗口的高度和宽度;对每一个窗口的特征图实施一个变形操作和一个全连接层得到M个窗口的键矩阵/>
其中,第j个窗口的键矩阵为N=h*w为窗口的大小,所有窗口的线性变换操作共享相同的权重;K j 中的每一列为第j个窗口中的一个键向量;
Q i K T j 进行矩阵相乘得到目标像素i与第j个窗口内各像素之间的成对亲和性向量,即
其中,表示矩阵乘法;第j个窗口关于所有目标像素的成对亲和性矩阵,通过QK T j 进行矩阵相乘得到:
其中,R j 中的每一行为一个目标像素与第j个窗口内各像素之间的成对亲和性;然后,本发明在R j 的列方向上执行softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:
j个窗口的注意力矩阵的每一行表示一目标像素与第j个窗口内所有像素的依赖关系;
通过计算M个窗口在每个目标像素处的注意力分数,得到M个窗口的注意力矩阵;这M个矩阵同时被计算为:
其中,softmax操作在最后一个维度上执行;为了捕获目标像素的全局上有意义的远程连接,将M个注意力矩阵沿列轴拼接成矩阵并对其执行L1_norm归一化,得到远距离依赖强化的注意力矩阵/>,其计算公式为:
L1_norm从全局感受野聚集了强化的远程连接;与键矩阵的计算类似,本发明对x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到M个窗口的值矩阵
其中,所有窗口的线性变换操作的参数共享;在将M个窗口的值矩阵拼接在一起形成值矩阵后,用矩阵A ''对矩阵V进行加权求和以重建特征的表示:
重建后的特征S捕获的全局上下文加强了一些有意义的关联度不高的远距离依赖;
最后,本发明将矩阵变形为张量/>,并将其与输入特征图相加来计算全局强化模块的输出特征图F ,其计算过程如下:
其中,GELU表示高斯误差线单位,BN表示批量归一化操作;该模块将注意力分散到各个窗口并采用跨窗***互操作构建了强化的全局上下文表示,提升了网络学习车辆整体信息的能力。
进一步的,所述局部细化模块中,每个像素与它最近的k 2个像素的成对亲和性的计算及所有像素的重建可以通过unfold操作和张量的矩阵乘法来实现;首先,将x q 变形得到查询张量,此张量有HW个查询,每个查询的大小为1×C;同时在x k 上使用一个内核大小为k*k且步长为1的unfold操作来抽取每个像素周围的k 2个键,并变形得到键张量/>,其中,每个像素的最近邻所对应的键用一个k 2×C的矩阵存储;表示每个像素与它的最近的k 2个像素的成对亲和性的注意力权重张量/>是通过QK T 的矩阵相乘及softmax归一化操作得到的,即:
其中,某一个像素与其邻域内的像素的成对亲和性用一个大小为1×k 2的向量表示;其次,在x v 上使用一个内核大小为k*k且步长为1的unfold操作来提取每个像素的k 2个最近邻所对应的值,并变形得到值张量/>,其中,每个像素的最近邻的值用一个k 2×C的矩阵存储;最后,使用每一个像素的权重向量对它周围的k 2个像素所对应的值进行加权求和,得到所有重建的像素/>,其计算过程表示如下:
计算过程实现了每个像素与其最近邻像素的交互,捕获了丰富的细节信息。
将张量x 重塑为并将其与原始特征图相加,对相加后的特征图执行BNGELU操作得到最终输出特征图F ,其公式化为:
局部细化模块捕获了目标像素关于它的最近邻的上下文,局部细化模块的权重是通过目标像素与它的最近邻的交互产生的,能够充分利用像素间的丰富的相关性信息,且能够适应不同空间位置的不同视觉模式。
进一步的,所述三个分支均采用全局平均池化操作和降维模块来生成输入的车辆图像的特征表示。
进一步的,对于分支输出的任何一个特征图,使用全局平均池化操作得到一个2048维的特征向量,然后,利用一个由1*1卷积、BN和relu激活函数组成的降维模块进一步将其维度压缩到256维。
进一步的,所述256维的特征向量被用于三元组损失的计算,并经过一个输出神经元数量为训练集中的车辆数目的全连接层的转换用于交叉熵损失的计算。
进一步的,所述交叉熵损失计算公式如下:
其中,N表示的是训练集的车辆数量,y代表输入到网络的图像的真实身份标签,p i 是输入图像属于第i辆车的概率。
进一步的,所述三元组损失计算公式如下:
其中,α是控制和/>距离差异的边距超参数,f a (i)f p (i)f n (j)分别是从锚点、正样本、负样本中提取的特征。
进一步的,本发明将三个分支的交叉熵损失和三元组损失相加得到最终的损失,总损失计算公式如下:
其中,N表示分支数。
本发明的技术效果:
与现有技术相比,本发明的一种用于车辆重识别的局部细化和全局强化网络,使用局部细化模块和全局强化模块来学习车辆的鉴别性的局部特征和全局特征,以应对车辆重识别中的挑战。其中,局部细化模块旨在学习细化的局部表示,它通过目标像素与其距离最近的像素的交互来捕获相邻像素间丰富的相关性信息;全局强化模块旨在学习强化的全局表示,它首先将目标像素的注意力分散到各个窗口中来强调区域内重要的远程依赖,然后通过跨窗***互聚集全局上有意义的远程连接。
附图说明
图1为本发明用于车辆重识别的局部细化和全局强化网络架构图;
图2为本发明局部细化模块结构图;
图3为本发明全局强化模块结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:
如图1所示,本实施例涉及的一种用于车辆重识别的局部细化和全局强化网络,采用ResNet-50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:GL Branch、GS Branch和LR Branch,并移除这三个分支的res_conv5_1残差块的下采样操作,以提供更大的空间视图;
未使用注意力模块的GL Branch用于学习车辆的整体的概括性信息;
在GS Branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;
在LR Branch的res_conv5层之后应用一个局部细化模块来学***方向划分成两部分来促进模块的进一步学习;
其中,所述局部细化模块旨在捕获车辆的鉴别性的局部信息,局部细化模块通过目标像素与它的最近的像素的交互来利用相邻像素间包含的丰富的相关信息以细化局部表示,其结构如图2所示,设特征图为该模块的输入,其中,C、H、W分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3C的1*1卷积得到x的查询张量、键张量/>和值张量/>:/>
x中第i个像素的查询为,表示x q 在位置i处的特征向量;第i个像素的/>邻域内的键集合记为/>,表示x k 中与位置i距离最近的k 2个位置的特征向量。
为了实现第i个像素与它的最近的k 2个像素的交互,将q i k i 的转置进行矩阵乘积计算并执行softmax归一化得到注意力权重向量,其公式如下:
其中,表示矩阵乘法计算;注意力权重向量的第j个元素表示了第i个像素与它的/>邻域内的第j个像素的成对亲和性;然后,本发明从x v 中抽取位置i的/>邻域内的特征向量,记作/>,代表第i个像素的k 2 个最近邻的值;最后,本发明根据注意力得分A i 聚集v i 来捕获第i个像素的局部上下文并对其表征进行重建,得到了,其计算过程表示为:
所述计算过程聚集了目标像素与它的最近邻间的丰富的相关信息,与局部自注意力相比,它捕获了细化的局部上下文。
每个像素与它最近的k 2个像素的成对亲和性的计算及所有像素的重建可以通过unfold操作和张量的矩阵乘法来实现;首先,将x q 变形得到查询张量,此张量有HW个查询,每个查询的大小为1×C;同时在x k 上使用一个内核大小为k*k且步长为1的unfold操作来抽取每个像素周围的k 2个键,并变形得到键张量/>,其中,每个像素的最近邻所对应的键用一个k 2×C的矩阵存储;表示每个像素与它的最近的k 2个像素的成对亲和性的注意力权重张量/>是通过QK T 的矩阵相乘及softmax归一化操作得到的,即:
其中,某一个像素与其邻域内的像素的成对亲和性用一个大小为1×k 2的向量表示;其次,在x v 上使用一个内核大小为k*k且步长为1的unfold操作来提取每个像素的k 2个最近邻所对应的值,并变形得到值张量/>,其中,每个像素的最近邻的值用一个k 2×C的矩阵存储;最后,使用每一个像素的权重向量对它周围的k 2个像素所对应的值进行加权求和,得到所有重建的像素/>,其计算过程表示如下:
计算过程实现了每个像素与其最近邻像素的交互,捕获了丰富的细节信息。
将张量x 重塑为并将其与原始特征图相加,对相加后的特征图执行BNGELU操作得到最终输出特征图F ,其公式化为:
局部细化模块与普通卷积类似,它们都捕获了目标像素关于它的最近邻的上下文。但普通卷积的权重是静态的,缺少适应性。局部细化模块的权重是通过目标像素与它的最近邻的交互产生的,能够充分利用像素间的丰富的相关性信息,它是动态的,能够适应不同空间位置的不同视觉模式;
所述全局强化模块旨在捕获车辆的鉴别性的整体信息,其结构如图3所示,通过对键向量和值向量进行窗口分割来强调窗口内重要的远距离依赖,然后,通过跨窗***互来得到全局上有意义的远距离连接,从而强化全局表示。
设特征图为全局强化模块的输入,其中,C、H、W分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层(FC)得到x的查询矩阵/>
该矩阵的第i表示第i个像素的查询向量;为了将一目标像素处的注意力分数分散到多个窗口内,本发明沿空间维度将x均匀地划分为/>个窗口,其中,hw分别为一个窗口的高度和宽度。对每一个窗口的特征图实施一个变形操作和一个全连接层得到M个窗口的键矩阵/>
其中,第j个窗口的键矩阵为N=h*w为窗口的大小,所有窗口的线性变换操作共享相同的权重;K j 中的每一列为第j个窗口中的一个键向量;
Q i K T j 进行矩阵相乘得到目标像素i与第j个窗口内各像素之间的成对亲和性向量,即
其中,表示矩阵乘法;第j个窗口关于所有目标像素的成对亲和性矩阵,通过QK T j 进行矩阵相乘得到:
其中,R j 中的每一行为一个目标像素与第j个窗口内各像素之间的成对亲和性;然后,本发明在R j 的列方向上执行softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:
j个窗口的注意力矩阵的每一行表示一目标像素与第j个窗口内所有像素的依赖关系;与full self-attention相比,独立计算每个窗口内像素的注意力分数能够强调重要的远距离依赖。
通过计算M个窗口在每个目标像素处的注意力分数,得到M个窗口的注意力矩阵;这M个矩阵同时被计算为:
其中,softmax操作在最后一个维度上执行;为了捕获目标像素的全局上有意义的远程连接,将M个注意力矩阵沿列轴拼接成矩阵并对其执行L1_norm归一化,得到远距离依赖强化的注意力矩阵/>,其计算公式为:
L1_norm从全局感受野聚集了强化的远程连接;与键矩阵的计算类似,本发明对x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到M个窗口的值矩阵
其中,所有窗口的线性变换操作的参数共享;在将M个窗口的值矩阵拼接在一起形成值矩阵后,用矩阵A ''对矩阵V进行加权求和以重建特征的表示:
重建后的特征S捕获的全局上下文加强了一些有意义的关联度不高的远距离依赖;
最后,本发明将矩阵变形为张量/>,并将其与输入特征图相加来计算全局强化模块的输出特征图F ,其计算过程如下:
其中,GELU表示高斯误差线单位,BN表示批量归一化操作;该模块将注意力分散到各个窗口并采用跨窗***互操作构建了强化的全局上下文表示,提升了网络学习车辆整体信息的能力。
所述三个分支均采用全局平均池化操作和降维模块来生成输入的车辆图像的特征表示。对于分支输出的任何一个特征图(子特征图),使用全局平均池化操作得到一个2048维的特征向量,然后,利用一个由1*1卷积、BN和relu激活函数组成的降维模块进一步将其维度压缩到256维。所述256维的特征向量被用于三元组损失的计算,并经过一个输出神经元数量为训练集中的车辆数目的全连接层的转换用于交叉熵损失的计算。将所有分支输出的256维特征向量拼接起来作为测试阶段的输入图像的特征嵌入。
为了防止模型过拟合并提高网络的识别能力,本发明把重识别任务中广泛使用的交叉熵损失和三元组损失作为本发明的损失函数。其中,交叉熵损失用于分类,三元组损失作为训练阶段度量学习的损失函数。
交叉熵损失常用来作为分类问题的损失计算,它主要衡量真实概率分布与预测概率分布之间的差异。为了提高模型的预测效果,本发明尽量降低交叉熵的值。交叉熵常与softmax联合使用,softmax能够将输出结果映射为多个分类的概率分布,使得各分类的预测概率之和为1,而交叉熵则用于计算损失。交叉熵损失的计算公式如下:
其中,N表示的是训练集的车辆数量,y代表输入到网络的图像的真实身份标签,p i 是输入图像属于第i辆车的概率。
三元组损失对于设定的锚点、正样本和负样本三个输入,它的目标是最小化锚点和具有相同身份的正样本之间的距离,最大化锚点和具有不同身份的负样本之间的距离。当两个输入很相似时,它能够对差异较小的两个输入向量学习到更好的表示,以此来很好的对细节进行区分。通过不断学习,最终相同ID的车辆被聚集在特征空间中,从而完成车辆重识别任务。三元组损失的计算方式表达为:
其中,α是控制和/>距离差异的边距超参数,f a (i)f p (i)f n (j)分别是从锚点、正样本、负样本中提取的特征;另外,分别使用maxmin函数获得最硬的正样本对和负样本对,即最远的正样本对和最近的负样本对。
本发明将三个分支的交叉熵损失和三元组损失相加得到最终的损失,总损失公式写为:
其中,N表示分支数。
本发明提出了一个用于车辆重识别的局部细化和全局强化网络,该网络通过局部细化模块和全局强化模块来学习车辆的鉴别性的局部特征和全局特征。其中,局部细化模块通过目标像素与其最近邻的交互来捕获相邻像素间包含的丰富的相关信息,从而细化局部表示。全局强化模块先将目标像素的注意力得分分散到各个窗口中来强调区域内重要的远程依赖,再通过跨窗***互聚集全局上有意义的远程连接,从而学习强化的全局表示。局部细化模块和全局强化模块的相互配合,能够有效提取车辆的鉴别性的局部信息和整体信息。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。

Claims (8)

1.一种用于车辆重识别的局部细化和全局强化网络,其特征在于:将车辆图像作为输入,采用ResNet-50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:GL Branch、GS Branch和LR Branch,并移除三个分支的res_conv5_1残差块的下采样操作;
未使用注意力模块的GL Branch用于学习车辆的整体的概括性信息;
在GS Branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;
在LR Branch的res_conv5层之后应用一个局部细化模块来学习车辆的细化的局部表示;
其中,所述局部细化模块的结构为:
设特征图为该模块的输入,其中,C、H、W分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3C的1*1卷积得到x的查询张量/>、键张量和值张量/>:/>
x中第i个像素的查询为,表示x q 在位置i处的特征向量;第i个像素的/>邻域内的键集合记为/>,表示x k 中与位置i距离最近的k 2个位置的特征向量;
q i k i 的转置进行矩阵乘积计算并执行softmax归一化得到注意力权重向量,其公式如下:
其中,表示矩阵乘法计算;注意力权重向量的第j个元素表示了第i个像素与它的/>邻域内的第j个像素的成对亲和性;然后,从x v 中抽取位置i的/>邻域内的特征向量,记作,代表第i个像素的k 2 个最近邻的值;最后,根据注意力得分A i 聚集v i 来捕获第i个像素的局部上下文并对其表征进行重建,得到/>,其计算过程表示为:
,得到车辆图像的局部细化模块输出特征图;
所述全局强化模块的结构为:
设特征图为全局强化模块的输入,其中,C、H、W分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层得到x的查询矩阵/>
该矩阵的第i表示第i个像素的查询向量;沿空间维度将x均匀地划分为/>个窗口,其中,hw分别为一个窗口的高度和宽度;对每一个窗口的特征图实施一个变形操作和一个全连接层得到M个窗口的键矩阵/>
其中,第j个窗口的键矩阵为N=h*w为窗口的大小,所有窗口的线性变换操作共享相同的权重;K j 中的每一列为第j个窗口中的一个键向量;
Q i K T j 进行矩阵相乘得到目标像素i与第j个窗口内各像素之间的成对亲和性向量,即
其中,表示矩阵乘法;第j个窗口关于所有目标像素的成对亲和性矩阵/>,通过QK T j 进行矩阵相乘得到:
其中,R j 中的每一行为一个目标像素与第j个窗口内各像素之间的成对亲和性;然后,在R j 的列方向上执行softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:
j个窗口的注意力矩阵的每一行表示一目标像素与第j个窗口内所有像素的依赖关系;
通过计算M个窗口在每个目标像素处的注意力分数,得到M个窗口的注意力矩阵;这M个矩阵同时被计算为:
其中,softmax操作在最后一个维度上执行;将M个注意力矩阵沿列轴拼接成矩阵并对其执行L1_norm归一化,得到远距离依赖强化的注意力矩阵/>,其计算公式为:
x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到M个窗口的值矩阵
其中,所有窗口的线性变换操作的参数共享;在将M个窗口的值矩阵拼接在一起形成值矩阵后,用矩阵A ''对矩阵V进行加权求和以重建特征的表示:
最后,将矩阵变形为张量/>,并将其与输入特征图相加来计算全局强化模块的输出特征图F ,其计算过程如下:
其中,GELU表示高斯误差线单位,BN表示批量归一化操作;得到车辆图像的全局强化模块输出特征图。
2.根据权利要求1所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述局部细化模块中,每个像素与它最近的k 2个像素的成对亲和性的计算及所有像素的重建通过unfold操作和张量的矩阵乘法来实现;首先,将x q 变形得到查询张量,此张量有HW个查询,每个查询的大小为1×C;同时在x k 上使用一个内核大小为k*k且步长为1的unfold操作来抽取每个像素周围的k 2个键,并变形得到键张量/>,其中,每个像素的最近邻所对应的键用一个k 2×C的矩阵存储;表示每个像素与它的最近的k 2个像素的成对亲和性的注意力权重张量/>是通过QK T 的矩阵相乘及softmax归一化操作得到的,即:
其中,某一个像素与其邻域内的像素的成对亲和性用一个大小为1×k 2的向量表示;其次,在x v 上使用一个内核大小为k*k且步长为1的unfold操作来提取每个像素的k 2个最近邻所对应的值,并变形得到值张量/>,其中,每个像素的最近邻的值用一个k 2×C的矩阵存储;最后,使用每一个像素的权重向量对它周围的k 2个像素所对应的值进行加权求和,得到所有重建的像素/>,其计算过程表示如下:
将张量x 重塑为并将其与原始特征图相加,对相加后的特征图执行BNGELU操作得到最终输出特征图F ,其公式化为:
3.根据权利要求1或2所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述三个分支均采用全局平均池化操作和降维模块来生成输入的车辆图像的特征表示。
4.根据权利要求3所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:对于分支输出的任何一个特征图,使用全局平均池化操作得到一个2048维的特征向量,然后,利用一个由1*1卷积、BN和relu激活函数组成的降维模块进一步将其维度压缩到256维。
5.根据权利要求4所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述256维的特征向量被用于三元组损失的计算,并经过一个输出神经元数量为训练集中的车辆数目的全连接层的转换用于交叉熵损失的计算。
6.根据权利要求5所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述交叉熵损失计算公式如下:
其中,N表示的是训练集的车辆数量,y代表输入到网络的图像的真实身份标签,p i 是输入图像属于第i辆车的概率。
7.根据权利要求5所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:所述三元组损失计算公式如下:
其中,α是控制和/>距离差异的边距超参数,f a (i)f p (i)f n (j)分别是从锚点、正样本、负样本中提取的特征。
8.根据权利要求5所述的用于车辆重识别的局部细化和全局强化网络,其特征在于:将三个分支的交叉熵损失和三元组损失相加得到最终的损失,总损失计算公式如下:
其中,N表示分支数,L id 表示交叉熵损失,L triplet 表示三元组损失。
CN202310926540.1A 2023-07-27 2023-07-27 一种用于车辆重识别的局部细化和全局强化网络 Active CN116644788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310926540.1A CN116644788B (zh) 2023-07-27 2023-07-27 一种用于车辆重识别的局部细化和全局强化网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310926540.1A CN116644788B (zh) 2023-07-27 2023-07-27 一种用于车辆重识别的局部细化和全局强化网络

Publications (2)

Publication Number Publication Date
CN116644788A CN116644788A (zh) 2023-08-25
CN116644788B true CN116644788B (zh) 2023-10-03

Family

ID=87640396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310926540.1A Active CN116644788B (zh) 2023-07-27 2023-07-27 一种用于车辆重识别的局部细化和全局强化网络

Country Status (1)

Country Link
CN (1) CN116644788B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018050259A (ja) * 2016-09-23 2018-03-29 富士通株式会社 ノイズ削減装置、ノイズ削減方法及びノイズ削減プログラム
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法
WO2020257812A2 (en) * 2020-09-16 2020-12-24 Google Llc Modeling dependencies with global self-attention neural networks
CN112766353A (zh) * 2021-01-13 2021-05-07 南京信息工程大学 一种加强局部注意的双分支车辆再识别方法
CN113408492A (zh) * 2021-07-23 2021-09-17 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法
CN114119975A (zh) * 2021-11-25 2022-03-01 中国人民公安大学 一种语言引导的跨模态实例分割方法
CN114821249A (zh) * 2022-07-04 2022-07-29 山东交通学院 一种基于分组聚合注意力和局部关系的车辆重识别方法
CA3166088A1 (en) * 2021-06-29 2022-12-29 10353744 Canada Ltd. Training method and pedestrian re-identification method of multi-task classification network
DE102022128465A1 (de) * 2021-11-05 2023-05-11 Nvidia Corporation Neuartiges verfahren zum training eines neuronalen netzes

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10290085B2 (en) * 2016-12-14 2019-05-14 Adobe Inc. Image hole filling that accounts for global structure and local texture
US20220415027A1 (en) * 2021-06-29 2022-12-29 Shandong Jianzhu University Method for re-recognizing object image based on multi-feature information capture and correlation analysis

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018050259A (ja) * 2016-09-23 2018-03-29 富士通株式会社 ノイズ削減装置、ノイズ削減方法及びノイズ削減プログラム
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法
WO2020257812A2 (en) * 2020-09-16 2020-12-24 Google Llc Modeling dependencies with global self-attention neural networks
CN112766353A (zh) * 2021-01-13 2021-05-07 南京信息工程大学 一种加强局部注意的双分支车辆再识别方法
CA3166088A1 (en) * 2021-06-29 2022-12-29 10353744 Canada Ltd. Training method and pedestrian re-identification method of multi-task classification network
CN113408492A (zh) * 2021-07-23 2021-09-17 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法
DE102022128465A1 (de) * 2021-11-05 2023-05-11 Nvidia Corporation Neuartiges verfahren zum training eines neuronalen netzes
CN114119975A (zh) * 2021-11-25 2022-03-01 中国人民公安大学 一种语言引导的跨模态实例分割方法
CN114821249A (zh) * 2022-07-04 2022-07-29 山东交通学院 一种基于分组聚合注意力和局部关系的车辆重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Vehicle Re-Identification Based on Global Relational Attention and Multi-Granularity Feature Learning;Xin Tian;《IEEE Access》;全文 *
医学影像疾病诊断的残差神经网络优化算法研究进展;周涛;霍兵强;陆惠玲;师宏斌;;中国图象图形学报(第10期);全文 *
周涛 ; 霍兵强 ; 陆惠玲 ; 师宏斌 ; .医学影像疾病诊断的残差神经网络优化算法研究进展.中国图象图形学报.2020,(第10期),全文. *

Also Published As

Publication number Publication date
CN116644788A (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN112307958B (zh) 基于时空外观运动注意力网络的微表情识别方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN111274869B (zh) 基于并行注意力机制残差网进行高光谱图像分类的方法
CN111582044B (zh) 基于卷积神经网络和注意力模型的人脸识别方法
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
Özkanoğlu et al. InfraGAN: A GAN architecture to transfer visible images to infrared domain
Tursun et al. MTRNet++: One-stage mask-based scene text eraser
CN109242097B (zh) 无监督学习的视觉表示学习***及方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN114638768B (zh) 一种基于动态关联学习网络的图像去雨方法、***及设备
CN116863194A (zh) 一种足溃疡图像分类方法、***、设备及介质
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
Gao et al. MLTDNet: an efficient multi-level transformer network for single image deraining
CN113962905A (zh) 基于多阶段特征互补网络的单幅图像去雨方法
CN116644788B (zh) 一种用于车辆重识别的局部细化和全局强化网络
Yu et al. MagConv: Mask-guided convolution for image inpainting
Zia et al. Text-to-image generation with attention based recurrent neural networks
Xie et al. Global semantic-guided network for saliency prediction
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
CN116630637A (zh) 基于多模态对比学习的光学-sar图像联合解译方法
Zhu et al. Micro-expression recognition convolutional network based on dual-stream temporal-domain information interaction
CN112884022B (zh) 一种基于图像平移的无监督深度表征学习方法及***
CN117523626A (zh) 伪rgb-d人脸识别法
CN112529081B (zh) 基于高效注意力校准的实时语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant