CN115631513B - 基于Transformer的多尺度行人重识别方法 - Google Patents
基于Transformer的多尺度行人重识别方法 Download PDFInfo
- Publication number
- CN115631513B CN115631513B CN202211404764.8A CN202211404764A CN115631513B CN 115631513 B CN115631513 B CN 115631513B CN 202211404764 A CN202211404764 A CN 202211404764A CN 115631513 B CN115631513 B CN 115631513B
- Authority
- CN
- China
- Prior art keywords
- feature
- scale
- pedestrian
- features
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims 2
- 238000005065 mining Methods 0.000 abstract description 2
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于Transformer的多尺度行人重识别方法。本发明提出了一种基于多尺度行人特征提取和Transformer的行人重识别网络。首先,我们设计了一个多尺度特征级联模块,旨在挖掘行人不同深度,不同尺度下的细节特征信息,从而获得更强壮的特征表达。其次,构建了基于transformer的特征提取,从全局范围学习行人特征。最后将Transformer输出的特征进行聚合,以获得更好的行人特征表达,从而提升模型的辨别能力。结果表明,这种方法具有更好的鲁棒性和自适应能力,有效的增强了模型的泛化能力。
Description
技术领域
本文发明涉及行人重识别技术,具体来讲是一种基于Transformer的多尺度行人重识别方法,属于计算机视觉领域。
背景技术
行人重识别旨在对不同摄像头捕获的行人图像进行关联,实现跨摄像头跨场景下的行人识别与检索,被广泛应用于智能监控领域。近年来,基于深度卷积网络的行人重识别方法取得了优秀的成果,但CNN受限于每次只能处理相邻特征并且在下采样等过程中容易丢失行人的细粒度特征,造成识别率的下降。同时,Transformer展现出对空间和序列数据的优秀建模能力。与CNN相比,Transformer移去了下采样操作,能保留更多的细粒度特征。
大多数基于Transformer的行人重识别方法,通常将整张图片分割后作为图片序列送入Transformer网络,然后使用全局token作为行人特征。然而,采用直接分割图片的方式既忽略了部分结构信息,也使得transformer网络收敛速度慢;将单一尺度的行人特征划分为特征序列后作为transformer网络的输入,忽略了行人特征的多尺度表达;在网络输出部分,丰富的行人局部特征仍未得到充分利用,而这部分特征提供了对行人重识别至关重要的细粒度信息。
基于上述,本发明提出了一种基于Transformer的多尺度行人重识别方法,利用多个尺度的图像特征所包含的丰富信息来优化对行人图像的特征提取。
发明内容
本发明的目的是针对现有技术的不足,提出了一种基于Transformer的多尺度行人重识别方法。通过构建特征级联模块,在保留行人低维度细节特征的同时引入高维特征的支持,并获得多个尺度的行人特征,缓解了Transformer网络对于大训练数据集的要求,能够帮助模型快速收敛并提升性能。同时,本方法将多个尺度的行人特征划分后构建多尺度特征序列并为其加上代表不同尺度的编码信息后输入同一个Transformer网络,引导模型关注输入的不同尺度下的行人信息。其次,构建局部特征多尺度融合模块,充分利用网络输出的多尺度行人细粒度局部特征,为每一个行人构建多尺度特征组,引导模型从局部到全局、浅层到深层挖掘更健壮的行人特征表达。
本发明解决其技术问题所采用的技术方案如下:
步骤(1)在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
步骤(2)将(1)中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学***,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;
步骤(3)构建基于标准Transformer的行人特征提取网络,将(2)中获得的特征子图向量输入网络,获得行人特征;
步骤(4)构建局部特征多尺度融合模块,将步骤(3)得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;
步骤(5)使用步骤(4)中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型
进一步的,所述步骤(1)具体实现过程如下:
1-1采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
1-2从ResNet50中获得1-1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息。首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍。然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
Fsc=Contact(UpSample(Fs),Fb) (1)
Fagg=conv1×1(Fsc) (2)
其中Fs,Fb表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,Fagg为获得的融合特征。
进一步的,所述步骤(2)具体实现过程如下:
2-1对于获得的融合特征Fagg,按照子特征图大小ps进行分割,生成特征图序列N为可分割的数量,再对xP加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与xP相同,如公式(3)所示:
综上对1-2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(4)所示;
进一步的,所述步骤(3)具体实现过程如下:
3-1为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型。模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制(MSA)、层归一化(LN)和多层感知器(MLP)构成,单个Transformer块可公式化为(5)(6):
Z′l=MSA(LN(Zl-1))+Zl-1 l=1…L (5)
Zl=MLP(LN(Z′l))+Z′l l=1…L (6)
其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数。对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络输出结果即为最后一层的输出特征。
进一步的,所述步骤(4)具体实现过程如下:
4-1获得Transformer模型输出特征ZL后,将特征ZL切分即可得到四组特征向量,即全局特征fcls和三个不同尺度的特征fscale_1、fscale_2、fscale_3。将不同尺度的特征进行双线性插值,再通过1*1卷积进行特征融合得到最终的局部特征ffinal。之后按照行人结构,可将ffinal划分为4个局部特征f1、f2、f3、f4。
进一步的,所述步骤(5)具体实现过程下:
5-1使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络。ID损失采用交叉熵损失训练网络,其公式如下:
其中N为行人类别数,qi是监督标签,pi是预测标签;
困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的mini batch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:
5-2根据步骤(4)中提取的特征,ReID模型的整体损失函数利用全局特征和局部特征计算Lid和Ltriplet来训练网络,具体可公式化为如下:
其中,k表示输出特征组数量;
5-3当模型稳定后,得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。
本发明有益效果如下:
本发明设计了一个基于Transformer的多尺度行人重识别方法,通过基于ResNet特征级联模块采集不同尺度下的行人特征,不丢失低维度细节特征并引入高维度语义特征,这有利于模型从中学习更加健壮的行人特征,同时多尺度信息能够引导模型关注不同尺度下的行人特征,该模型从全局到局部,从浅层到深层挖掘行人潜在信息。其次,为充分利用行人细粒度局部特征,本发明设计了一个局部特征多尺度融合模块,将网络输出的各个尺度信息进行融合并切分,使得模型关注于行人不同部分、不同尺度下的特征信息。结果表明,这种方法提取的特征具有更好的鲁棒性,有效的提升了模型的泛化能力。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的基于ResNet50特征级联模块示意图;
图3是本发明的特征分割处理示意图;
图4是本发明的Transformer网络示意图;
图5是本发明的多尺度局部特征融合模块示意图;
图6是本发明的整体结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,本发明通过构建基于ResNet特征级联模块提取图像不同尺度的特征并两两级联,在保留细节特征的同时获得上层特征的支撑,并为每个patches加入[SCALE_TOKEN],用于在transformer网络中指示不同尺度的特征信息。此外,充分利用网络的多尺度局部特征,挖掘不同部分、不同尺度下的行人之间潜在的信息,有效增强了模型的泛化能力。如图6所示的本发明包括以下步骤:
步骤(1)如图2所示,在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
步骤(2)如图3所示,将(1)中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学***,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;
步骤(3)如图4所示,构建基于标准Transformer的行人特征提取网络,将(2)中获得的特征子图向量输入网络,获得行人特征;
步骤(4)如图5所示,将步骤(3)得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征进行融合并重新切分得到最终特征;
步骤(5)使用步骤(4)中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型
进一步的,所述步骤(1)具体实现过程如下:
1-1采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
1-2从ResNet50中获得1-1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息。首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍。然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
Fsc=Contact(UpSample(Fs),Fb) (1)
Fagg=conv1×1(Fsc) (2)
其中Fs,Fb表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,Fagg为获得的融合特征。
进一步的,所述步骤(2)具体实现过程如下:
2-1对于获得的融合特征Fagg,按照子特征图大小ps进行分割,生成特征图序列N为可分割的数量,再对xP加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与xP相同,如公式(3)所示:
综上对1-2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(4)所示;
进一步的,所述步骤(3)具体实现过程如下:
3-1为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型。模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制(MSA)、层归一化(LN)和多层感知器(MLP)构成,单个Transformer块可公式化为(5)(6):
Z′l=MSA(LN(Zl-1))+Zl-1 l=1…L (5)
Zl=MLP(LN(Z′l))+Z′l l=1…L (6)
其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数。对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络输出结果即为最后一层的输出特征。
进一步的,所述步骤(4)具体实现过程如下:
4-1获得Transformer模型输出特征ZL后,将特征ZL切分即可得到四组特征向量,即全局特征fcls和三个不同尺度的特征fscale_1、fscale_2、fscale_3。将不同尺度的特征进行双线性插值,再通过1*1卷积进行特征融合得到最终的局部特征ffinal。之后按照行人结构,可将ffinal划分为4个局部特征f1、f2、f3、f4。
进一步的,所述步骤(5)具体实现过程下:
5-1使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络。ID损失采用交叉熵损失训练网络,其公式如下:
其中N为行人类别数,qi是监督标签,pi是预测标签;
困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的mini batch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:
5-2根据步骤(4)中提取的特征,ReID模型的整体损失函数利用全局特征和局部特征计算Lid和Ltriplet来训练网络,具体可公式化为如下:
其中,k表示输出特征组数量;
5-3当模型稳定后,得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。
Claims (4)
1.一种基于Transformer的多尺度行人重识别方法,其特征在于包括以下步骤:
步骤一,在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
步骤二,将步骤一中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学***,再加上表示位置的POS_TOKEN和全局特征CLS_TOKEN,作为transformer的输入;
步骤三,构建基于标准Transformer的行人特征提取网络,将步骤二中获得的特征子图向量输入网络,获得行人特征;
步骤四,将步骤三得到特征进行切分,将CLS_TOKEN向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;步骤4-1,获得Transformer模型输出特征ZL后,将特征ZL切分即可得到四组特征向量,即全局特征fcls和三个不同尺度的特征fscale_1、fscale_2、fscale_3;将不同尺度的特征进行双线性插值,再通过1*1卷积进行特征融合得到最终的局部特征ffinal;之后按照行人结构,可将ffinal划分为4个局部特征f1、f2、f3、f4;
步骤五,使用步骤四中得到的CLS_TOKEN向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型;
步骤5-1,使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络;ID损失采用交叉熵损失训练网络,其公式如下:
其中N为行人类别数,qi是监督标签,pi是预测标签;
困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的mini batch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:
步骤5-2,根据步骤四中提取的特征,ReID模型的整体损失函数利用全局特征和局部特征计算Lid和Ltriplet来训练网络,具体可公式化为如下:
其中,k表示输出特征组数量;
步骤5-3,当模型稳定后,得到最终ReID模型,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片;
步骤六,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。
2.根据权利要求1所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤一,包括以下子步骤:
步骤1-1,采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
步骤1-2,从ResNet50中获得步骤1-1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息;
首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍;然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
Fsc=Contact(UpSample(Fs),Fb) (1)
Fagg=conv1×1(Fsc) (2)
其中Fs,Fb表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,Fagg为获得的融合特征。
3.根据权利要求2所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤二,包括以下子步骤:
步骤2-1,对于获得的融合特征Fagg,按照子特征图大小ps进行分割,生成特征图序列N为可分割的数量,再对xP加上一个可学习的SCALE_TOKEN,SCALE_TOKEN的维度大小与xP相同,如公式(3)所示:
综上对步骤1-2中获得的三个尺度的特征处理后加上CLS_TOKEN和POS_TOKEN可得到特征Z,如公式(9)所示;
4.根据权利要求3所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤三,包括以下子步骤:
步骤3-1,为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型;
模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制MSA、层归一化LN和多层感知器MLP构成,单个Transformer块可公式化为(4)(5):
Z′l=MSA(LN(Zl-1))+Zl-1 l=1…L (4)
Zl=MLP(LN(Z′l))+Z′l l=1…L (5)
其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数;对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络输出结果即为最后一层的输出特征。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211404764.8A CN115631513B (zh) | 2022-11-10 | 2022-11-10 | 基于Transformer的多尺度行人重识别方法 |
US18/493,635 US20240161531A1 (en) | 2022-11-10 | 2023-10-24 | Transformer-based multi-scale pedestrian re-identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211404764.8A CN115631513B (zh) | 2022-11-10 | 2022-11-10 | 基于Transformer的多尺度行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631513A CN115631513A (zh) | 2023-01-20 |
CN115631513B true CN115631513B (zh) | 2023-07-11 |
Family
ID=84907715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211404764.8A Active CN115631513B (zh) | 2022-11-10 | 2022-11-10 | 基于Transformer的多尺度行人重识别方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240161531A1 (zh) |
CN (1) | CN115631513B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423132B (zh) * | 2023-10-26 | 2024-07-09 | 山东海润数聚科技有限公司 | 一种无监督行人重识别方法、设备及介质 |
CN117635973B (zh) * | 2023-12-06 | 2024-05-10 | 南京信息工程大学 | 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114202740A (zh) * | 2021-12-07 | 2022-03-18 | 大连理工大学宁波研究院 | 一种基于多尺度特征融合的行人重识别方法 |
CN114973317A (zh) * | 2022-05-13 | 2022-08-30 | 杭州像素元科技有限公司 | 一种基于多尺度邻接交互特征的行人重识别方法 |
CN115063833A (zh) * | 2022-05-16 | 2022-09-16 | 国网冀北电力有限公司信息通信分公司 | 一种基于图像分层视觉的机房人员检测方法 |
CN115147284A (zh) * | 2022-08-03 | 2022-10-04 | 中国工商银行股份有限公司 | 视频处理方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138469B2 (en) * | 2019-01-15 | 2021-10-05 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN112906623A (zh) * | 2021-03-11 | 2021-06-04 | 同济大学 | 一种基于多尺度深度监督的反向注意力模型 |
US20220012848A1 (en) * | 2021-09-25 | 2022-01-13 | Intel Corporation | Methods and apparatus to perform dense prediction using transformer blocks |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
-
2022
- 2022-11-10 CN CN202211404764.8A patent/CN115631513B/zh active Active
-
2023
- 2023-10-24 US US18/493,635 patent/US20240161531A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114202740A (zh) * | 2021-12-07 | 2022-03-18 | 大连理工大学宁波研究院 | 一种基于多尺度特征融合的行人重识别方法 |
CN114973317A (zh) * | 2022-05-13 | 2022-08-30 | 杭州像素元科技有限公司 | 一种基于多尺度邻接交互特征的行人重识别方法 |
CN115063833A (zh) * | 2022-05-16 | 2022-09-16 | 国网冀北电力有限公司信息通信分公司 | 一种基于图像分层视觉的机房人员检测方法 |
CN115147284A (zh) * | 2022-08-03 | 2022-10-04 | 中国工商银行股份有限公司 | 视频处理方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
"TransReID: Transformer-based Object Re-Identification";Shuting He 等;《arXiv》;第1-13页 * |
"基于TransReID的行人重识别方法";王晓 等;《电子制作》;第432卷(第22期);第57-59页 * |
Also Published As
Publication number | Publication date |
---|---|
US20240161531A1 (en) | 2024-05-16 |
CN115631513A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469094B (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN109543745B (zh) | 基于条件对抗自编码网络的特征学习方法及图像识别方法 | |
CN115631513B (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN109087258B (zh) | 一种基于深度学习的图像去雨方法及装置 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN114092964A (zh) | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 | |
CN115082675B (zh) | 一种透明物体图像分割方法及*** | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN117237559B (zh) | 面向数字孪生城市的三维模型数据智能分析方法及*** | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN115775316A (zh) | 基于多尺度注意力机制的图像语义分割方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN114359902B (zh) | 基于多尺度特征融合的三维点云语义分割方法 | |
CN117726954B (zh) | 一种遥感图像海陆分割方法及*** | |
CN114168773A (zh) | 一种基于伪标签和重排序的半监督草图图像检索方法 | |
CN113793267A (zh) | 基于跨维度注意力机制的自监督单遥感图像超分辨率方法 | |
CN112861911A (zh) | 一种基于深度特征选择融合的rgb-d语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |