CN116246305A - 一种基于混合部件变换网络的行人检索方法 - Google Patents

一种基于混合部件变换网络的行人检索方法 Download PDF

Info

Publication number
CN116246305A
CN116246305A CN202310081039.XA CN202310081039A CN116246305A CN 116246305 A CN116246305 A CN 116246305A CN 202310081039 A CN202310081039 A CN 202310081039A CN 116246305 A CN116246305 A CN 116246305A
Authority
CN
China
Prior art keywords
pedestrian
component
training
image
stripe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310081039.XA
Other languages
English (en)
Inventor
张重
贺迪
刘爽
范晓婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Normal University
Original Assignee
Tianjin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Normal University filed Critical Tianjin Normal University
Priority to CN202310081039.XA priority Critical patent/CN116246305A/zh
Publication of CN116246305A publication Critical patent/CN116246305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合部件变换网络的行人检索方法。该方法包括:构建行人检索模型;对于训练行人图像进行分割,得到训练行人图像的条纹部件和序列块;将序列块输入行人检索模型中,得到训练行人图像的条纹部件特征和完整特征;计算条纹部件特征的部件掩码,并进行筛选,保留部分序列块;利用保留下来的序列块对应的条纹部件特征和完整特征计算损失值,并对行人检索模型进行优化;利用最优行人检索模型提取查询图像和行人库图像的最终特征,借助查询图像和行人库图像之间的相似度得到行人检索结果。本发明充分利用混合部件变换网络的优势,学习行人图像的完整部件信息,进一步提高了行人检索的正确率。

Description

一种基于混合部件变换网络的行人检索方法
技术领域
本发明属于计算机视觉、模式识别、人工智能领域,具体涉及一种基于混合部件变换网络的行人检索方法。
背景技术
近年来,行人检索广泛应用于人体行为分析,多目标识别等领域,因此受到了学术界和工业界的广泛关注。行人检索主要研究在多个不同摄像机下查询相同行人的方法。然而真实场景中获取的行人图像存在许多难点因素,如:姿态、衣着、光照以及摄像机角度等,这使得行人检索技术面临着巨大的挑战。
近几年,行人图像的部件信息在行人检索中被证明是有效的,然而在使用变换网络学习长距离依赖时部件之间的交互经常被忽视。He等人提出了一种纯变换网络,通过使用辅助信息嵌入和补丁块令牌重排模块去学习判别性特征。此外,一些研究者结合卷积神经网络和变换网络用于行人检索。Liao等人通过结合卷积神经网络设计了一种编码-解码变换网络,进而考虑行人图像间的注意力。Zhang等人提出了层级聚合变换网络,通过嵌入变换网络进入卷积神经网络去学习多尺度行人特征。Li等人提出部件感知变换网络,通过结合卷积神经网络从语义信息角度学习鲁棒的部件多样性特征。Wang等人首先利用卷积神经网络学习行人的姿势信息,然后通过变换网络解耦行人图像的语义信息。Wang等人提出邻域变换网络,明确建模图像间的交互从而提高行人检索的性能。
不同于上述方法,本发明提出变换网络模型和部件全局变换网络模型来学习完整的部件交互的混合部件变换网络用于行人检索。此外,本发明还提出了序列块筛选步骤,通过保留具有更多信息的序列块来提高行人特征的判别性。
发明内容
本发明的目的是要设计一种适合学习行人图像完整的部件交互的变换网络,为此,本发明提供一种基于混合部件变换网络的行人检索方法。
为了实现所述目的,本发明提出的一种基于混合部件变换网络的行人检索方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建行人检索模型,其中,所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型;
步骤S2,对于训练行人图像进行分割,得到所述训练行人图像的条纹部件,以及所述条纹部件的序列块;
步骤S3,将所述训练行人图像条纹部件的序列块输入所述行人检索模型中,得到所述训练行人图像的条纹部件特征,以及所述训练行人图像的完整特征;
步骤S4,利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵的注意力权重和预设阈值计算所述条纹部件特征的部件掩码,并根据所述部件掩码对于所述序列块进行筛选,保留部分序列块;
步骤S5,构建损失计算模块,将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中,利用得到的损失值对于所述行人检索模型进行优化,得到最优行人检索模型;
步骤S6,在测试阶段,利用所述最优行人检索模型提取查询图像和行人库图像的最终特征,并基于所述最终特征计算所述查询图像和行人库图像之间的相似度,得到行人检索结果。
可选地,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型,得到行人检索模型;
步骤S12,对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
可选地,所述步骤S2包括以下步骤:
步骤S21,对训练集中的N个训练行人图像进行预处理;
步骤S22,对于预处理后的训练行人图像进行水平分割,得到训练行人图像的条纹部件;
步骤S23,对于所述条纹部件进行序列化,得到条纹部件的多个序列块。
可选地,所述步骤S3包括以下步骤:
步骤S31,将单个训练行人图像条纹部件的序列块输入所述行人检索模型,所述变换网络模型最后一个变换层的输出即为所述训练行人图像的条纹部件特征;
步骤S32,对于所述部件全局变换网络模型最后一个部件全局变换层的输出进行最大池化聚合,得到所述训练行人图像的完整特征。
可选地,所述步骤S31中,在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌
Figure BDA0004067487570000031
进行多头自注意力学习,其中,类令牌是一个用于学习得到条纹部件特征的特征向量。
可选地,所述步骤S4包括以下步骤:
步骤S41,基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重;
步骤S42,利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重和预先设定的阈值,计算得到所述条纹部件特征的部件掩码;
步骤S43,保留部件掩码值为1的序列块。
可选地,所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块。
可选地,所述步骤S5包括以下步骤:
步骤S51,构建损失计算模块,并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征的交叉熵损失和三元组损失;
步骤S52,对计算得到的损失相加求和,得到总损失值,利用所述总损失值对所述行人检索模型进行参数优化,得到最优行人检索模型。
可选地,所述步骤S6中,所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征。
可选地,所述步骤S6中,利用余弦距离计算所述查询图像和行人库图像之间的相似度。
本发明的有益效果为:本发明提出通过本发明设计的部件变换层来学习完整的部件交互的混合部件变换网络用于行人检索,充分利用混合部件变换网络的优势,学习行人图像的完整部件信息。此外,本发明还设计了序列块筛选步骤,通过保留具有更多信息的序列块来提高行人特征的判别性,从而使得本发明方案有效提高了行人检索的正确率。
需要说明的是,本发明得到了国家自然科学基金项目No.62171321,天津市自然科学基金重点项目No.20JCZDJC00180、天津市教委科研计划项目No.2022KJ011、天津市应用基础研究项目(基于深度保持的立体图像拼接技术研究)和天津师范大学研究生科研创新重点项目No.2022KYCX032Z资助。
附图说明
图1是根据本发明一实施例的一种基于混合部件变换网络的行人检索方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例的一种基于混合部件变换网络的行人检索方法的流程图,下面以图1为例来说明本发明的一些具体实现流程,如图1所示,所述基于混合部件变换网络的行人检索方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建行人检索模型,其中,所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型;
进一步地,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型,得到行人检索模型;
在本发明一实施例中,所述预训练深度学习模型可采用在数据集ImageNet-21K上预训练并在数据集ImageNet-1K上微调好的ViT,或者在数据集ImageNet-1K上预训练好的DeiT。
在本发明一实施例中,所述变换网络模型的结构与所述预训练深度学习模型的结构相同,即所述变换网络模型包含L个变换层。所述部件全局变换网络模型亦包含L个部件全局变换层。将所述变换网络模型和部件全局变换网络模型级联起来,即可得到所述行人检索模型,其中,所述变换网络模型的L个变换层依次级联,所述部件全局变换网络模型的L个部件全局变换层依次级联,另外,所述变换网络模型的L个变换层与所述部件全局变换网络模型的L个部件全局变换层还对应连接,即,所述变换网络模型的L个变换层中除第一层,每个变换层的输入均为上一变换层的输出,而所述部件全局变换网络模型的L个部件全局变换层中,除第一层部件全局变换层的输入为变换网络模型第一层变换层的输出外,后续每个部件全局变换层的输入不仅包括上一部件全局变换层的输出,还包括变换网络模型中相应变换层的输出。
步骤S12,对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
在本发明一实施例中,可利用所述预训练深度学习模型的参数对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
步骤S2,对于训练行人图像进行分割,得到所述训练行人图像的条纹部件,以及所述条纹部件的序列块;
进一步地,所述步骤S2包括以下步骤:
步骤S21,对训练集中的N个训练行人图像进行预处理;
在本发明一实施例中,对所述训练行人图像进行预处理包括:将所述训练行人图像的大小裁剪为预设大小,比如256×128,并把所述训练行人图像所有的像素值按比例缩小至预设范围内,比如0到1之间,然后将所述训练行人图像中的每个像素值减去相应训练行人图像的像素平均值,再除以所述训练行人图像的像素方差。
步骤S22,对于预处理后的训练行人图像进行水平分割,得到训练行人图像的条纹部件,其中,每个训练行人图像可得到S个条纹部件,这样N个训练行人图像就可得到(N×S)个条纹部件;
在本发明一实施例中,对每个训练行人图像
Figure BDA0004067487570000061
进行水平分割,即在高度方向上进行分割,其中,H、W、C分别为训练行人图像的高度、宽度和通道数量,分割得到的子图像即为所述训练行人图像的条纹部件。
步骤S23,对于所述条纹部件进行序列化,得到条纹部件的多个序列块,其中,第p个条纹部件的第i个序列块可表示为:
Figure BDA0004067487570000062
Figure BDA0004067487570000071
其中,K×K为序列块的大小,M为每个条纹部件内序列块的数量,S是每个训练行人图像中条纹部件的数量。
在本发明一实施例中,H=128,W=256,C=3,S=2,N=64,K=16。
步骤S3,将所述训练行人图像条纹部件的序列块输入所述行人检索模型中,得到所述训练行人图像的条纹部件特征,以及所述训练行人图像的完整特征;
进一步地,所述步骤S3包括以下步骤:
步骤S31,将单个训练行人图像条纹部件的序列块输入所述行人检索模型,所述变换网络模型最后一个变换层,即第L个变换层的输出即为所述训练行人图像的条纹部件特征;
进一步地,还可在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌
Figure BDA0004067487570000072
进行多头自注意力学习,其中,类令牌是一个用于学习得到条纹部件特征的特征向量,这样所述条纹部件特征就可表示为:/>
Figure BDA0004067487570000073
其中,D为所述类令牌的大小。
步骤S32,对于所述部件全局变换网络模型最后一个部件全局变换层,即第L个部件全局变换层的输出进行最大池化聚合,得到所述训练行人图像的完整特征,可表示为:
Figure BDA0004067487570000074
在本发明一实施例中,所述部件全局变换网络模型第l个部件全局变换层的输出
Figure BDA0004067487570000075
可利用下式来计算:
Figure BDA0004067487570000076
Figure BDA0004067487570000077
其中,
Figure BDA0004067487570000078
是基于多头交叉注意力(MCA)、多层感知机(MLP)和层归一化(LN)实现的函数,/>
Figure BDA0004067487570000079
由所述变换网络模型的第l-1个变换层的输出聚合得到,其中,Q是单个训练行人图像中所有序列块的数量,/>
Figure BDA00040674875700000710
是基于多头交叉注意力(MCA)和层归一化(LN)实现的函数,条纹部件特征/>
Figure BDA0004067487570000081
Figure BDA0004067487570000082
串联得到
此外,可利用下式计算所述部件全局变换网络模型第l个部件全局变换层的多头交叉注意力值(MCA):
Figure BDA0004067487570000083
Figure BDA0004067487570000084
Figure BDA0004067487570000085
其中,a表示Tl-1或者Yl-1,b表示Gl-1或者Cl-1,cat2表示按行串联,
Figure BDA0004067487570000086
Figure BDA0004067487570000087
表示线性投影,/>
Figure BDA0004067487570000088
和/>
Figure BDA0004067487570000089
分别表示三个线性投影参数,H是多头自注意力机制中头的数量,h表示H头中的第h个头,d=D/H,/>
Figure BDA00040674875700000810
表示所述部件全局变换网络模型中的亲和力矩阵。
在本发明一实施例中,B=128,D=768,H=12。
步骤S4,利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵(affinity matrix)的注意力权重和预设阈值计算所述条纹部件特征的部件掩码,并根据所述部件掩码对于所述序列块进行筛选,保留部分序列块;
进一步地,所述步骤S4包括以下步骤:
步骤S41,基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重
Figure BDA00040674875700000811
在本发明一实施例中,利用下式计算所述训练行人图像中每个条纹部件内序列块的注意力权重
Figure BDA00040674875700000812
Figure BDA00040674875700000813
其中,H是多头自注意力机制中头的数量,
Figure BDA0004067487570000091
表示第j个部件全局变换层中第h个头的亲和力矩阵的第p行的注意力权重,M是每个条纹部件内所有序列块的数量,p=1,2,…,S,l=2,…,L,((p-1)·M+1):p·M表示从(p-1)·M+1)至p·M。/>
步骤S42,利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重
Figure BDA0004067487570000092
和预先设定的阈值,计算得到所述条纹部件特征的部件掩码/>
Figure BDA0004067487570000093
在本发明一实施例中,可利用下式计算所述条纹部件特征的部件掩码
Figure BDA0004067487570000094
Figure BDA0004067487570000095
其中,i=1,2,…,M,τ是预设阈值,以保留每个条纹部件特征中信息多的序列块。
在本发明一实施例中,τ=0.3。
步骤S43,保留部件掩码值为1的序列块。
步骤S5,构建损失计算模块,将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中,利用得到的损失值对于所述行人检索模型进行优化,得到最优行人检索模型;
进一步地,所述步骤S5包括以下步骤:
步骤S51,构建损失计算模块,并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征
Figure BDA0004067487570000096
的交叉熵损失和三元组损失;
其中,所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块,其中,给定真值标签qj和预测值pj,所述交叉熵损失计算模块可利用下式计算交叉熵损失:
Figure BDA0004067487570000101
其中,N为j的最大取值。
给定三元组集{a,p,n},所述三元组损失计算模块可利用下式计算三元组损失:
Figure BDA0004067487570000102
其中,fa表示输入样本,即条纹部件特征或者完整特征,fp表示输入样本的正样本,fn表示输入样本的负样本。
步骤S52,对计算得到的损失相加求和,得到总损失值Loss,利用所述总损失值对所述行人检索模型进行参数优化,得到最优行人检索模型。
在本发明一实施例中,所述总损失函数Loss可表示为:
Figure BDA0004067487570000103
其中,
Figure BDA0004067487570000104
和/>
Figure BDA0004067487570000105
分别表示所述训练行人图像的完整特征的交叉熵损失和三元组损失,/>
Figure BDA0004067487570000106
和/>
Figure BDA0004067487570000107
分别表示所述训练行人图像的第p个条纹部件的序列块的交叉熵损失和三元组损失。
在本发明一实施例中,所述步骤S52中,所述行人检索模型的参数更新计算过程可表示为:
Figure BDA0004067487570000108
其中,θs:是行人检索模型更新后的模型参数,θs是行人检索模型更新前的模型参数,σ是学习率。
在本发明一实施例中,可采用基于随机梯度下降法(SGD)和余弦衰减策略的优化器对于所述行人检索模型进行优化,学习率σ=0.01。
步骤S6,在测试阶段,利用所述最优行人检索模型提取查询图像和行人库图像的最终特征,其中,所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征,并基于所述最终特征计算所述查询图像和行人库图像之间的相似度,得到行人检索结果。
在本发明一实施例中,基于所述最终特征,利用余弦距离计算所述查询图像和行人库图像之间的相似度,其中,所述行人库图像指的是已知行人识别结果的图像。
所述查询图像和行人库图像之间的相似度可表示为:
Figure BDA0004067487570000111
其中,Cqg指的是所述查询图像最终特征Iq和行人库图像最终特征Ig之间的余弦相似性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种基于混合部件变换网络的行人检索方法,其特征在于,所述方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建行人检索模型,其中,所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型;
步骤S2,对于训练行人图像进行分割,得到所述训练行人图像的条纹部件,以及所述条纹部件的序列块;
步骤S3,将所述训练行人图像条纹部件的序列块输入所述行人检索模型中,得到所述训练行人图像的条纹部件特征,以及所述训练行人图像的完整特征;
步骤S4,利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵的注意力权重和预设阈值计算所述条纹部件特征的部件掩码,并根据所述部件掩码对于所述序列块进行筛选,保留部分序列块;
步骤S5,构建损失计算模块,将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中,利用得到的损失值对于所述行人检索模型进行优化,得到最优行人检索模型;
步骤S6,在测试阶段,利用所述最优行人检索模型提取查询图像和行人库图像的最终特征,并基于所述最终特征计算所述查询图像和行人库图像之间的相似度,得到行人检索结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型,得到行人检索模型;
步骤S12,对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2包括以下步骤:
步骤S21,对训练集中的N个训练行人图像进行预处理;
步骤S22,对于预处理后的训练行人图像进行水平分割,得到训练行人图像的条纹部件;
步骤S23,对于所述条纹部件进行序列化,得到条纹部件的多个序列块。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:
步骤S31,将单个训练行人图像条纹部件的序列块输入所述行人检索模型,所述变换网络模型最后一个变换层的输出即为所述训练行人图像的条纹部件特征;
步骤S32,对于所述部件全局变换网络模型最后一个部件全局变换层的输出进行最大池化聚合,得到所述训练行人图像的完整特征。
5.根据权利要求4所述的方法,其特征在于,所述步骤S31中,在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌
Figure FDA0004067487520000021
进行多头自注意力学习,其中,类令牌是一个用于学习得到条纹部件特征的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41,基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重;
步骤S42,利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重和预先设定的阈值,计算得到所述条纹部件特征的部件掩码;
步骤S43,保留部件掩码值为1的序列块。
7.根据权利要求1所述的方法,其特征在于,所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块。
8.根据权利要求7所述的方法,其特征在于,所述步骤S5包括以下步骤:
步骤S51,构建损失计算模块,并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征的交叉熵损失和三元组损失;
步骤S52,对计算得到的损失相加求和,得到总损失值,利用所述总损失值对所述行人检索模型进行参数优化,得到最优行人检索模型。
9.根据权利要求1所述的方法,其特征在于,所述步骤S6中,所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征。
10.根据权利要求1所述的方法,其特征在于,所述步骤S6中,利用余弦距离计算所述查询图像和行人库图像之间的相似度。
CN202310081039.XA 2023-01-31 2023-01-31 一种基于混合部件变换网络的行人检索方法 Pending CN116246305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310081039.XA CN116246305A (zh) 2023-01-31 2023-01-31 一种基于混合部件变换网络的行人检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310081039.XA CN116246305A (zh) 2023-01-31 2023-01-31 一种基于混合部件变换网络的行人检索方法

Publications (1)

Publication Number Publication Date
CN116246305A true CN116246305A (zh) 2023-06-09

Family

ID=86629015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310081039.XA Pending CN116246305A (zh) 2023-01-31 2023-01-31 一种基于混合部件变换网络的行人检索方法

Country Status (1)

Country Link
CN (1) CN116246305A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805337A (zh) * 2023-08-25 2023-09-26 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805337A (zh) * 2023-08-25 2023-09-26 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法
CN116805337B (zh) * 2023-08-25 2023-10-27 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法

Similar Documents

Publication Publication Date Title
CN111310773B (zh) 一种高效的卷积神经网络的车牌定位方法
WO2024021394A1 (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN111325111A (zh) 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113034545A (zh) 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN114330529A (zh) 一种基于改进YOLOv4的遮挡行人实时检测方法
CN113591978B (zh) 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩***及方法
CN113688894A (zh) 一种融合多粒度特征的细粒度图像分类方法
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
CN115841683B (zh) 一种联合多级特征的轻量行人重识别方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN115965819A (zh) 一种基于Transformer结构的轻量化害虫识别方法
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN113033345B (zh) 基于公共特征子空间的v2v视频人脸识别方法
CN114972904A (zh) 一种基于对抗三元组损失的零样本知识蒸馏方法及***
CN114463340A (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN114066844A (zh) 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法
CN115830643A (zh) 一种姿势引导对齐的轻量行人重识别方法
CN113887536B (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法
CN112348007B (zh) 一种基于神经网络的光学字符识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination