CN114842512A - 基于多特征协同和语义感知的遮挡行人重识别和检索方法 - Google Patents

基于多特征协同和语义感知的遮挡行人重识别和检索方法 Download PDF

Info

Publication number
CN114842512A
CN114842512A CN202210763141.3A CN202210763141A CN114842512A CN 114842512 A CN114842512 A CN 114842512A CN 202210763141 A CN202210763141 A CN 202210763141A CN 114842512 A CN114842512 A CN 114842512A
Authority
CN
China
Prior art keywords
feature
semantic
local
sample
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210763141.3A
Other languages
English (en)
Other versions
CN114842512B (zh
Inventor
高赞
陈鹏
宋健明
顾竟潇
谭文
郝敬全
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Calmcar Vision Electronic Technology Co ltd
Shandong University
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Suzhou Calmcar Vision Electronic Technology Co ltd
Shandong University
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Calmcar Vision Electronic Technology Co ltd, Shandong University, Taihua Wisdom Industry Group Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Suzhou Calmcar Vision Electronic Technology Co ltd
Priority to CN202210763141.3A priority Critical patent/CN114842512B/zh
Publication of CN114842512A publication Critical patent/CN114842512A/zh
Application granted granted Critical
Publication of CN114842512B publication Critical patent/CN114842512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多特征协同和语义感知的遮挡行人重识别和检索方法,属于计算机视觉和模式识别技术领域,实现了对有遮挡的行人重识别数据集的高效识别和检索;方法的具体步骤如下:图像预处理;双链网络模型搭建;双链网络的目标函数构建;基于多特征协同和人体语义感知的有遮挡行人重识别和检索方法;本发明可对现有公开有遮挡的行人重识别数据集进行高效识别和检索,能够有效地解决目标数据集由于遮挡、姿态变化造成的行人信息缺失、特征对齐困难等问题,并且方法收敛速度快。

Description

基于多特征协同和语义感知的遮挡行人重识别和检索方法
技术领域
本发明属于计算机视觉和模式识别技术领域,具体涉及基于多特征协同和语义感知的遮挡行人重识别和检索方法。
背景技术
当前基于深度学习的行人重识别方法在Market-1501、DukeMTMC-reID等全身数据集上已经取得了较高的准确率;然而,在现实场景中难以获取理想的全身人物图像,人物图像被物品或其他行人遮挡的情况普遍存在。由于遮挡所造成的关键信息缺失为行人重识别带来极大的困难。现有的常规行人重识别网络难以在有遮挡的行人重识别数据集上取得良好的效果。
但是,现有处理有遮挡的行人重识别问题的方法存在着以下缺陷:采取单一路线进行特征提取,仅可以提取语义特征、纹理特征、骨骼关键点特征等信息,由于提取的特征所包含的信息有限,所以忽略了有价值的信息。现有技术只聚焦于解决遮挡的问题,行人重识别方向本身所面临的其他问题如行人姿态变化、视角变化等问题并没有得到有效解决,造成模型进行识别的准确率不高。当前行人重识别中人物遮挡部分的处理方式,主要采用将其特征不加处理直接使用或将其当作干扰项直接舍弃,处理方式简单粗暴,会造成无关噪声信息的引入和相关有用信息的丢失。
发明内容
本发明提供了基于多特征协同和语义感知的遮挡行人重识别和检索方法,能够有效地解决目标数据集由于遮挡、姿态变化造成的行人信息缺失、特征对齐困难等问题,具体包括以下步骤:
步骤1:对图片进行预处理,进行数据增强,将图片像素大小调整为256×128,并对图片随机采取随机裁剪、水平翻转和随机擦除,概率均为50%。
步骤2:构建双链网络模型并进行训练,链一采用基于HRNet的卷积神经网络,链二采用基于ViT-B/16的Transformer,所述Transformer为转换器。
步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征。
步骤4:通过训练后的链二将每张输入图像经过处理后得到4个局部特征组与1个全局特征。
步骤5:利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery集中的相关样本进行补全得到补全后的局部特征;所述query集为查询集,所述gallery集为查询集。
步骤6:将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集与query集各个样本的特征欧氏距离,通过gallery集中的样本按照与query集中样本距计算累计匹配特性与均值平均精度,实现对行人样本的重识别。
优选的,链一的训练的主要步骤为像素级部分分割与对齐,由一组置信图加权的像素级特征表示的集合表示人体部分,具体步骤如下:
步骤2-1:给定n张来自不同行人的训练图像
Figure 379678DEST_PATH_IMAGE001
及其身份标签
Figure 938966DEST_PATH_IMAGE002
,所述n大 于等于1,通过学习人类语义解析,获得用于重识别的像素级的部分特征表示的部分对齐表 示,对于图像
Figure 496986DEST_PATH_IMAGE004
,使用骨干网
Figure 196827DEST_PATH_IMAGE005
映射函数得到全局特征图
Figure 156693DEST_PATH_IMAGE006
,全局特征图为输入大小的1/ 4;
Figure 152462DEST_PATH_IMAGE007
其中
Figure 463357DEST_PATH_IMAGE008
是主干的参数,c、h、w是通道、高度和宽度;用
Figure 966889DEST_PATH_IMAGE009
表示空间位置
Figure 781261DEST_PATH_IMAGE010
处的特征,是一个c维的向量。
步骤2-2:将5个不同语义部分的置信度图
Figure 197199DEST_PATH_IMAGE011
,
Figure 480544DEST_PATH_IMAGE012
,
Figure 272919DEST_PATH_IMAGE013
,
Figure 941798DEST_PATH_IMAGE014
,
Figure 43484DEST_PATH_IMAGE015
相加得到1个前景的置 信度图
Figure 63392DEST_PATH_IMAGE016
将每个置信图与语义部分相关联,通过下式计算得到n个部分语义特征、1个前景语义特征和1个全局语义特征:
Figure 144612DEST_PATH_IMAGE017
式中,
Figure 933577DEST_PATH_IMAGE018
表示属于语义部分k的像素
Figure 206164DEST_PATH_IMAGE010
的置信度,
Figure 447789DEST_PATH_IMAGE019
K表示 划分的人体部分数,
Figure 254071DEST_PATH_IMAGE020
表示是逐元素相乘,
Figure 976171DEST_PATH_IMAGE021
表示全局平均池化操作,
Figure 576916DEST_PATH_IMAGE022
为第
Figure 148581DEST_PATH_IMAGE023
部分的语 义特征。
步骤2-3:链一最终输出的局部语义特征记为
Figure 492975DEST_PATH_IMAGE024
,且
Figure 335160DEST_PATH_IMAGE025
,其中
Figure 841227DEST_PATH_IMAGE026
为沿通道方向拼接,
Figure 916500DEST_PATH_IMAGE027
为前景语义特征,
Figure 313852DEST_PATH_IMAGE028
为全局语义特征。
优选的,链二的训练过程中,训练过程如下:
步骤3-1:将图像
Figure 994232DEST_PATH_IMAGE029
分成大小固定的
Figure 202359DEST_PATH_IMAGE030
个patch,其中
Figure 984502DEST_PATH_IMAGE031
Figure 670698DEST_PATH_IMAGE032
Figure 810229DEST_PATH_IMAGE033
分别 表示其高度、宽度和通道数,
Figure 923679DEST_PATH_IMAGE034
式中S为使用滑动窗口生成像素重叠的补丁的步长,P为patch的大小,其中
Figure 193117DEST_PATH_IMAGE035
Figure 417425DEST_PATH_IMAGE036
为向下取整操作。
步骤3-2:计算馈入
Figure 72397DEST_PATH_IMAGE037
层的Transformer层的输入序列,具体公式如下:
Figure 137174DEST_PATH_IMAGE038
式中,
Figure 815280DEST_PATH_IMAGE039
表示输入序列嵌入,
Figure 921908DEST_PATH_IMAGE040
是位置嵌入,
Figure 369070DEST_PATH_IMAGE041
是将面片映射到D维 的线性投影;
Figure 417797DEST_PATH_IMAGE042
为一个可学习的[cls]嵌入令牌;
Figure 832467DEST_PATH_IMAGE039
经过
Figure 992053DEST_PATH_IMAGE037
层的Transformer层处理,得 到
Figure 293721DEST_PATH_IMAGE043
步骤3-3:利用洗牌模块将嵌入的patch通过移位操作和洗牌操作对嵌入的patch 进行洗牌,然后重新组合成不同的部分,每个部分包含多个随机的整幅图像的patch嵌入, 将序列嵌入序列
Figure 529661DEST_PATH_IMAGE044
打乱如下:
第一步:移位操作,将除了[cls]令牌的第一个
Figure 697206DEST_PATH_IMAGE045
个补丁被移动到最后,即
Figure 67008DEST_PATH_IMAGE043
转换为
Figure 551079DEST_PATH_IMAGE046
第二步:洗牌操作,通过
Figure 613713DEST_PATH_IMAGE023
组的patch shuffle操作对移位的patch进行进一步的洗 牌,隐藏特征变为
Figure 566756DEST_PATH_IMAGE047
经过洗牌操作后的局部特征组
Figure 5828DEST_PATH_IMAGE048
再经过一个标准的Transformer 层处理后得到最终的Transformer局部特征组
Figure 328094DEST_PATH_IMAGE049
步骤3-4:利用姿态估计辅助模块获取姿势引导特征
Figure 827208DEST_PATH_IMAGE050
;具体步骤如下:
使用估计器从输入图像中提取16个关键点地标,然后利用这些地标生成热图
Figure 188919DEST_PATH_IMAGE051
,每个热图都被缩小到
Figure 713573DEST_PATH_IMAGE052
的大小,每个热图的最大响应点 对应于一个关键点,设置一个阈值
Figure 109919DEST_PATH_IMAGE053
过滤高置信度地标和低置信度地标,热图标签表示为:
Figure 91519DEST_PATH_IMAGE054
其中
Figure 940527DEST_PATH_IMAGE055
表示第
Figure 518138DEST_PATH_IMAGE056
个地标的置信度得分,将一个完全连接的层应用于热图
Figure 519724DEST_PATH_IMAGE057
,以获得 与全局特征
Figure 95061DEST_PATH_IMAGE005
尺寸相同的热图
Figure 759261DEST_PATH_IMAGE058
Figure 327514DEST_PATH_IMAGE058
Figure 229611DEST_PATH_IMAGE005
进行相乘,并获得姿势引导特征
Figure 241430DEST_PATH_IMAGE059
,即关键点特征。
步骤3-5:进行关键点-局部特征组相似度匹配。
在链二中,将
Figure 799450DEST_PATH_IMAGE060
个关键点特征归类于
Figure 755DEST_PATH_IMAGE061
个局部特征组
Figure 960621DEST_PATH_IMAGE062
中,并对局部特征组进行关键位置加强。
部分相似度匹配层将关键点特征与局部特征组融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使得局部特征组包含相关的关键点信息:
Figure 189346DEST_PATH_IMAGE063
其中
Figure 500242DEST_PATH_IMAGE064
为生成图像16个关键点特征集合,
Figure 239659DEST_PATH_IMAGE065
为链二输出第
Figure 54031DEST_PATH_IMAGE056
个局部特征组,
Figure 142073DEST_PATH_IMAGE066
则 为匹配生成后的第
Figure 263568DEST_PATH_IMAGE056
个包含关键点信息的局部特征组,k为与
Figure 462468DEST_PATH_IMAGE065
最相似的
Figure 193663DEST_PATH_IMAGE064
的编号。
优选的,所述链一训练过程中需要使用三元组损失和交叉熵损失函数约束通过最小化两种损失函数确定最优网络参数。
所述链二输出全局特征以及洗牌后的局部特征组后,也分别使用了交叉熵损失函数与三元组损失函数进行约束。
三元组损失公式如下:
Figure 734497DEST_PATH_IMAGE067
其中m为当前批次的最大距离边界,
Figure 488827DEST_PATH_IMAGE068
表示锚点样本与对应正样本的融合特 征距离,
Figure 84893DEST_PATH_IMAGE069
表示锚点样本与对应负样本的融合特征距离。
交叉熵损失函数公式如下:
Figure 608278DEST_PATH_IMAGE070
其中CE为交叉熵损失,当
Figure 615286DEST_PATH_IMAGE071
为类别
Figure 122491DEST_PATH_IMAGE056
的分类器的预测结果,
Figure 741822DEST_PATH_IMAGE072
为真实id。
优选的,所述步骤5具体步骤如下:
步骤5-1:选取相关gallery样本。
步骤5-1-1:将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集与gallery集各个样本的特征欧氏距离dist1。
步骤5-1-2:利用步骤5-1-1得到的欧氏距离dist1计算找到与每个query样本特征
Figure 385293DEST_PATH_IMAGE073
欧氏距离最小的最佳gallery样本特征
Figure 251618DEST_PATH_IMAGE074
作为候选样本特征。
步骤5-1-3:将query样本特征
Figure 292124DEST_PATH_IMAGE073
和其最佳gallery样本特征
Figure 902097DEST_PATH_IMAGE074
分别沿通道方向拆 分成5份,query样本特征
Figure 744282DEST_PATH_IMAGE073
拆分为
Figure 515929DEST_PATH_IMAGE075
,其最佳gallery样本特征
Figure 794464DEST_PATH_IMAGE074
拆分为
Figure 457395DEST_PATH_IMAGE076
步骤5-2:将缺失部位特征补全。
步骤5-2-1:链一根据属于语义部分q的像素
Figure 75458DEST_PATH_IMAGE010
的置信度
Figure 345903DEST_PATH_IMAGE077
的情况得到语 义部分q的部分可见性系数
Figure 800149DEST_PATH_IMAGE078
,计算公式如下:
Figure 814241DEST_PATH_IMAGE079
步骤5-2-2:利用query样本特征的部分可见性系数
Figure 286811DEST_PATH_IMAGE078
计算候 选部分系数
Figure 977424DEST_PATH_IMAGE080
,计算公式如下:
Figure 168234DEST_PATH_IMAGE081
步骤5-2-3:根据候选gallery样本特征与候选部分系数计算候选局部语义特征补 丁
Figure 658121DEST_PATH_IMAGE082
,计算公式如下:
Figure 329405DEST_PATH_IMAGE083
其中
Figure 879335DEST_PATH_IMAGE084
为最佳gallery样本第
Figure 603446DEST_PATH_IMAGE056
部分的局部语义特征,
Figure 897024DEST_PATH_IMAGE085
是最佳gallery样本第
Figure 875345DEST_PATH_IMAGE056
部分的局部语义特征的可见性系数。
步骤5-2-4:将query样本特征的可见部分的局部语义特征,与候选样本特征进行组合得到query样本的补全局部语义特征,计算公式如下:
Figure 878067DEST_PATH_IMAGE086
其中
Figure 309048DEST_PATH_IMAGE087
是query样本第
Figure 203055DEST_PATH_IMAGE056
部分的局部语义特征,
Figure 753991DEST_PATH_IMAGE088
是候选样本第
Figure 708040DEST_PATH_IMAGE056
部分的局部语义 特征。
优选的,所述
Figure 95159DEST_PATH_IMAGE030
取值为4。
本发明的有益效果在于:本发明使用双链模型提取多种类别的行人特征,利用将多种特征进行融合的方式解决有遮挡的行人重识别问题,令模型提取的特征包含更丰富的信息用以更好地计算样本间的特征距离。在处理主要的遮挡问题的同时,也可以解决行人重识别所面临的姿态变化、视角变化等问题。并且在训练阶段,引入了“洗牌模块”,通过关键点-局部特征组相似度匹配,更加充分地利用了Transformer的全局依赖关系。在测试阶段,提出了“缺失部位特征补全检索方法”,将缺失部位的特征补全,改变了传统的舍弃遮挡部位特征的做法,进一步提升了模型在有遮挡的行人重识别任务中的性能。
样本经过模型训练,可以得到具有判别性的特征;并且通过结合姿态关键点信息,可以得到鲁棒的图像特征,模型收敛速度快,在多个有遮挡或无遮挡的行人重识别数据集上都能取得高效的识别性能。
附图说明
图1为本发明的结构示意图。
图2为相关gallery样本选取步骤示意图。
图3为缺失部位特征补全步骤示意图。
图中:query表示查询集,gallery表示图库集,HRNet表示高分辨率网络,FC表示全连接层,Transformer为转换器。
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例:
如图1所示,为本发明的一种基于多特征协同和人体语义感知的有遮挡行人重识别和检索方法的操作流程图,该方法的操作步骤包括步骤1-6:
步骤1:对图片进行预处理,由于有遮挡的行人重识别数据集的query集中遮挡问题普遍存在,为了使模型对遮挡问题有较强的鲁棒性,在训练集图像输入网络之前使用数据增强的方式。
输入原图像大小调整为256×128,全局特征图为输入大小的1/4。在数据增加方面,采用了常用的随机裁剪、水平翻转和随机擦除,概率为50%。
步骤2:构建双链网络模型,并进行训练,在第1步样本对生成的基础上,设计模型结构。选择基于双链深度学习网络的原因是双链网络可以对同一图像提取相辅相成的两种特征,使获得的特征信息更加丰富,能够将任何神经网络当作双链网络的基础网络。在本发明中采用的两条链分别为基于HRNet的卷积神经网络和基于ViT-B/16的Transformer。
步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征;具体的链一训练过程如下:
首先,链一通过像素聚类的方式将图像特征进行分割,每张图片生成5个人体部分特征并沿通道方向拼接。在链一的训练的主要步骤为像素级部分分割与对齐。像素级部分分割与对齐的主要思想是用属于该部分的像素表示来表示人体部分,由一组置信图加权的像素级特征表示的集合来表示人体部分。具体做法如下:
给定n张来自不同行人的训练图像
Figure 730540DEST_PATH_IMAGE089
及其身份标签
Figure 230923DEST_PATH_IMAGE090
,通过学习人类语 义解析,获得用于重识别的像素级的部分特征表示的部分对齐表示,对于图像
Figure 293557DEST_PATH_IMAGE004
,使用骨 干网
Figure 745135DEST_PATH_IMAGE091
映射函数得到全局特征图
Figure 653049DEST_PATH_IMAGE092
,全局特征图为输入大小的1/4。
Figure 476779DEST_PATH_IMAGE093
其中θ是主干的参数,c、h、w是通道、高度和宽度。为了清楚地说明,省略了通道维 度,并用
Figure 241473DEST_PATH_IMAGE094
表示空间位置
Figure 603184DEST_PATH_IMAGE095
处的特征,是一个c维的向量。
将5个不同语义部分的置信度图
Figure 169250DEST_PATH_IMAGE011
,
Figure 300017DEST_PATH_IMAGE012
,
Figure 766770DEST_PATH_IMAGE013
,
Figure 366510DEST_PATH_IMAGE014
,
Figure 881805DEST_PATH_IMAGE015
相加得到1个前景的置信度图
Figure 460554DEST_PATH_IMAGE016
,其中每个置信图与语义部分相关联。用
Figure 285159DEST_PATH_IMAGE096
表示属于语义部分k的像素
Figure 683780DEST_PATH_IMAGE095
的置信 度。然后,通过以下方式可计算得到5个部分语义特征、1个前景语义特征和一个全局语义特 征:
Figure 737186DEST_PATH_IMAGE097
Figure 921174DEST_PATH_IMAGE019
K表示划分的人体部分数,
Figure 667413DEST_PATH_IMAGE020
表示是逐元素相乘,
Figure 271439DEST_PATH_IMAGE098
表示全局 平均池化操作,
Figure 659695DEST_PATH_IMAGE099
表示第
Figure 885140DEST_PATH_IMAGE100
部分的语义特征。对于被遮挡人图像中的被遮挡部分
Figure 880909DEST_PATH_IMAGE100
Figure 926225DEST_PATH_IMAGE101
。链一最终输出的局部语义特征记为
Figure 383751DEST_PATH_IMAGE102
,且
Figure 978549DEST_PATH_IMAGE103
,其中
Figure 66591DEST_PATH_IMAGE104
意为沿通道方向拼接
Figure 661521DEST_PATH_IMAGE105
,为全景语义特征,
Figure 876732DEST_PATH_IMAGE106
为全局语义特征。
步骤4通过训练后的链二将每张输入图像经过处理后得到4个局部特征与1个全局特征;具体的,链二的训练过程如下:
链二为基于ViT-B/16的Transformer,给定一个图像
Figure 139086DEST_PATH_IMAGE029
,其中
Figure 132450DEST_PATH_IMAGE107
Figure 729523DEST_PATH_IMAGE108
Figure 997693DEST_PATH_IMAGE109
分别表示其高度、宽度和通道数,将其分成大小固定的
Figure 68548DEST_PATH_IMAGE110
。 一个可学习[cls]嵌入令牌
Figure 29551DEST_PATH_IMAGE111
被预先添加到补丁嵌入,该补丁嵌入经过处理得到一 个中间特征,该特征的[cls]令牌被表示为链二输出的全局特征
Figure 536756DEST_PATH_IMAGE091
。使用添加可学习的位置 嵌入的方式向序列中引入空间信息,馈入
Figure 920201DEST_PATH_IMAGE112
层的Transformer层的输入序列可以表示为:
Figure 563672DEST_PATH_IMAGE113
式中,
Figure 243046DEST_PATH_IMAGE114
表示输入序列嵌入,
Figure 971968DEST_PATH_IMAGE115
是位置嵌入
Figure 581941DEST_PATH_IMAGE116
,是将面片映射 到D维的线性投影,此外,
Figure 657082DEST_PATH_IMAGE117
层的变换层用于学习特征表示。基于CNN的方法的有限感受野问 题得到了解决,因为所有变压器层都有一个全局感受野,也没有下采样操作,因此保留了详 细信息。
使用滑动窗口来生成像素重叠的补丁,将步长记为S,patch的大小记为P(如16), 则两个相邻patch重叠区域的形状为
Figure 694308DEST_PATH_IMAGE118
。将分辨率为
Figure 238422DEST_PATH_IMAGE119
的输入图像分割为
Figure 120927DEST_PATH_IMAGE120
个patch。具体公式如下:
Figure 817619DEST_PATH_IMAGE121
其中
Figure 760167DEST_PATH_IMAGE122
Figure 463681DEST_PATH_IMAGE123
为向下取整操作。
在链二中,虽然基于Transformer强大的基线可以在行人重识别中获得令人印象 深刻的性能,但它利用了来自整个图像的信息。然而,由于遮挡和不对齐等问题,可能只能 对一个物体进行部分观察,所以需要学习细粒度的局部特性(如条纹特性)。经过
Figure 992620DEST_PATH_IMAGE112
层的 Transformer层的处理,假设输入到最后一层的隐藏特征记为
Figure 465190DEST_PATH_IMAGE124
。为了学习细粒度的局部特征,一个简单的解决方案是分割
Figure 922847DEST_PATH_IMAGE125
按顺序将共享令牌
Figure 113657DEST_PATH_IMAGE126
串联起来,然后将
Figure 134703DEST_PATH_IMAGE120
个特征组送入共享 Transformer层学习
Figure 519503DEST_PATH_IMAGE120
个局部特征。由于每个局部段只考虑连续补丁嵌入的一部分,所以不 能充分利用变压器的全局依赖关系。为了解决上述问题,使用了洗牌模块,该模块将嵌入的 patch进行洗牌,然后将它们重新组合成不同的部分,每个部分包含多个随机的整幅图像的 patch嵌入。此外,在训练中引入额外的扰动也有助于提高行人重识别模型的鲁棒性。通过 移位操作和洗牌操作对嵌入的patch进行洗牌,将序列嵌入序列
Figure 803854DEST_PATH_IMAGE127
打乱如下:
第一步:移位操作,第一个
Figure 295009DEST_PATH_IMAGE128
个补丁(除了[cls]令牌)被移动到最后,即
Figure 588587DEST_PATH_IMAGE124
转换为
Figure 363645DEST_PATH_IMAGE129
第二步:洗牌操作,通过
Figure 333744DEST_PATH_IMAGE100
组的patch shuffle操作对移位的patch进行进一步的洗 牌。隐藏特征变为
Figure 30304DEST_PATH_IMAGE130
。经过洗牌操作后的局部特征组
Figure DEST_PATH_IMAGE131
再经过一个标准的Transformer层处理后得到最终的Transformer局部 特征组
Figure 393153DEST_PATH_IMAGE132
通过移位和洗牌操作,链二局部特征组
Figure 304608DEST_PATH_IMAGE133
可以覆盖不同身体部位的贴片,具有 全局识别能力,能够更加充分地利用Transformer的全局依赖关系。
利用姿态估计辅助模块获取姿势引导特征
Figure 930761DEST_PATH_IMAGE050
,估计器从输入图像中提取16个地 标,然后利用地标生成热图
Figure 895044DEST_PATH_IMAGE134
,每个热图都被缩小到
Figure 530425DEST_PATH_IMAGE135
的大 小。每个热图的最大响应点对应于一个关键点,设置一个阈值
Figure 765228DEST_PATH_IMAGE136
过滤高置信度地标和低置 信度地标。热图标签可以表示为:
Figure 827862DEST_PATH_IMAGE137
其中
Figure 702277DEST_PATH_IMAGE138
表示第
Figure 452933DEST_PATH_IMAGE139
个地标的置信度得分。将一个完全连接的层应用于热图H,以获得 与全局特征
Figure 729194DEST_PATH_IMAGE091
尺寸相同的热图
Figure 41358DEST_PATH_IMAGE140
。对
Figure 403069DEST_PATH_IMAGE140
Figure 442569DEST_PATH_IMAGE091
进行相乘,并获得姿势引导特征
Figure 88183DEST_PATH_IMAGE141
进行关键点-局部特征组相似度匹配,在链二中,将16个关键点特征归类于n个局 部特征组
Figure 492619DEST_PATH_IMAGE130
中(一般将n设为4),并对局部特征组进行关键位置 加强,增强网络对于关键点部位的关注度。部分相似度匹配层将关键点特征与局部特征组 的融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使 得局部特征组包含相关的关键点信息:
Figure 420255DEST_PATH_IMAGE142
其中
Figure 201129DEST_PATH_IMAGE143
为生成图像16个关键点特征集合,
Figure 514299DEST_PATH_IMAGE144
为链二输出第
Figure 824058DEST_PATH_IMAGE139
个局部特征组,
Figure 206366DEST_PATH_IMAGE145
则 为匹配生成后的第
Figure 56511DEST_PATH_IMAGE139
个包含关键点信息的局部特征组,k为与
Figure 161870DEST_PATH_IMAGE065
最相似的
Figure 986738DEST_PATH_IMAGE064
的编号。
步骤5利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery中的相关样本进行补全得到补全后的局部特征。
具体的,首先,选取相关gallery样本:
将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集与gallery各个样本的特征欧氏距离dist1。
利用步骤1得到的欧氏距离dist1计算找到与每个query样本特征
Figure 544758DEST_PATH_IMAGE146
欧氏距离最小 的最佳gallery样本特征
Figure 713440DEST_PATH_IMAGE147
作为候选样本特征。
将query样本特征
Figure 938885DEST_PATH_IMAGE146
和其最佳gallery样本特征
Figure 121605DEST_PATH_IMAGE147
分别沿通道方向拆分成5份, query样本特征
Figure 511129DEST_PATH_IMAGE146
拆分为
Figure 171917DEST_PATH_IMAGE148
,其最佳gallery样本特征
Figure 32295DEST_PATH_IMAGE147
拆分为
Figure 651495DEST_PATH_IMAGE149
将缺失部位特征补全:
利用query样本特征的部分可见性系数
Figure 184107DEST_PATH_IMAGE150
计算候选部分系数
Figure 727215DEST_PATH_IMAGE151
,计算公式如下:
Figure 661673DEST_PATH_IMAGE152
根据候选gallery样本特征与候选部分系数计算候选局部语义特征补丁
Figure 509499DEST_PATH_IMAGE153
,计算 公式如下:
Figure 263828DEST_PATH_IMAGE154
其中
Figure 328736DEST_PATH_IMAGE155
为最佳gallery样本第
Figure 134012DEST_PATH_IMAGE139
部分的局部语义特征,
Figure 829436DEST_PATH_IMAGE156
是最佳gallery样本第
Figure 664537DEST_PATH_IMAGE139
部分的局部语义特征的可见性系数。
将query样本特征的可见部分的局部语义特征,与候选样本特征进行组合得到query样本的补全局部语义特征,计算公式如下:
Figure 454507DEST_PATH_IMAGE157
其中
Figure 425874DEST_PATH_IMAGE158
是query样本第
Figure 26620DEST_PATH_IMAGE139
部分的局部语义特征,
Figure 568590DEST_PATH_IMAGE159
是候选样本第
Figure 709722DEST_PATH_IMAGE139
部分的局部语义 特征。
通过“缺失部位特征补全检索方法”的操作,query样本的局部语义特征中原本可见的部分被保留了下来,原本缺失的部分则被候选局部语义特征补全。
步骤6将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集与query集各个样本的特征欧氏距离,通过gallery集合中的样本按照与query集合中样本距计算累计匹配特性与均值平均精度,最终实现对行人样本的重识别。
双链网络解决了有遮挡的行人重识别场景中的遮挡问题;行人重识别问题被视为一个度量问题,同一人物的不同图像特征间的距离应比不同人物的图像特征间的距离小。由于本发明使用了双链结构,每条链最终输出的特征具有差异性,因此为每条链各自设置了损失函数。对于链一而言,输出为全局语义特征、前景语义特征、局部语义特征以及以上特征分别通过分类器的预测结果。对于链二而言,输出为全局特征与局部特征组沿通道方向拼接而成的融合特征,以及各个全局特征与局部特征组分别通过分类器的预测结果。
在该网络的目标函数中,三元组损失使得同类样本的距离更小,不同类样本的距离更大,这样使得所学特征具有更好的鲁棒性,三元组损失公式如下:
Figure 519284DEST_PATH_IMAGE160
其中m为当前批次的最大距离边界
Figure 556510DEST_PATH_IMAGE161
,表示锚点样本与对应正样本的融合特 征距离,同样,
Figure 585777DEST_PATH_IMAGE162
表示锚点样本与对应负样本的融合特征距离。
另外,交叉熵损失函数作为分类损失使得所学特征具有更好的区分性,分类损失公式如下:
Figure DEST_PATH_IMAGE163
其中CE为交叉熵损失,当
Figure 327337DEST_PATH_IMAGE164
为类别
Figure 194668DEST_PATH_IMAGE139
的分类器的预测结果,
Figure 933953DEST_PATH_IMAGE165
为真实id。
将这两种损失函数同时嵌入到链一网络上,共同指导该网络参数的学习和优化,并通过最小化这两种损失函数,从而确定最优的网络参数;对于链二,输出特征为全局特征以及洗牌后的局部特征,也分别使用了交叉熵损失函数与三元组损失函数。

Claims (6)

1.基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,包括以下步骤:
步骤1:对图片进行预处理,进行数据增强,将图片像素大小调整为256×128,并对图片随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;
步骤2:构建双链网络模型,并进行训练,链一采用基于HRNet的卷积神经网络,链二采用基于ViT-B/16的Transformer;
步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征;
步骤4:通过训练后的链二将每张输入图像经过处理后得到4个局部特征组与1个全局特征;
步骤5:利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery中的相关样本进行补全得到补全后的局部特征;
步骤6:将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集与query集各个样本的特征欧氏距离,通过gallery集合中的样本按照与query集合中样本距计算累计匹配特性与均值平均精度,最终实现对行人样本的重识别。
2.根据权利要求1所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,链一的训练的主要步骤为像素级部分分割与对齐,由一组置信图加权的像素级特征表示的集合表示人体部分,具体步骤如下:
步骤2-1:给定n张来自不同行人的训练图像
Figure 895692DEST_PATH_IMAGE001
及其身份标签
Figure 893472DEST_PATH_IMAGE002
,所述n大于等 于1,通过学习人类语义解析,获得用于重识别的像素级的部分特征表示的部分对齐表示, 对于图像
Figure 631621DEST_PATH_IMAGE003
,使用骨干网
Figure 72967DEST_PATH_IMAGE004
映射函数得到全局特征图
Figure 263777DEST_PATH_IMAGE005
,全局特征图为输入大小的1/4;
Figure 832293DEST_PATH_IMAGE006
其中
Figure 159369DEST_PATH_IMAGE007
是主干的参数,c、h、w是通道、高度和宽度;
Figure 286462DEST_PATH_IMAGE008
表示空间位置
Figure 964568DEST_PATH_IMAGE009
处的特征,是一个c维的向量;
步骤2-2:将5个不同语义部分的置信度图
Figure 336775DEST_PATH_IMAGE010
,
Figure 783937DEST_PATH_IMAGE011
,
Figure 285194DEST_PATH_IMAGE012
,
Figure 981755DEST_PATH_IMAGE013
,
Figure 547865DEST_PATH_IMAGE014
相加得到1个前景的置信度 图
Figure 193742DEST_PATH_IMAGE015
将每个置信图与语义部分相关联,通过下式计算得到n个部分语义特征、1个前景语义特征和1个全局语义特征:
Figure 819895DEST_PATH_IMAGE016
式中,
Figure 534910DEST_PATH_IMAGE017
表示属于语义部分k的像素
Figure 419558DEST_PATH_IMAGE009
的置信度,
Figure 575733DEST_PATH_IMAGE018
K表示划分 的人体部分数,
Figure 966263DEST_PATH_IMAGE019
表示是逐元素相乘,
Figure 591411DEST_PATH_IMAGE020
表示全局平均池化操作,
Figure 92799DEST_PATH_IMAGE021
为第
Figure 369060DEST_PATH_IMAGE022
部分的语义特 征;
步骤2-3:链一最终输出的局部语义特征记为
Figure 191477DEST_PATH_IMAGE023
,且
Figure 553189DEST_PATH_IMAGE024
,其中
Figure 609000DEST_PATH_IMAGE025
意为沿通道方向拼接,
Figure 739767DEST_PATH_IMAGE026
为前景语义特征,
Figure 455788DEST_PATH_IMAGE027
为全局语义特征。
3.根据权利要求2所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,链二的训练过程如下:
步骤3-1:将图像
Figure 304796DEST_PATH_IMAGE028
分成大小固定的
Figure 820091DEST_PATH_IMAGE029
个patch,其中
Figure 149572DEST_PATH_IMAGE030
Figure 724910DEST_PATH_IMAGE031
Figure 638377DEST_PATH_IMAGE032
分别表示其 高度、宽度和通道数,
Figure 957363DEST_PATH_IMAGE033
式中S为使用滑动窗口生成像素重叠的补丁的步长,P为patch的大小,其中
Figure 390618DEST_PATH_IMAGE034
Figure 887590DEST_PATH_IMAGE035
为向下取整操作;
步骤3-2:计算馈入
Figure 39085DEST_PATH_IMAGE036
层的Transformer层的输入序列,具体公式如下:
Figure 411030DEST_PATH_IMAGE037
式中,
Figure 698792DEST_PATH_IMAGE038
表示输入序列嵌入,
Figure 615932DEST_PATH_IMAGE039
是位置嵌入,
Figure 5456DEST_PATH_IMAGE040
是将面片映射到D维的线 性投影;
Figure 666245DEST_PATH_IMAGE041
为一个可学习的[cls]嵌入令牌;
Figure 792201DEST_PATH_IMAGE038
经过
Figure 145822DEST_PATH_IMAGE036
层的Transformer层处理,得到
Figure 678435DEST_PATH_IMAGE042
步骤3-3:利用洗牌模块将嵌入的patch通过移位操作和洗牌操作对嵌入的patch进行 洗牌,然后重新组合成不同的部分,每个部分包含多个随机的整幅图像的patch嵌入,将序 列嵌入序列
Figure 955964DEST_PATH_IMAGE043
打乱如下:
第一步:移位操作,将除了[cls]令牌的第一个
Figure 624842DEST_PATH_IMAGE044
个补丁被移动到最后,即
Figure 726528DEST_PATH_IMAGE042
转换为
Figure 746437DEST_PATH_IMAGE045
第二步:洗牌操作,通过
Figure 811345DEST_PATH_IMAGE022
组的patch shuffle操作对移位的patch进行进一步的洗牌, 隐藏特征变为
Figure 351042DEST_PATH_IMAGE046
经过洗牌操作后的局部特征组
Figure 374361DEST_PATH_IMAGE047
再经过一个标准的Transformer层处 理后得到最终的Transformer局部特征组
Figure 615987DEST_PATH_IMAGE048
步骤3-4:利用姿态估计辅助模块获取姿势引导特征
Figure 733853DEST_PATH_IMAGE049
;具体步骤如下:
使用估计器从输入图像中提取16个关键点地标,然后利用这些地标生成热图
Figure 642904DEST_PATH_IMAGE050
,每个热图都被缩小到
Figure 322278DEST_PATH_IMAGE051
的大小,每个热图的最大响应点 对应于一个关键点,设置一个阈值
Figure 316778DEST_PATH_IMAGE052
过滤高置信度地标和低置信度地标,热图标签表示为:
Figure 707177DEST_PATH_IMAGE053
其中
Figure 1893DEST_PATH_IMAGE054
表示第
Figure 507960DEST_PATH_IMAGE055
个地标的置信度得分,将一个完全连接的层应用于热图
Figure 68386DEST_PATH_IMAGE056
,以获得与全 局特征
Figure 216470DEST_PATH_IMAGE004
尺寸相同的热图
Figure 631271DEST_PATH_IMAGE057
Figure 365964DEST_PATH_IMAGE057
Figure 69478DEST_PATH_IMAGE004
进行相乘,并获得姿势引导特征
Figure 83570DEST_PATH_IMAGE058
,即关键点特征;
步骤3-5:进行关键点-局部特征组相似度匹配;
在链二中,将
Figure 556140DEST_PATH_IMAGE059
个关键点特征归类于
Figure 748218DEST_PATH_IMAGE060
个局部特征组
Figure 939028DEST_PATH_IMAGE061
中,并 对局部特征组进行关键位置加强;
部分相似度匹配层将关键点特征与局部特征组的融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使得局部特征组包含相关的关键点信息:
Figure 6079DEST_PATH_IMAGE062
其中
Figure 598734DEST_PATH_IMAGE063
为生成图像16个关键点特征集合,
Figure 961713DEST_PATH_IMAGE064
为链二输出第
Figure 170978DEST_PATH_IMAGE055
个局部特征组,
Figure 933398DEST_PATH_IMAGE065
则为匹 配生成后的第
Figure 223302DEST_PATH_IMAGE055
个包含关键点信息的局部特征组,k为与
Figure 678554DEST_PATH_IMAGE064
最相似的
Figure 922585DEST_PATH_IMAGE063
的编号。
4.根据权利要求3所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,所述链一训练过程中需要使用三元组损失和交叉熵损失函数约束通过最小化两种损失函数确定最优网络参数;
所述链二输出全局特征以及洗牌后的局部特征组后,也分别使用了交叉熵损失函数与三元组损失函数进行约束;
三元组损失公式如下:
Figure 754275DEST_PATH_IMAGE066
其中m为当前批次的最大距离边界,
Figure 898686DEST_PATH_IMAGE067
表示锚点样本与对应正样本的融合特征距 离,
Figure 524840DEST_PATH_IMAGE068
表示锚点样本与对应负样本的融合特征距离;
交叉熵损失函数公式如下:
Figure 239855DEST_PATH_IMAGE069
其中CE为交叉熵损失,当
Figure 625968DEST_PATH_IMAGE070
为类别
Figure 47722DEST_PATH_IMAGE055
的分类器的预测结果,
Figure 687519DEST_PATH_IMAGE071
为真实id。
5.根据权利要求3所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,所述步骤5具体步骤如下:
步骤5-1:选取相关gallery样本:
步骤5-1-1:将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集与gallery各个样本的特征欧氏距离dist1;
步骤5-1-2:利用步骤5-1-1得到的欧氏距离dist1计算找到与每个query样本特征
Figure 561935DEST_PATH_IMAGE072
欧 氏距离最小的最佳gallery样本特征
Figure 328902DEST_PATH_IMAGE073
作为候选样本特征;
步骤5-1-3:将query样本特征
Figure 339584DEST_PATH_IMAGE072
和其最佳gallery样本特征
Figure 386168DEST_PATH_IMAGE073
分别沿通道方向拆分成5 份,query样本特征
Figure 13459DEST_PATH_IMAGE072
拆分为
Figure 725063DEST_PATH_IMAGE074
,其最佳gallery样本特征
Figure 698573DEST_PATH_IMAGE073
拆分为
Figure 103009DEST_PATH_IMAGE075
步骤5-2:将缺失部位特征补全:
步骤5-2-1:链一根据属于语义部分q的像素
Figure 30645DEST_PATH_IMAGE009
的置信度
Figure 545940DEST_PATH_IMAGE076
的情况得到语义部 分q的部分可见性系数
Figure 577219DEST_PATH_IMAGE077
,计算公式如下:
Figure 949294DEST_PATH_IMAGE078
步骤5-2-2:利用query样本特征的部分可见性系数
Figure 20018DEST_PATH_IMAGE077
计算候选部 分系数
Figure 417633DEST_PATH_IMAGE079
,计算公式如下:
Figure 522992DEST_PATH_IMAGE080
步骤5-2-3:根据候选gallery样本特征与候选部分系数计算候选局部语义特征补丁
Figure 846395DEST_PATH_IMAGE081
, 计算公式如下:
Figure 404415DEST_PATH_IMAGE082
其中
Figure 792671DEST_PATH_IMAGE083
为最佳gallery样本第
Figure 300007DEST_PATH_IMAGE055
部分的局部语义特征,
Figure 217147DEST_PATH_IMAGE084
是最佳gallery样本第
Figure 855939DEST_PATH_IMAGE055
部分 的局部语义特征的可见性系数;
步骤5-2-4:将query样本特征的可见部分的局部语义特征,与候选样本特征进行组合得到query样本的补全局部语义特征,计算公式如下:
Figure 777714DEST_PATH_IMAGE085
其中
Figure 919982DEST_PATH_IMAGE086
是query样本第
Figure 273603DEST_PATH_IMAGE055
部分的局部语义特征,
Figure 884844DEST_PATH_IMAGE087
是候选样本第
Figure 83745DEST_PATH_IMAGE055
部分的局部语义特 征。
6.根据权利要求3所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法, 其特征在于,所述
Figure 329787DEST_PATH_IMAGE029
取值为4。
CN202210763141.3A 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法 Active CN114842512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210763141.3A CN114842512B (zh) 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210763141.3A CN114842512B (zh) 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Publications (2)

Publication Number Publication Date
CN114842512A true CN114842512A (zh) 2022-08-02
CN114842512B CN114842512B (zh) 2022-10-14

Family

ID=82573821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210763141.3A Active CN114842512B (zh) 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Country Status (1)

Country Link
CN (1) CN114842512B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052218A (zh) * 2023-02-13 2023-05-02 中国矿业大学 一种行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555060A (zh) * 2019-09-09 2019-12-10 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN111783753A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于语义一致水平条和前景修正的行人重识别方法
CN111797813A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于可见感知纹理语义对齐的部分行人重识别方法
CN114155554A (zh) * 2021-12-02 2022-03-08 东南大学 一种基于Transformer的相机域适应行人重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555060A (zh) * 2019-09-09 2019-12-10 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN111797813A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于可见感知纹理语义对齐的部分行人重识别方法
CN111783753A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于语义一致水平条和前景修正的行人重识别方法
CN114155554A (zh) * 2021-12-02 2022-03-08 东南大学 一种基于Transformer的相机域适应行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEXEY DOSOVITSKIY,ET AL: "AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE", 《HTTPS://ARXIV.ORG/ABS/2010.11929》 *
KE SUN,ET AL: "Deep High-Resolution Representation Learning for Human Pose Estimation", 《HTTPS://ARXIV.ORG/ABS/1902.09212》 *
高立帅: "基于关键信息感知的通用行人重识别算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052218A (zh) * 2023-02-13 2023-05-02 中国矿业大学 一种行人重识别方法
CN116052218B (zh) * 2023-02-13 2023-07-18 中国矿业大学 一种行人重识别方法

Also Published As

Publication number Publication date
CN114842512B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN107832672B (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN112101150B (zh) 一种基于朝向约束的多特征融合行人重识别方法
US11238274B2 (en) Image feature extraction method for person re-identification
Marin et al. Random forests of local experts for pedestrian detection
Kong et al. General road detection from a single image
CN113408492B (zh) 一种基于全局-局部特征动态对齐的行人重识别方法
CN110674874B (zh) 基于目标精细组件检测的细粒度图像识别方法
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN112132004A (zh) 一种基于多视角特征融合的细粒度图像识别方法
US20110235901A1 (en) Method, apparatus, and program for generating classifiers
CN103679142A (zh) 一种基于空间约束的目标人体识别方法
CN110728302A (zh) 一种基于HSV和Lab颜色空间的色纺织物组织识别的方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
Alvarez et al. Road geometry classification by adaptive shape models
CN111814845A (zh) 一种基于多支流融合模型的行人重识别方法
CN113435319B (zh) 一种联合多目标跟踪和行人角度识别的分类方法
Wu et al. Strong shadow removal via patch-based shadow edge detection
CN111582178A (zh) 基于多方位信息和多分支神经网络车辆重识别方法及***
CN108710883B (zh) 一种采用轮廓检测的完整显著性物体检测方法
CN114842512B (zh) 基于多特征协同和语义感知的遮挡行人重识别和检索方法
JP2015204030A (ja) 認識装置及び認識方法
Hodne et al. Detecting and suppressing marine snow for underwater visual slam
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant