CN115171165A - 全局特征与阶梯型局部特征融合的行人重识别方法及装置 - Google Patents

全局特征与阶梯型局部特征融合的行人重识别方法及装置 Download PDF

Info

Publication number
CN115171165A
CN115171165A CN202210906148.6A CN202210906148A CN115171165A CN 115171165 A CN115171165 A CN 115171165A CN 202210906148 A CN202210906148 A CN 202210906148A CN 115171165 A CN115171165 A CN 115171165A
Authority
CN
China
Prior art keywords
pedestrian
feature
image
features
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210906148.6A
Other languages
English (en)
Inventor
张登银
王敬余
赵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210906148.6A priority Critical patent/CN115171165A/zh
Publication of CN115171165A publication Critical patent/CN115171165A/zh
Priority to PCT/CN2022/133947 priority patent/WO2024021394A1/zh
Priority to US18/094,880 priority patent/US20230162522A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种全局特征与阶梯型局部特征融合的行人重识别方法及装置,方法包括:利用预训练好的行人重识别网络模型对待识别图像、图库图像分别进行提取得到待识别图像行人特征、图库图像行人特征;将待识别图像行人特征与图库图像行人特征进行相似度匹配,输出相似度排名前N的行人图像,作为行人重识别结果;行人重识别网络包括骨干网络、改进的全局特征分支和块权重指导的阶梯型局部特征提取分支;采用公开的数据集训练行人重识别网络,获得训练好的行人重识别网络模型。本发明设计了全局特征与阶梯型局部特征融合的行人重识别方法。目标是学习鲁棒性更强的行人特征表示,以应对复杂的行人重识别场景,达到一个好的识别效果。

Description

全局特征与阶梯型局部特征融合的行人重识别方法及装置
技术领域
本发明属于数字图像处理技术领域,涉及一种全局特征与阶梯型局部特征融合的行人重识别方法及装置,具体涉及一种全局特征与块权重指导的阶梯型局部特征融合的行人重识别方法。
背景技术
行人重识别问题是跨摄像头的图像检索问题,旨在利用查询图在图像库中检索出属于同一身份的行人图像。首先从多个摄像头中提取原始行人视频图像,依次通过特征提取、相似度度量确认该行人其他图像。
当前,由于摄像头角度、天气等因素的影响,获得的原始视频图像质量不高。遮挡、模糊的图像会严重影响行人重识别的精度,因此在低质量图像上学习出高精度行人重识别模型成为研究重点。
根据损失类型,行人重识别分为表征学习和度量学习。表征学习将行人重识别问题当作图像分类和验证问题,度量学习将图像特征映射到高维特征空间,通过距离度量出两张图像相似度。2014年以来,通过卷积神经网络提取的更具鲁棒性的特征,利用更简单的距离度量公式查找更准确的行人图像,大大增强了行人重识别模型的精度与泛化能力。在本研究方向上大量学者提出更高质量算法,行人重识别研究迎来了爆发式增长。
然而,在真实的场景下,不同摄像头的同一行人由于受到光照、姿态、遮挡、分辨率等各种因素的影响,往往呈现很大的外观差异,这给行人重识别的研究与应用带来诸多挑战。因此,如何提取更具判别力的行人特征,并采用高效的相似性度量方法以减小类内差距,增大类间差距成为行人重识别的关键问题。
发明内容
目的:为了克服现有技术中存在的不足,本发明提供一种全局特征与阶梯型局部特征融合的行人重识别方法及装置,基于全局特征与块权重指导的阶梯型局部特征融合,在显著提升了行人重识别效果的同时,不会带来过多的计算量,同时能够解决图像遮挡、拍摄角度变化、分辨率不高等现象所带来的行人重识别研究算法精度不高的问题。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种行人重识别方法,包括:
获取待识别图像和图库图像;
利用预训练好的行人重识别网络模型对所述待识别图像、图库图像分别进行提取得到待识别图像行人特征、图库图像行人特征;
将待识别图像行人特征与图库图像行人特征进行相似度匹配,输出相似度排名前N的行人图像,作为行人重识别结果;
其中,所述行人重识别网络模型的构建方法包括:
构建行人重识别网络,行人重识别网络包括骨干网络、改进的全局特征分支和块权重指导的阶梯型局部特征提取分支;所述骨干网络为Resnet50,并加载好预训练权重;所述改进的全局特征分支接在骨干网络Conv5_x上,包括通道注意力模块、多重感受野融合模块、GeM池化层、全连接层,被配置为提取行人全局特征;所述块权重指导的阶梯型局部特征提取分支接在骨干网络Conv4_x后,包括阶梯分块层、池化层、空间注意力模块、全连接层,被配置为提取行人局部特征;所述行人全局特征和行人局部特征连接起来作为最终行人特征;
采用公开的数据集训练行人重识别网络,获得训练好的行人重识别网络模型。
在一些实施例中,所述改进的全局特征分支的构建方法包括:
将从骨干网络Conv5_x得到的特征图作为输入,先经过通道注意力模块提取显著的行人信息,再通过多重感受野融合模块获取行人不同感受野下的特征信息进行融合,之后经过GeM池化层进行GeM池化,得到2048维的特征向量,使用难样本采样三元组损失约束,同时该特征向量接到全连接层上进行降维,得到512维的全局特征,使用交叉熵损失约束,利用三元组损失和交叉熵损失进行联合优化训练。
进一步地,所述通道注意力模块中,输入的特征图同时采用最大池化与平均池化得到两个一维的向量,之后被送进权重共享的多层感知机中,将输出进行逐元素的相加后经过Sigmoid激活得到对应的注意力权重;
所述GeM池化层公式为:
Figure BDA0003772515620000031
其中,X为GeM池化层的输入,f为GeM池化层的输出,pk是一个超参数,在反向传播的过程中学习;
所述多重感受野融合模块包含3个分支,对输入的特征X分别经过卷积核大小为3×3,空洞率分别为1、2、3的分支进行卷积操作得到3个特征图,将此3个特征图进行融合为最终的输出X′。
在一些实施例中,所述块权重指导的阶梯型局部特征提取分支的构建方法包括:
将经过骨干网络Conv4_x得到的特征图作为输入,通过阶梯分块层得到9个局部特征图,对9个局部特征图进行池化操作得到9个1024维特征向量,然后经过第一全连接层进行降维得到9个256维特征向量,将所有降至256维的特征向量分别送入第二全连接层后使用交叉熵损失进行分类学习;
同时对骨干网络Conv4_x得到的特征图经过空间注意力模块、阶梯分块层后得到的9个局部特征图计算块权重,用块权重指导交叉熵损失。
进一步地,所述阶梯分块层首先将原始完整行人图像特征均匀分成12个水平块,最初以第1块为起始块,每4块为一个整体作为一个局部区域,随后以步长为1往下更改起始块进行阶梯型分块,最终得到9个局部特征图。
所述空间注意力模块,先在通道注意力模块中对输入H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述,并将这两个通道描述按照通道拼接在一起;然后,经过一个7×7的卷积层,激活函数为Sigmoid,得到H×W×1的空间注意力权重系数;
所述块权重计算方法包括:将空间注意力模块输出的H×W×1的空间注意力权重系数送入阶梯分块层得到9个局部系数块,分别用每个局部系数块的系数和除以9个系数块的系数总和得到9个块权重。
在一些实施例中,所述行人重识别网络模型采用双分支联合训练进行训练,联合训练损失函数Ltotal=Lglobal+Llocal,其中Lglobal代表改进的全局特征分支损失,Llocal代表块权重指导的阶梯型局部特征分支损失。
进一步地,改进的全局特征分支损失Ltotal=LSoftmax+Ltri_hard,其中LSoftmax为交叉熵损失,Ltri_hard为难样本采样三元组损失,
Figure BDA0003772515620000051
其中,N是批次数,H表示行人数,fi是图像i的特征向量,其真实标签为yi,W为权重,b是偏置;
Figure BDA0003772515620000052
是第k个行人的权重向量的转置,bk是第k个行人的偏置向量;
Figure BDA0003772515620000053
采用难例样本挖掘三元组损失函数进行训练,三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组,训练时在每个批次中挑选出P个行人,每个行人挑选出K张图像,三元组均来自于P×K张图像,通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失,其中mar为设置的超参数,dan,pos是锚点与正样本的距离,dan,neg是锚点与负样本的距离,A、B表示该P×K张图像中不同的样本集,即所选正样本和负样本不重合;损失函数的最小化,就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。
进一步地,权重指导的阶梯型局部特征分支损失
Figure BDA0003772515620000061
其中n为局部特征块的个数,LSoftmax_i代表第i个局部特征图的交叉熵损失,Wi为第i个局部特征图的块权重。
第二方面,本发明提供了一种行人重识别装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明的目标是学***分块,该模块可以提取到更细节的行人信息,同时通过计算块权重指导交叉熵损失,使训练的模型更关注行人重要的信息。最后采用双分支联合训练的策略对模型进行训练。
有益效果:本发明提供的全局特征与阶梯型局部特征融合的行人重识别方法及装置,具有以下优点:
(1)本发明提出了全局特征与块权重指导的阶梯型局部特征融合的行人重识别方法,提高了行人重识别的准确率。首先将Resnet50网络作为骨干网络提取行人图像的全局特征;然后送入到所设计的分支网络分别提取全局特征和局部特征,最后将两个分支的特征进行融合,所得到的特征既包含了更抽象的全局特征,又包含了细节信息更多的局部特征,因此具有更强的鲁棒性。
(2)本发明采用广义均值池化作为聚合模块,该池化介于最大池化和均值池化之间,通过一种统一池化类型,能更好的捕捉特征差异性。
(3)多重感受野融合模块可以有效聚合不同感受野的特征,使行人重识别性能进一步得到提升。
(4)通过阶梯分块层阶梯型划分图像区域从而加强局部特征之间的联系,能够避免特征学习过程中某些重要信息的丢失。
(5)通过设计的块权重对局部分支的交叉熵损失进行指导,可以使模型训练过程中更关注图片的关键信息,训练得到的模型也能更好的提取关键特征。
附图说明
图1为根据本发明一实施例的行人重识别网络框架图;
图2为根据本发明一实施例的通道注意力模块示意图;
图3为根据本发明一实施例中多重感受野融合模块示意图;
图4为根据本发明一实施例中空间注意力模块示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
一种行人重识别方法,包括:
获取待识别图像和图库图像;
利用预训练好的行人重识别网络模型对所述待识别图像、图库图像分别进行提取得到待识别图像行人特征、图库图像行人特征;
将待识别图像行人特征与图库图像行人特征进行相似度匹配,输出相似度排名前N的行人图像,作为行人重识别结果;
其中,所述行人重识别网络模型的构建方法包括:
构建行人重识别网络,行人重识别网络包括骨干网络、改进的全局特征分支和块权重指导的阶梯型局部特征提取分支;所述骨干网络为Resnet50,并加载好预训练权重;所述改进的全局特征分支接在骨干网络Conv5_x上,包括通道注意力模块、多重感受野融合模块、GeM池化层、全连接层,被配置为提取行人全局特征;所述块权重指导的阶梯型局部特征提取分支接在骨干网络Conv4_x后,包括阶梯分块层、池化层、空间注意力模块、全连接层,被配置为提取行人局部特征;所述行人全局特征和行人局部特征连接起来作为最终行人特征;
采用公开的数据集训练行人重识别网络,获得训练好的行人重识别网络模型。
在一些实施例中,所述改进的全局特征分支的构建方法包括:
将从骨干网络Conv5_x得到的特征图作为输入,先经过通道注意力模块提取显著的行人信息,再通过多重感受野融合模块获取行人不同感受野下的特征信息进行融合,之后经过GeM池化层进行GeM池化,得到2048维的特征向量,使用难样本采样三元组损失约束,同时该特征向量接到全连接层上进行降维,得到512维的全局特征,使用交叉熵损失约束,利用三元组损失和交叉熵损失进行联合优化训练。
进一步地,所述通道注意力模块中,输入的特征图同时采用最大池化与平均池化得到两个一维的向量,之后被送进权重共享的多层感知机中,将输出进行逐元素的相加后经过Sigmoid激活得到对应的注意力权重;
所述GeM池化层公式为:
Figure BDA0003772515620000101
其中,X为GeM池化层的输入,f为GeM池化层的输出,pk是一个超参数,在反向传播的过程中学习;
所述多重感受野融合模块包含3个分支,对输入的特征X分别经过卷积核大小为3×3,空洞率分别为1、2、3的分支进行卷积操作得到3个特征图,将此3个特征图进行融合为最终的输出X′。
在一些实施例中,所述块权重指导的阶梯型局部特征提取分支的构建方法包括:
将经过骨干网络Conv4_x得到的特征图作为输入,通过阶梯分块层得到9个局部特征图,对9个局部特征图进行池化操作得到9个1024维特征向量,然后经过第一全连接层进行降维得到9个256维特征向量,将所有降至256维的特征向量分别送入第二全连接层后使用交叉熵损失进行分类学习;
同时对骨干网络Conv4_x得到的特征图经过空间注意力模块、阶梯分块层后得到的9个局部特征图计算块权重,用块权重指导交叉熵损失。
进一步地,所述阶梯分块层首先将原始完整行人图像特征均匀分成12个水平块,最初以第1块为起始块,每4块为一个整体作为一个局部区域,随后以步长为1往下更改起始块进行阶梯型分块,最终得到9个局部特征图。
所述空间注意力模块,先在通道注意力模块中对输入H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述,并将这两个通道描述按照通道拼接在一起;然后,经过一个7×7的卷积层,激活函数为Sigmoid,得到H×W×1的空间注意力权重系数;
所述块权重计算方法包括:将空间注意力模块输出的H×W×1的空间注意力权重系数送入阶梯分块层得到9个局部系数块,分别用每个局部系数块的系数和除以9个系数块的系数总和得到9个块权重。
在一些实施例中,所述行人重识别网络模型采用双分支联合训练进行训练,联合训练损失函数Ltotal=Lglobal+Llocal,其中Lglobal代表改进的全局特征分支损失,Llocal代表块权重指导的阶梯型局部特征分支损失。
进一步地,改进的全局特征分支损失Ltotal=LSoftmax+Ltri_hard,其中LSoftmax为交叉熵损失,Ltri_hard为难样本采样三元组损失,
Figure BDA0003772515620000111
其中,N是批次数,H表示行人数,fi是图像i的特征向量,其真实标签为yi,W为权重,b是偏置;
Figure BDA0003772515620000112
是第k个行人的权重向量的转置,bk是第k个行人的偏置向量;
Figure BDA0003772515620000121
采用难例样本挖掘三元组损失函数进行训练,三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组,训练时在每个批次中挑选出P个行人,每个行人挑选出K张图像,三元组均来自于P×K张图像,通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失,其中mar为设置的超参数,dan,pos是锚点与正样本的距离,dan,neg是锚点与负样本的距离,A、B表示该P×K张图像中不同的样本集,即所选正样本和负样本不重合;损失函数的最小化,就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。
进一步地,权重指导的阶梯型局部特征分支损失
Figure BDA0003772515620000122
其中n为局部特征块的个数,LSoftmax_i代表第i个局部特征图的交叉熵损失,Wi为第i个局部特征图的块权重。
在一些实施例中,提供的全局特征与块权重指导的阶梯型局部特征融合的行人重识别方法,包括以下步骤:
步骤1:构建行人重识别网络,包括骨干网络、改进的全局特征分支、块权重指导的阶梯型局部特征提取分支;如图1所示;
本实施例中骨干网络resnet50分为5层,其中把最后一个卷积层的步长由2设为1使Conv4_x与Conv5_x采样的特征图具有相同的尺寸;
本实施例采用双分支网络进行联合训练,其中全局特征分支包括通道注意力模块、多重感受野融合模块、GeM池化层、FC层;块权重指导的局部特征分支包括阶梯分块层、GeM池化层、空间注意力模块、FC层;联合训练公式为Ltotal=Lglobal+Llocal,其中Lglobal代表改进的全局特征分支损失,Llocal代表块权重指导的阶梯型局部特征分支损失;
本实施例中全局分支训练公式为Lglobal=LSoftmax+Ltri_hard,其中LSoftmax为交叉熵损失,Ltri_hard为难样本采样三元组损失,分别介绍两个公式:
Figure BDA0003772515620000131
其中,N是批次数,H表示行人数,fi是图像i的特征向量,其真实标签为yi,W为权重,b是偏置;
Figure BDA0003772515620000132
是第k个行人的权重向量的转置,bk是第k个行人的偏置向量;
Figure BDA0003772515620000133
采用难例样本挖掘三元组损失函数进行训练,三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组,训练时在每个批次中挑选出P个行人,每个行人挑选出K张图像,三元组均来自于P×K张图像,通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失,其中mar为设置的超参数,dan,pos是锚点与正样本的距离,dan,neg是锚点与负样本的距离,A、B表示该P×K张图像中不同的样本集,即所选正样本和负样本不重合;损失函数的最小化,就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化;
本实施例中局部分支训练公式为:
Figure BDA0003772515620000141
其中n为局部特征块数,LSoftnax_i代表第i个局部特征图的交叉熵损失,Wi为第i个局部特征图的块权重,本实施例中n=9;
本实施例中通道注意力模块如图2所示,在通道注意力模块中,输入的特征图同时采用最大池化与平均池化得到两个一维的向量,之后被送进权重共享的多层感知机中,将输出进行逐元素的相加后经过Sigmoid激活即可得到对应的注意力权重;
本实施例中多重感受野融合模块包含3个分支,对输入的行人特征X分别经过卷积核大小为3×3,空洞率分别为1、2、3的分支进行卷积操作得到3个特征图,将此3个特征图进行融合为最终的输出X′;
本实施例中GeM池化层所述池化公式为:
Figure BDA0003772515620000142
其中,X为池化层的输入,f为池化层的输出,pk是一个超参数,在反向传播的过程中学习;
本实施例中阶梯分块层将首先将原始完整行人图像特征均匀分成12个水平块,最初以第1块为起始块,每4块为一个整体作为一个局部区域,随后以步长为1往下更改起始块进行阶梯型分块,最终得到9个局部特征图。
本实施例中空间注意力模块将Conv4_x输出的H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述,并将这两个描述按照通道拼接在一起。然后,经过一个7×7的卷积层,激活函数为Sigmoid,得到H×W×1的空间注意力权重系数。
本实施例中使用上述H×W×1的空间注意力权重系数,送入阶梯分块层得到9个局部系数块,分别用每个系数块的系数和除以9个系数块的系数总和得到9个块权重。
步骤2:训练行人重识别网络,获得训练好的行人重识别网络模型;
从公开数据源中获取训练数据并预处理,将预处理后的图像数据分为训练集和测试集,将训练集送入行人重识别网络进行训练,获得训练后的行人重识别网络;通过测试集测试训练后的行人重识别网络,若满足预设要求,则停止训练,获得训练好的行人重识别网络,否则继续执行训练过程;
本实施例中,数据来源于几个公开数据集,如Market1501、DukeMTMC-Reid、MSMT17。从数据集中提取的图像通过水平翻转、随机擦除等预处理方法进行预处理;
本实施例中,对于给定尺寸大小为H×W×3的输入行人图像,首先将其调整为384×128×3的图像大小,之后使用随机擦除、图像翻转等方法对输入图像进行预处理;
本实施例采用损失函数衡量深度学习模型的预测能力,使用损失函数监督模型训练过程,从而缩小真实值与预测值差距的目的;
首先,对于给定大小为384×128×3的行人图像,经过骨干网ResNet50得到初始特征图;
将骨干网Conv4_x和Conv5_x输出的特征分别送入局部分支和全局分支进行进一步的特征提取;
对于全局分支,输入是通道数为2048的特征图,经过通道注意力模块计算通道注意力权重系数与之相乘后得到带注意力权重的特征,输出特征图通道数仍为2048;
将该带注意力权重的特征输入多重感受野融合模块,对输入的行人特征X分别经过卷积核大小为3×3,卷积核个数为2048,空洞率分别为1、2、3的分支进行卷积操作得到3个特征图,3个特征图尺寸相同,通道数都为2048,将此3个特征图进行相加融合为最终的输出;
将该2048维的特征图进行GeM池化得到1×1×2048的特征向量,使用三元组损失对其进行约束,同时该特征向量接到全连接层上进行降维,得到512维的特征向量,送入全连接层后使用标签平滑的交叉熵损失进行分类学习,利用三元组损失和交叉熵损失进行联合优化训练;
对于局部分支,输入是通道数为1024的特征图,通过阶梯分块层得到9个局部特征图,对其分别进行池化操作得到9个1024维特征向量,然后全连接进行降维得到9个256维特征向量,将所有降至256维的特征分别送入全连接层后使用交叉熵损失进行分类学习,同时使用计算的块权重乘上每个局部特征图的交叉熵损失,并将结果相加得到最终的局部分支损失;
训练阶段采用局部分支和全局分支联合训练的方式,训练公式为Ltotal=Lglobal+Llocal,直到总损失值Ltotal为最小时停止训练。
步骤3:通过训练的模型提取待识别图像的行人特征,将提取的特征与图库中各图像所对应的特征进行匹配,根据与待识别图像的相似度输出排名前N的行人图像;
将全局分支降至512维的特征向量和局部分支9个256维特征向量连接起来作为最终特征,通过计算查询图像与图像库中图像的余弦相似度,得出模型性能评价结果mAP、rank-1、rank-5和rank-10。
实施例2
第二方面,本实施例提供了一种行人重识别装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种行人重识别方法,其特征在于,包括:
获取待识别图像和图库图像;
利用预训练好的行人重识别网络模型对所述待识别图像、图库图像分别进行提取得到待识别图像行人特征、图库图像行人特征;
将待识别图像行人特征与图库图像行人特征进行相似度匹配,输出相似度排名前N的行人图像,作为行人重识别结果;
其中,所述行人重识别网络模型的构建方法包括:
构建行人重识别网络,行人重识别网络包括骨干网络、改进的全局特征分支和块权重指导的阶梯型局部特征提取分支;所述骨干网络为Resnet50,并加载好预训练权重;所述改进的全局特征分支接在骨干网络Conv5_x上,包括通道注意力模块、多重感受野融合模块、GeM池化层、全连接层,被配置为提取行人全局特征;所述块权重指导的阶梯型局部特征提取分支接在骨干网络Conv4_x后,包括阶梯分块层、池化层、空间注意力模块、全连接层,被配置为提取行人局部特征;所述行人全局特征和行人局部特征连接起来作为最终行人特征;
采用公开的数据集训练行人重识别网络,获得训练好的行人重识别网络模型。
2.根据权利要求1所述的行人重识别方法,其特征在于,所述改进的全局特征分支的构建方法包括:
将从骨干网络Conv5_x得到的特征图作为输入,先经过通道注意力模块提取显著的行人信息,再通过多重感受野融合模块获取行人不同感受野下的特征信息进行融合,之后经过GeM池化层进行GeM池化,得到2048维的特征向量,使用难样本采样三元组损失约束,同时该特征向量接到全连接层上进行降维,得到512维的全局特征,使用交叉熵损失约束,利用三元组损失和交叉熵损失进行联合优化训练。
3.根据权利要求1或2所述的行人重识别方法,其特征在于,所述通道注意力模块中,输入的特征图同时采用最大池化与平均池化得到两个一维的向量,之后被送进权重共享的多层感知机中,将输出进行逐元素的相加后经过Sigmoid激活得到对应的注意力权重;
和/或,所述GeM池化层公式为:
Figure FDA0003772515610000021
其中,X为GeM池化层的输入,f为GeM池化层的输出,pk是一个超参数,在反向传播的过程中学习;
和/或,所述多重感受野融合模块包含3个分支,对输入的特征X分别经过卷积核大小为3×3,空洞率分别为1、2、3的分支进行卷积操作得到3个特征图,将此3个特征图进行融合为最终的输出X′。
4.根据权利要求1所述的行人重识别方法,其特征在于,所述块权重指导的阶梯型局部特征提取分支的构建方法包括:
将经过骨干网络Conv4_x得到的特征图作为输入,通过阶梯分块层得到9个局部特征图,对9个局部特征图进行池化操作得到9个1024维特征向量,然后经过第一全连接层进行降维得到9个256维特征向量,将所有降至256维的特征向量分别送入第二全连接层后使用交叉熵损失进行分类学习;
同时对骨干网络Conv4_x得到的特征图经过空间注意力模块、阶梯分块层后得到的9个局部特征图计算块权重,用块权重指导交叉熵损失。
5.根据权利要求1或4所述的行人重识别方法,其特征在于,所述阶梯分块层首先将原始完整行人图像特征均匀分成12个水平块,最初以第1块为起始块,每4块为一个整体作为一个局部区域,随后以步长为1往下更改起始块进行阶梯型分块,最终得到9个局部特征图。
6.根据权利要求4所述的行人重识别方法,其特征在于,所述空间注意力模块,先在通道注意力模块中对输入H×W×C的特征先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述,并将这两个通道描述按照通道拼接在一起;然后,经过一个7×7的卷积层,激活函数为Sigmoid,得到H×W×1的空间注意力权重系数;
所述块权重计算方法包括:将空间注意力模块输出的H×W×1的空间注意力权重系数送入阶梯分块层得到9个局部系数块,分别用每个局部系数块的系数和除以9个系数块的系数总和得到9个块权重。
7.根据权利要求1所述的行人重识别方法,其特征在于,所述行人重识别网络模型采用双分支联合训练进行训练,联合训练损失函数Ltotal=Lglobal+Llocal,其中Lglobal代表改进的全局特征分支损失,Llocal代表块权重指导的阶梯型局部特征分支损失。
8.根据权利要求7所述的行人重识别方法,其特征在于,改进的全局特征分支损失Ltotal=LSoftmax+Ltri_hard,其中LSoftmax为交叉熵损失,Ltri_hard为难样本采样三元组损失,
Figure FDA0003772515610000041
其中,N是批次数,H表示行人数,fi是图像i的特征向量,其真实标签为yi,W为权重,b是偏置;
Figure FDA0003772515610000042
是第k个行人的权重向量的转置,bk是第k个行人的偏置向量;
Figure FDA0003772515610000043
采用难例样本挖掘三元组损失函数进行训练,三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组,训练时在每个批次中挑选出P个行人,每个行人挑选出K张图像,三元组均来自于P×K张图像,通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失,其中mar为设置的超参数,dan,pos是锚点与正样本的距离,dan,neg是锚点与负样本的距离,A、B表示该P×K张图像中不同的样本集,即所选正样本和负样本不重合;损失函数的最小化,就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。
9.根据权利要求7所述的行人重识别方法,其特征在于,权重指导的阶梯型局部特征分支损失
Figure FDA0003772515610000044
其中n为局部特征块的个数,LSoftmax_i代表第i个局部特征图的交叉熵损失,Wi为第i个局部特征图的块权重。
10.一种行人重识别装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述方法的步骤。
CN202210906148.6A 2022-07-29 2022-07-29 全局特征与阶梯型局部特征融合的行人重识别方法及装置 Pending CN115171165A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210906148.6A CN115171165A (zh) 2022-07-29 2022-07-29 全局特征与阶梯型局部特征融合的行人重识别方法及装置
PCT/CN2022/133947 WO2024021394A1 (zh) 2022-07-29 2022-11-24 全局特征与阶梯型局部特征融合的行人重识别方法及装置
US18/094,880 US20230162522A1 (en) 2022-07-29 2023-01-09 Person re-identification method of integrating global features and ladder-shaped local features and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210906148.6A CN115171165A (zh) 2022-07-29 2022-07-29 全局特征与阶梯型局部特征融合的行人重识别方法及装置

Publications (1)

Publication Number Publication Date
CN115171165A true CN115171165A (zh) 2022-10-11

Family

ID=83476623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210906148.6A Pending CN115171165A (zh) 2022-07-29 2022-07-29 全局特征与阶梯型局部特征融合的行人重识别方法及装置

Country Status (2)

Country Link
CN (1) CN115171165A (zh)
WO (1) WO2024021394A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449671A (zh) * 2021-07-08 2021-09-28 北京科技大学 一种多尺度多特征融合的行人重识别方法及装置
CN115841683A (zh) * 2022-12-27 2023-03-24 石家庄铁道大学 一种联合多级特征的轻量行人重识别方法
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及***
CN116912889A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 行人重识别方法及装置
WO2024021394A1 (zh) * 2022-07-29 2024-02-01 南京邮电大学 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN118262385A (zh) * 2024-05-30 2024-06-28 齐鲁工业大学(山东省科学院) 基于相机差异的调度序列及训练的行人重识别方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671396B (zh) * 2024-02-02 2024-04-26 新疆盛诚工程建设有限责任公司 施工进度的智能监控预警***及方法
CN117764988B (zh) * 2024-02-22 2024-04-30 山东省计算中心(国家超级计算济南中心) 基于异核卷积多感受野网络的道路裂缝检测方法及***
CN117876824B (zh) * 2024-03-11 2024-05-10 华东交通大学 多模态人群计数模型训练方法、***、存储介质及设备
CN117952977B (zh) * 2024-03-27 2024-06-04 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质
CN117994822B (zh) * 2024-04-07 2024-06-14 南京信息工程大学 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法
CN118115822B (zh) * 2024-04-29 2024-07-02 江西师范大学 一种基于图像块特征级联检索模型的异常检测方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516012B (zh) * 2021-04-09 2022-04-15 湖北工业大学 一种基于多层级特征融合的行人重识别方法及***
CN113408492B (zh) * 2021-07-23 2022-06-14 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法
CN115171165A (zh) * 2022-07-29 2022-10-11 南京邮电大学 全局特征与阶梯型局部特征融合的行人重识别方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449671A (zh) * 2021-07-08 2021-09-28 北京科技大学 一种多尺度多特征融合的行人重识别方法及装置
WO2024021394A1 (zh) * 2022-07-29 2024-02-01 南京邮电大学 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN115841683A (zh) * 2022-12-27 2023-03-24 石家庄铁道大学 一种联合多级特征的轻量行人重识别方法
CN115841683B (zh) * 2022-12-27 2023-06-20 石家庄铁道大学 一种联合多级特征的轻量行人重识别方法
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及***
CN116524602B (zh) * 2023-07-03 2023-09-19 华东交通大学 基于步态特征的换衣行人重识别方法及***
CN116912889A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 行人重识别方法及装置
CN116912889B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 行人重识别方法及装置
CN118262385A (zh) * 2024-05-30 2024-06-28 齐鲁工业大学(山东省科学院) 基于相机差异的调度序列及训练的行人重识别方法

Also Published As

Publication number Publication date
WO2024021394A1 (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN113516012B (zh) 一种基于多层级特征融合的行人重识别方法及***
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN109712105B (zh) 一种结合彩色和深度信息的图像显著目标检测方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN112633382B (zh) 一种基于互近邻的少样本图像分类方法及***
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110209859A (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN111046821A (zh) 一种视频行为识别方法、***及电子设备
CN112580480B (zh) 一种高光谱遥感影像分类方法及装置
CN112347995A (zh) 基于像素和特征转移相融合的无监督行人再识别方法
CN114140623A (zh) 一种图像特征点提取方法及***
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
CN117456480A (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
CN113537119A (zh) 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN116958687A (zh) 一种基于改进detr的面向无人机的小目标检测方法及装置
CN114418003B (zh) 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114067356B (zh) 基于联合局部引导与属性聚类的行人重识别方法
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
CN113128460B (zh) 基于知识蒸馏的多分辨率行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination