CN114511881A - 基于层次注意力多任务深度模型的行人再识别方法 - Google Patents
基于层次注意力多任务深度模型的行人再识别方法 Download PDFInfo
- Publication number
- CN114511881A CN114511881A CN202210106070.XA CN202210106070A CN114511881A CN 114511881 A CN114511881 A CN 114511881A CN 202210106070 A CN202210106070 A CN 202210106070A CN 114511881 A CN114511881 A CN 114511881A
- Authority
- CN
- China
- Prior art keywords
- model
- pedestrian
- focus
- pedestrians
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000011478 gradient descent method Methods 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims abstract description 6
- 238000004220 aggregation Methods 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000007786 learning performance Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 28
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012806 monitoring device Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
基于层次注意力多任务深度模型的行人再识别方法,涉及计算机视觉。包括以下步骤:根据行人再识别数据集构建焦点图;设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性;计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,得到训练好的模型;利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。能充分共享在底层细节和高层语义方面具有不同区分力的层次特征提升深度相似性学习性能。在焦点图节点多层近邻聚合间引入注意力机制,使每层近邻聚合后具有区分性的节点通道信息更具重要性,促进对样本间复杂相似性关系的深度推断。
Description
技术领域
本发明属于计算机视觉领域,尤其是涉及一种基于层次注意力多任务深度模型的行人再识别方法。
背景技术
由于公共安全需求的增加和大量监控设备的使用,行人再识别任务受到了越来越多的关注并成为计算机视觉领域中的研究热点之一。行人再识别任务的目标是,当视频监控中出现了目标任务时,它会去判断目标是否在另一个地方或时间被另一个监控设备观察到。正是因为行人再识别的跨设备识别要求,它的研究难点在于以下几个方面。首先,由于各个监控设备的地点不同,因此,拍摄的行人往往具有不同的角度和姿势,若角度和姿势的变化导致和目标差异多大,会增加再识别的难度。其次,拍摄行人时,可能处于白天,而该目标可能在晚上出现在另一个监控设备的画面中,所以目标会出现强烈的明暗变化,这也会导致识别难度增加。此外,由于监控设备所在之处的人流量难以控制,当人流量大时,难免会对目标造成某种程度的遮挡,而这会导致目标图像中混入噪声,因此对再识别算法也提出了更高的要求。
目前基于相似性学习的再识别方法是解决上述问题的研究热点之一。相似性学习的目的是学习一个映射空间,使得样本在这个空间中,同类的样本相互靠近,异类的样本相互远离。由于仅优化相似性学习方法容易产生次优解,因此,大部分相似性学习方法与多任务学习方法结合以解决这个问题,即增加一个分类任务,通过多任务学习机制同时优化分类任务和相似性学习任务,并提升相似性学习任务的性能。但大多数现有方法仍然存在着两个问题:
1)大多数方法仅从深层CNN中利用最后一个全连接层中提取一个深层特征。然而实际上网络中的低层会提取一些边缘特征,高层可以进行形状或目标的认知,仅用单层的特征会导致特征对于某些变化敏感,例如视角、光照等。
2)目前多任务相似性学习方法大多将样本组织成一些样本组来考虑样本间的相关性,例如一对、三元组、四元组等。这些方法在损失函数中嵌入距离信息,通过计算样本组内相关样本的距离迫使类内距离缩小,类间距离增大。但是,由于样本组内考虑的信息有限,以这种方式学习到的嵌入空间也许会存在一些问题,即,某些样本特征在样本组内是具有区分性的,但从整个嵌入空间来看,这种区分性会丢失,导致样本特征具有局部可区分性。虽然也有部分学者考虑利用图结构进行相似性学习,以考虑更丰富的样本关系,但是这类方法没有充分利用共享特征,忽略了共享特征对于任务性能提升的重要性,使得性能受限。
因此在行人再识别方法中,不仅要考虑多层次特征带来的细节和语义信息,还要考虑样本间更丰富的关系进行相似性学习,并且需要设计共享特征的方式进行端到端训练,使得子任务之间能够相互提升。
发明内容
本发明针对上述问题和技术分析,提供一种基于层次注意力多任务深度模型的行人再识别方法。
本发明包括以下步骤:
1)根据行人再识别数据集构建焦点图;
2)设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性;
3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,最终得到训练好的模型;
4)利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。
在步骤1),所述根据行人再识别数据集构建焦点图的具体步骤可为:
1.1首先,利用预训练的ResNet-50网络(K.He,X.Zhang,S.Ren,and J.Sun,“Deepresidual learning for image recognition,”in Computer Vision and PatternRecognition(CVPR), 2016,pp.770–778)提取训练集中所有行人图像的深度特征;
1.2将每一个特征都当作是一个焦点,计算每个焦点和其他所有节点的欧氏距离并当作相似度,求得每个焦点的前k个近邻;
1.3针对每个焦点和它的近邻集,为它们之间建立连接以构建焦点图;建立连接的具体规则为:若某个近邻的近邻集中存在节点,也在当前焦点的近邻集中,就将这些节点和这个近邻相连,则对于当前焦点,它的焦点图建立完毕,然后对其他所有焦点重复1.2和1.3步骤,即可得到所有的焦点图。
在步骤2)中,所述设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性,具体步骤可为:
2.1在第一个节点分类任务中,ResNet-50模型为主干网络,提取焦点图中节点的特征, ResNet-50在第一次卷积之后被分成三个阶段,分别是第二、三、四层残差层;每个阶段后增加了一个特征增强模块。特征增强模块内部,首先对输入的特征分别进行全局平均池化和全局最大池化,并将两个池化结果相加后,进行批正则化,激活后再进入一个神经元个数为512 的全连接层中,最后输出该阶段的特征。在第一个卷积和所有残差层之后,增加特征通道注意力学习模块,在该特征通道注意力学习模块中,学习每个通道特征的权重,权重大小控制在0~1之间,然后将权重和原特征相乘,再进行下一阶段的操作。
2.2在相似性推断任务中,设计了关系增强图卷积网络;焦点图的特征和邻接矩阵输入后,首先经过图卷积对节点特征矩阵进行邻域聚合和转换,对特征进行全局平均池化,压缩后输入到两个全连接层中,最后通过激活函数将其大小限制在0~1之间,然后在乘上图卷积输出之后的特征,并作为下一阶段的输入。最后的节点特征会经过两个全连接层,最后一个全连接层的神经元个数是2,表示将对特征进行二分类。
在步骤3)中,计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,具体步骤为:
3.1节点分类任务中,三个阶段的特征按列拼接后,融合成一个共享特征,该共享特征经过一个全连接层,对其进行分类训练,损失函数为交叉熵损失。相似性推断任务中,关系增强图卷积之后的特征经过两个全连接层,对其进行二分类,用于预测节点之间是否应当连接。
3.2两个任务的损失相加作为总损失,通过反向传播和随机梯度下降法对网络模型进行训练更新。
与现有的技术相比,本发明具有以下突出的优点:
本发明提出一种端到端的层次注意力的多任务深度模型框架,其可以利用节点分类任务辅助相似性推断任务。其中,为了解决单一特征的敏感性问题,我们还设计了具有特征增强功能的网络,使得整个模型能够充分共享在底层细节和高层语义方面具有不同区分力的层次特征来提升深度相似性学习的性能。此外,本发明设计了一种焦点图来表达数据间丰富的相关性,进而提出了关系增强图卷积网络,其在焦点图节点多层近邻聚合间引入注意力机制,使每层近邻聚合后具有区分性的节点通道信息更具重要性,可促进对样本间复杂相似性关系的深度推断。
附图说明
图1为构建焦点图示意图。
图2为本发明实施例的框架图。
图3为特征通道注意力学习模块框架图。
图4为特征增强模块框架图。
具体实施方式
下面将结合实施例和附图,对本发明的方法详细说明。
本发明实施例包括以下步骤:
1)根据行人再识别数据集构建焦点图。给定一个行人图像,该步骤的目的是为该行人建立一个焦点图,获取该图中节点对应的行人图像和该图的邻接矩阵。假设所有图像的集合为 D={v1,v2,…,vo},其中o表示所有样本的数量。以一张焦点图为例,我们现在对图像vf建立它的焦点图,它可以表示为其中,V(f)表示以vf为焦点而采样的图像,A(f)表示该图的邻接矩阵。为了获取V(f),首先利用一个预训练的ResNet-50提取数据集中的所有图片特征,然后计算节点vf和其他所有图像之间的欧式距离:
min(k)表示选择前k个最小值。然后,为了获得A(f),需要确定图内节点确立怎样的关系。具体建立连接的规则如图1所示。图中vf为焦点,其余节点组成了它的节点集V(f),对于其中的某个节点来说,它也存在自己的点集,假设节点同样也在的节点集中,那么就将与建立连接。对V(f)中的每一个节点都做这样的评估,就可以得到A(f),也就由此建立。
2)设计基于层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性。整体网络模型参见图2。
2.1在节点分类任务中,ResNet-50模型为主干网络,它主要由卷积层、最大池化层和四个残差块组成;在四个残差块前分别加上对应维度的特征通道注意力学习模块,然后对第二、三、四模块的输出做特征增强处理。
特征增强模块的结构参见图4。已知骨干网络第二、三、四个残差块之后的图内某个节点的特征分别为X(i)∈RW×H×C,分别用全局平均池化和全局最大池化对X(i)处理,得到和然后将和相加,并经过一个全连接层,得到最后将获取的m(2),m(3),m(4)按行拼接得到m,即网络的结果。同样的,可以得到图中节点集的特征嵌入M(f),且
其中,上标l表示图卷积的层号,W(l-1)表示第l-1层的图卷积参数,D 表示A(f)的对角度矩阵,然后对的维度拓展,即之后经过全局平均池化,得到特征通道的初始权重cw。cw经过压缩维度后,利用批标准化处理、全连接层、非线性激活函数学习,最后利用一个sigmoid激活函数得到处于0和1之间的值,即然后将和对应位置相乘,即可得到带有注意力机制的节点特征矩阵并作为下一层的输入。
3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练。首先对于节点分类,在得到节点特征矩阵M(f)后,会经过一个具有类别数量神经元的全连接层。然后利用一个多分类的交叉熵损失函数进行节点分类任务:
Cls表示节点的类别数,若当前节点i属于第j类,那tij就为1,否则为0。在相似性推断任务中,首先利用节点特征初始化边的特征E(f),然后利用一个全连接层转换边的特征,经过激活函数后,对边的特征利用一个全连接层进行二分类。最后一个全连接层的神经元数量为 2,然后,利用一个二分类的交叉熵损失函数训练,即:
其中,yci表示中心节点vc与它的第i个邻居vi之间是否真实连接,连接则为1,否则为0。表示模型预测出的vc与vi连接的概率。因此我们模型的联合损失即为L=L1+L2,通过计算L的损失值,并通过反向传播和随机梯度下降法的端到端训练,整个网络模型会迭代更新参数值直至最优。
4)利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。
在Market-1501、DukeMTMC-reID行人再识别数据集上,本发明提出的方法和其他行人再识别实验结果对比如表1和表2所示。
表1
表2
其中:
MHN对应B.Chen等人提出的方法(B.Chen,W.Deng,J.Hu,Mixed high-orderattention network for person re-identification,in:Proceedings of the IEEEInternational Conference on Computer Vision,2019,pp.371–381.);
CBN对应Z.Zhuang等人提出的方法(Z.Zhuang,L.Wei,L.Xie,T.Zhang,H.Zhang,H.Wu, H.Ai,Q.Tian,Rethinking the distribution gap of person re-identificationwith camera-based batch normalization,in:ECCV,2020.);
SAN对应C.Shen等人的方法(C.Shen,G.Qi,R.Jiang,Z.Jin,H.Yong,Y.Chen,andX.Hua, “Sharp attention network via adaptive sampling for person re-identification,”IEEE Transactions on Circuits and Systems for VideoTechnology,vol.29,no.10,pp.3016–3027,2019.)
PCB+RPP对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,Y.Yang,Q.Tian,andS.Wang, “Beyond part models:Person retrieval with refined part pooling(and astrong convolutional baseline),”in Proceedings of the European Conference onComputer Vision(ECCV),September 2018,pp.480–496.);
MuDeep对应X.Qian等人提出的方法(X.Qian,Y.Fu,T.Xiang,Y.G.Jiang,X.Xue,Leader-based multi-scale attention deep architecture for person re-identification,IEEE Transactions on Pattern Analysis and Machine Intelligence42(2)(2020)371–385.);
DLPA对应L.Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProceedings of the IEEE International Conference on Computer Vision(ICCV),Oct2017,pp.3219–3228.);
MVP对应H.Sun等人提出的方法(H.Sun,Z.Chen,S.Yan,L.Xu,Mvp matching:Amaximum-value perfect matching for mining hard samples,with application toperson re-identification,in:Proceedings of the IEEE International Conferenceon Computer Vision,2019, pp.6737–6747.);
Pyramidal对应F.Zheng等人提出的方法(F.Zheng,C.Deng,X.Sun,X.Jiang,X.Guo,Z.Yu, F.Huang,R.Ji,Pyramidal person re-identification via multi-lossdynamic training,in:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2019,pp.8514–8522);
SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,S.Wang,Svdnet forpedestrian retrieval,in:2017 IEEE International Conference on Computer Vision(ICCV),2017,pp. 3820–3828.);
Structural对应X.Yang等人提出的方法(X.Yang,P.Zhou,M.Wang,Personreidentification via structural deep metric learning,IEEE Transactions onNeural Networks and Learning Systems 30(10)(2019)2987–2998.);
Group-shuffling对应Y.Shen等人提出的方法(Y.Shen,H.Li,T.Xiao,S.Yi,D.Chen,X. Wang,Deep group-shuffling random walk for person re-identification,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018.);
SGGNN对应Y.Shen等人提出的方法(Y.Shen,H.Li,S.Yi,D.Chen,X.Wang,Personre-identification with deep similarity-guided graph neural network,in:Proceedings of the European Conference on Computer Vision(ECCV),2018.);
CACE-Net对应X.Jiang等人提出的方法(X.Jiang,F.Yu,Y.Gong,S.Zhao,X.Guo,F.Huang,W.-S.Zheng,X.Sun,Devil’s in the detail:Graph-based key-point alignmentand embedding for 760 person re-id,arXiv preprint arXiv:2009.05250.);
P2-Net对应J.Guo等人提出的方法(J.Guo,Y.Yuan,L.Huang,C.Zhang,J.-G.Yao,and K. Han,“Beyond human parts:Dual part-aligned representations for personreidentification,”in Proceedings of the IEEE/CVF International Conference onComputer Vision(ICCV),October 2019, pp.3642–3651)
SPReID对应M.M.Kalayeh等人提出的(M.M.Kalayeh,E.Basaran,M.G¨okmen,M.E.Kamasak,and M.Shah,“Human semantic parsing for person re-identification,”inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2018,pp. 1062–1071.)
PIE对应L.Zheng等人提出的方法(L.Zheng,Y.Huang,H.Lu,Y.Yang,Pose-invariant embedding for deep person re-identification,IEEE Transactions onImage Processing 28(9)(2019) 4500–4509.);
AVA-reID对应L.Wu等人提出的方法(L.Wu,R.Hong,Y.Wang,and M.Wang, “Cross-entropy adversarial view adaptation for person re-identification,”IEEETransactions on Circuits and Systems for Video Technology,vol.30,no.7,pp.2081–2092,2020.)
CL对应W.Wang等人提出的方法(W.Wang,W.Pei,Q.Cao,S.Liu,G.Lu,and Y.W.Tai,“Push for center learning via orthogonalization and subspace masking forperson re-identification,” IEEE Transactions on Image Processing,vol.30,pp.907–920,2021.)。
Claims (4)
1.基于层次注意力多任务深度模型的行人再识别方法,其特征在于包括以下步骤:
1)根据行人再识别数据集构建焦点图;
2)设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性;
3)计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,最终得到训练好的模型;
4)利用训练好的网络模型测试行人再识别的识别效果,输出行人间的相似度,并按照其大小降序排序。
2.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法,其特征在于在步骤1)中,所述根据行人再识别数据集构建焦点图的具体步骤为:
1.1利用预训练的ResNet-50网络提取训练集中所有行人图像的深度特征;
1.2将每一个特征都当作是一个焦点,计算每个焦点和其他所有节点的欧氏距离并当作相似度,求得每个焦点的前k个近邻;
1.3针对每个焦点和它的近邻集,为它们之间建立连接以构建焦点图;建立连接的具体规则为:若某个近邻的近邻集中存在节点,也在当前焦点的近邻集中,则将这些节点和这个近邻相连;那么对于当前焦点,它的焦点图建立完毕,然后对其他所有焦点重复1.2和1.3步骤,即得到所有的焦点图。
3.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法,其特征在于在步骤2)中,所述设计层次注意力的多任务深度模型的行人再识别网络模型,通过该模型推断出行人间的相似性,具体步骤为:
2.1在第一个节点分类任务中,ResNet-50模型为主干网络,提取焦点图中节点的特征,ResNet-50在第一次卷积之后被分成三个阶段,分别是第二、三、四层残差层;每个阶段后增加了一个特征增强模块;特征增强模块内部,首先对输入的特征分别进行全局平均池化和全局最大池化,并将两个池化结果相加后,进行批正则化,激活后再进入一个神经元个数为512的全连接层中,最后输出该阶段的特征;在第一个卷积和所有残差层之后,增加特征通道注意力学习模块,在该特征通道注意力学习模块中,学习每个通道特征的权重,权重大小控制在0~1之间,然后将权重和原特征相乘,再进行下一阶段的操作;
2.2在相似性推断任务中,设计了关系增强图卷积网络;焦点图的特征和邻接矩阵输入后,首先经过图卷积对节点特征矩阵进行邻域聚合和转换,对特征进行全局平均池化,压缩后输入到两个全连接层中,最后通过激活函数将其大小限制在0~1之间,然后在乘上图卷积输出之后的特征,并作为下一阶段的输入;最后的节点特征会经过两个全连接层,最后一个全连接层的神经元个数是2,表示将对特征进行二分类。
4.如权利要求1所述基于层次注意力多任务深度模型的行人再识别方法,其特征在于在步骤3)中,计算两个子任务的分类损失和,通过反向传播和随机梯度下降法对网络模型进行端到端的训练,具体步骤为:
3.1节点分类任务中,三个阶段的特征按列拼接后,融合成一个共享特征,该共享特征经过一个全连接层,对其进行分类训练,损失函数为交叉熵损失;相似性推断任务中,关系增强图卷积之后的特征经过两个全连接层,对其进行二分类,用于预测节点之间是否应当连接;
3.2两个任务的损失相加作为总损失,通过反向传播和随机梯度下降法对网络模型进行训练更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210106070.XA CN114511881A (zh) | 2022-01-28 | 2022-01-28 | 基于层次注意力多任务深度模型的行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210106070.XA CN114511881A (zh) | 2022-01-28 | 2022-01-28 | 基于层次注意力多任务深度模型的行人再识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511881A true CN114511881A (zh) | 2022-05-17 |
Family
ID=81552242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210106070.XA Pending CN114511881A (zh) | 2022-01-28 | 2022-01-28 | 基于层次注意力多任务深度模型的行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511881A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695460A (zh) * | 2020-05-29 | 2020-09-22 | 天津师范大学 | 一种基于局部图卷积网络的行人再识别方法 |
US20210150268A1 (en) * | 2017-07-13 | 2021-05-20 | Peking University Shenzhen Graduate School | Method of using deep discriminate network model for person re-identification in image or video |
-
2022
- 2022-01-28 CN CN202210106070.XA patent/CN114511881A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210150268A1 (en) * | 2017-07-13 | 2021-05-20 | Peking University Shenzhen Graduate School | Method of using deep discriminate network model for person re-identification in image or video |
CN111695460A (zh) * | 2020-05-29 | 2020-09-22 | 天津师范大学 | 一种基于局部图卷积网络的行人再识别方法 |
Non-Patent Citations (1)
Title |
---|
郑鑫;林兰;叶茂;王丽;贺春林;: "结合注意力机制和多属性分类的行人再识别", 中国图象图形学报, no. 05, 16 May 2020 (2020-05-16), pages 90 - 99 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hao et al. | HSME: Hypersphere manifold embedding for visible thermal person re-identification | |
CN109508663B (zh) | 一种基于多层次监督网络的行人重识别方法 | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
Li et al. | A survey on semantic segmentation | |
Wang et al. | Regional detection of traffic congestion using in a large-scale surveillance system via deep residual TrafficNet | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN109214263A (zh) | 一种基于特征复用的人脸识别方法 | |
CN112766280A (zh) | 一种基于图卷积的遥感图像道路提取方法 | |
CN112801015A (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
Jain et al. | AI-enabled object detection in UAVs: challenges, design choices, and research directions | |
Chavan et al. | Convolutional neural network hand gesture recognition for American sign language | |
CN113361549A (zh) | 一种模型更新方法以及相关装置 | |
CN111695460A (zh) | 一种基于局部图卷积网络的行人再识别方法 | |
John et al. | Real-time hand posture and gesture-based touchless automotive user interface using deep learning | |
Petrovai et al. | Multi-task network for panoptic segmentation in automated driving | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection | |
CN115953643A (zh) | 基于知识蒸馏的模型训练方法、装置及电子设备 | |
CN114241250A (zh) | 一种级联回归目标检测方法、装置及计算机可读存储介质 | |
CN112070010A (zh) | 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法 | |
CN111695531A (zh) | 一种基于异构卷积网络的跨域行人再识别方法 | |
CN117523208B (zh) | 基于图像语义分割与分类的身份识别方法与*** | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别*** | |
WO2023029559A1 (zh) | 一种数据处理方法以及装置 | |
CN114511881A (zh) | 基于层次注意力多任务深度模型的行人再识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |