CN114821631A - 基于注意力机制与多尺度特征融合的行人特征提取方法 - Google Patents

基于注意力机制与多尺度特征融合的行人特征提取方法 Download PDF

Info

Publication number
CN114821631A
CN114821631A CN202210226785.9A CN202210226785A CN114821631A CN 114821631 A CN114821631 A CN 114821631A CN 202210226785 A CN202210226785 A CN 202210226785A CN 114821631 A CN114821631 A CN 114821631A
Authority
CN
China
Prior art keywords
pedestrian
feature
map
attention mechanism
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210226785.9A
Other languages
English (en)
Inventor
孙晓明
段彦
陈言
王永亮
张微风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210226785.9A priority Critical patent/CN114821631A/zh
Publication of CN114821631A publication Critical patent/CN114821631A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明基于注意力机制与多尺度特征融合的行人特征提取方法属于计算机视觉、机器视觉和深度学习技术领域;该方法依次执行以下步骤:构建自上而下渐进式交互模块;构建M‑Convolution注意力机制模块;设置评价指标;评价行人特征提取方法的有效性;本发明在数据集上通过Resnet50+FPN、Resnet50+FPN+M‑convolution、Resnet50+MPN三种行人特征提取方法进行训练,经过对比mAP、Rank‑1和Rank‑5三个衡量指标,本发明构建的两个模块在三个指标上的表现均有不同程度的提高,验证了基于注意力机制与多尺度特征融合的行人特征提取方法的有效性,具有较大的实用价值。

Description

基于注意力机制与多尺度特征融合的行人特征提取方法
技术领域
本发明基于注意力机制与多尺度特征融合的行人特征提取方法属于计算机视觉、机器视觉和深度学习技术领域。
背景技术
近年来,行人重识别技术发展的越来越成熟,对建设智能安防***和构建智慧城市做出的巨大贡献,行人重识别技术主要依赖于行人特征提取。
早期研究中,行人特征提取依赖于单一手工特征设计方式,Gheissari N等人在实验中对HOG特征向量使用加权的方法提取的行人特征信息并进行数据增强,使用MIT数据集进行模型训练以及算法验证,达到了77%的识别精度。然而,手工特征设计方式较为复杂,而且在背景遮挡、人物遮挡等复杂场景下,模型特征表达能力明显不足,降低了行人特征提取精确度。
随着深度学习的发展,卷积神经网络凭借强大的特征提取能力以及模型扩展能力在行人检测、识别、跟踪方面发挥着强大的生命力,之后大量基于卷积神经网络的衍生算法被提出,进一步提高了该框架在行人检测任务中的准确度。然而,这些行人特征提取方法仍然受到背景遮挡、人物遮挡等因素的影响,行人重识别的检测精确度表现仍然不太理想。
可见,为了提高行人重识别的识别精确度,有必要对行人特征提取方法进行改进升级。
发明内容
为了实现上述目的,本发明公开了一种基于注意力机制与多尺度特征融合的行人特征提取方法,提出了一种基于注意力机制与多尺度特征融合的行人特征提取网络,包括自上而下渐进式交互模块和M-Convolution注意力机制模块,提高了行人识别的准确率,具有较大的实用价值。
本发明的目的是这样实现的:
基于注意力机制与多尺度特征融合的行人特征提取方法,包括以下步骤:
步骤a、构建自上而下渐进式交互模块;
步骤b、构建M-Convolution注意力机制模块;
步骤c、设置评价指标;
步骤d、评价行人特征提取方法的有效性。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤a具体步骤如下:
步骤a1、输入行人图像,采用残差网络Resnet50完成特征卷积计算,生成的四个特征图,{C2,C3,C4,C5}表示所述四个特征图;
步骤a2、将较低层次相邻的特征图{C4,C5}进行跨尺度非局部特征操作,将重复出现的行人特征信息进行融合得到特征图
Figure BDA0003539551950000021
所述跨尺度非局部特征操作公式如下:
Figure BDA0003539551950000022
Figure BDA0003539551950000023
Figure BDA0003539551950000024
f(Fi)=WfFi
g(Gj)=WgGj
θ=WθGj
其中,F、G为两个行人特征图;i,j为特征图F、G、y的位置索引;∑为求和符号;φ为点乘进行相似度计算函数;θ为行人特征转换函数;Gj为生成新的行人特征图;yi为行人特征信息;σ(F,G)为标量函数;r*r为斑块区域的大小;δ(r)为邻域大小;Wf、Wg、Wθ为线性嵌入函数实现从向量到标量的转化;e为自然常数;T为转置符号;f(Fi)Tg(Gj)为点乘相似度计算公式;
步骤a3、将特征图
Figure BDA0003539551950000025
和特征图{C3}再次进行跨尺度非局部特征操作,将重复出现的行人特征信息再次进行融合得到特征图
Figure BDA0003539551950000026
步骤a4、将得到的特征图进行级联操作和上采样操作之后,输入到注意力机制模块。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤b具体步骤如下:
步骤b1、在通道和空间两个维度通过CBAM网络模型结构进行特征捕捉,得到特征图A;具体步骤如下:
步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉;
步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉;
步骤b2、计算特征图之间的关联性并且增添注意力权重K,输出行人特征图,所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度;
所述输出行人特征公式如下:
Figure BDA0003539551950000031
AK=F2(A,K)=K+A⊙K
其中,I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征;l=0,...,N-1;m=0,...,H-1;n=0,...,W-1;o=0,...,c1-1;p=0,...,c2-1;
Figure BDA0003539551950000032
为输入特征;N、c1、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度;
Figure BDA0003539551950000033
为权重;
Figure BDA0003539551950000034
为输出特征;c2、h和w分别是输出通道的数量、输出行人特征图的高度和宽度;
Figure BDA0003539551950000035
为注意力机制行人特征;⊙表示哈达玛乘积;
Figure BDA0003539551950000036
表示卷积运算;∑为求和符号;
Figure BDA0003539551950000037
F1、F2为函数;
步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作,最终得到预测特征图{P2,P3,P4,P5,P6}。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤c具体步骤如下:
步骤c1、绘制累积匹配曲线CMC图;
步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标;具体步骤如下:
步骤c2-1、计算每个查询行人图像的准确率P(k,A);计算公式如下:
Figure BDA0003539551950000038
其中,k表示返回的前k个行人排序结果;kc表示k个行人中正例样本的数目;A为查询的图像;P为准确率;
步骤c2-2、计算每个查询行人图像的平均值AP(A);计算公式如下:
Figure BDA0003539551950000039
其中,M为候选行人图库中与查询的图像A同标签的行人图片数目;j为M个正例行人样本在返回的排序结果中的位置索引;
步骤c2-3、计算平均精度均值mAP;计算公式如下:
Figure BDA0003539551950000041
其中,N为检索行人图像的数量;
步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5;计算公式如下:
Figure BDA0003539551950000042
Figure BDA0003539551950000043
其中,cn-1表示N次查询中,排在第一位的检测结果是正确行人对象的次数;cn-5表示N次查询中,排在第五位的检测结果是正确行人对象的次数。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤d具体步骤如下:
步骤d1、使用难样本采样三元组损失调整网络;计算公式如下:
Figure BDA0003539551950000044
其中,LID为标签平滑分类损失;Ltrihard为难样本采样三元组损失;b表示每批次训练样本数;||fHi-fPi||2表示两个行人特征之间的距离;H和P是同一行人的样本;H和N代表不同行人的样本;α表示距离间隔;
步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练;
步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。
有益效果:
本发明设计了一种基于注意力机制与多尺度特征融合的行人特征提取方法,提出了一种基于注意力机制与多尺度特征融合的行人特征提取网络,包括自上而下渐进式交互模块和M-Convolution注意力机制模块,提高了行人识别的准确率,具有较大的实用价值。
附图说明
图1为自上而下渐进式交互模块结构图。
图2为残差网络Resnet50结构图。
图3为双线性插值法示意图。
图4为M-Convolution注意力机制模块结构图。
图5为CBAM网络模型结构图。
图6为通道注意力子模块结构图。
图7为空间注意力子模块结构图。
图8为特征图金字塔网络FPN工作原理示意图。
图9为三种提取方法在Market-150数据集上训练得到的累积匹配曲线CMC图。
图10为三种提取方法在DukeMTMC-reID数据集上训练得到的累积匹配曲线CMC图。
具体实施方式
下面结合附图对本发明具体实施方式作进一步详细描述。
本发明基于注意力机制与多尺度特征融合的行人特征提取方法,包括以下步骤:
步骤a、构建自上而下渐进式交互模块;
步骤b、构建M-Convolution注意力机制模块;
步骤c、设置评价指标;
步骤d、评价行人特征提取方法的有效性。
其中,自上而下渐进式交互模块结构图如图1所示,步骤a具体步骤如下:
步骤a1、输入行人图像,采用如图2所示的残差网络Resnet50完成特征卷积计算,生成的四个特征图,{C2,C3,C4,C5}表示所述四个特征图;
步骤a2、将较低层次相邻的特征图{C4,C5}进行跨尺度非局部特征操作,将重复出现的行人特征信息进行融合得到特征图
Figure BDA0003539551950000051
所述跨尺度非局部特征操作公式如下:
Figure BDA0003539551950000052
Figure BDA0003539551950000053
Figure BDA0003539551950000054
f(Fi)=WfFi
g(Gj)=WgGj
θ=WθGj
其中,F、G为两个行人特征图;i,j为特征图F、G、y的位置索引;∑为求和符号;φ为点乘进行相似度计算函数;θ为行人特征转换函数;Gj为生成新的行人特征图;yi为行人特征信息;σ(F,G)为标量函数;r*r为斑块区域的大小;δ(r)为邻域大小;Wf、Wg、Wθ为线性嵌入函数实现从向量到标量的转化;e为自然常数;T为转置符号;f(Fi)Tg(Gj)为点乘相似度计算公式;
步骤a3、将特征图
Figure BDA0003539551950000061
和特征图{C3}再次进行跨尺度非局部特征操作,将重复出现的行人特征信息再次进行融合得到特征图
Figure BDA0003539551950000062
步骤a4、将得到的特征图进行级联操作和上采样操作之后,输入到注意力机制模块;
其中,级联操作可以理解为通道数的合并,通过级联操作之后图像本身的特征增加了,但是每一特征下的信息是没有增加;计算公式如下:
c=cA+cB
上采样操作通过如图3所示的双线性插值的方式完成,首先进行x方向的插值,计算公式如下:
Figure BDA0003539551950000063
Figure BDA0003539551950000064
然后进行y方向的插值,计算得到P点的灰度值,计算公式如下:
Figure BDA0003539551950000065
在步骤a4中,f(Qxx)为代表某一点的灰度值;Q12坐标为(x1,y2);Q22坐标为(x2,y2);Q11坐标为(x1,y1);Q21坐标为(x2,y1);f(Rx)为进行x方向插值得到的灰度值;f(x,y)为经过双线性插值得到的灰度值;cA为特征图A的通道数,cB为特征图B的通道数,c为级联之后特征图的通道数。
其中,M-Convolution注意力机制模块结构图如图4所示,步骤b具体步骤如下:
步骤b1、在通道和空间两个维度通过如图5所示的CBAM网络模型结构进行特征捕捉,得到特征图A;具体步骤如下:
步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉;
将输入的特征图分别经过全局最大池化操作和全局平均池化操作,得到两个特征图,之后输入两层的神经网络MLP,最后经过element-wise操作和sigmoid激活操作输出图6所示的通道注意力特征图;
步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉;
将通道注意力子模块的输出特征图作为本子模块的输入特征图,首先依次经过全局最大池化操作和全局平均池化操作,得到两个特征图,之后经过级联操作,然后经过卷积操作生成通道数为1的特征图,然后经过sigmoid激活操作输出如图7所示的空间注意力特征图,最后将空间注意力子模块的输入的特征图和输出的特征图进行逐元素相乘,输出特征图A;
步骤b2、计算特征图之间的关联性并且增添注意力权重K,输出行人特征图,所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度;
所述输出行人特征公式如下:
Figure BDA0003539551950000071
AK=F2(A,K)=K+A⊙K
其中,I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征;l=0,...,N-1;m=0,...,H-1;n=0,...,W-1;o=0,...,c1-1;p=0,...,c2-1;
Figure BDA0003539551950000072
为输入特征;N、c1、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度;
Figure BDA0003539551950000073
为权重;
Figure BDA0003539551950000074
为输出特征;c2、h和w分别是输出通道的数量、输出行人特征图的高度和宽度;
Figure BDA0003539551950000075
为注意力机制行人特征;⊙表示哈达玛乘积;
Figure BDA0003539551950000076
表示卷积运算;∑为求和符号;
Figure BDA0003539551950000077
F1、F2为函数;
步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作,最终得到预测特征图{P2,P3,P4,P5,P6};
其中,下采样操作通过卷积操作完成,例如对于一幅图像尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像。
步骤c具体步骤如下:
步骤c1、绘制累积匹配曲线CMC图;
步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标;具体步骤如下:
步骤c2-1、计算每个查询行人图像的准确率P(k,A);计算公式如下:
Figure BDA0003539551950000078
其中,k表示返回的前k个行人排序结果;kc表示k个行人中正例样本的数目;A为查询的图像;P为准确率;
步骤c2-2、计算每个查询行人图像的平均值AP(A);计算公式如下:
Figure BDA0003539551950000081
其中,M为候选行人图库中与查询的图像A同标签的行人图片数目;j为M个正例行人样本在返回的排序结果中的位置索引;
步骤c2-3、计算平均精度均值mAP;计算公式如下:
Figure BDA0003539551950000082
其中,N为检索行人图像的数量;
步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5;计算公式如下:
Figure BDA0003539551950000083
Figure BDA0003539551950000084
其中,cn-1表示N次查询中,排在第一位的检测结果是正确行人对象的次数;cn-5表示N次查询中,排在第五位的检测结果是正确行人对象的次数。
步骤d具体步骤如下:
步骤d1、使用难样本采样三元组损失调整网络;计算公式如下:
Figure BDA0003539551950000085
其中,LID为标签平滑分类损失;Ltrihard为难样本采样三元组损失;b表示每批次训练样本数;||fHi-fPi||2表示两个行人特征之间的距离;H和P是同一行人的样本;H和N代表不同行人的样本;α表示距离间隔;
步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练;
其中,特征图金字塔网络FPN通过对顶层行人特征进行上采样操作后和低层特征融合,此外每一个层级的特征预测是分别进行。其中自底向上部分主要是经过卷积操作完成降采样过程;自顶向下是经过反卷积操作完成上采样;横向连接部分实现高分辨率但语义表达弱的特征和低分辨率语义表达强的特征融合后进行预测输出,其工作原理如图8所示;对于特征图金字塔网络FPN+M-convolution的方法则在横向连接部分加入注意力机制模块M-convolution,减少无用特征,提高有效特征的表达能力;
步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。
本实施例在Market-1501、DukeMTMC-reID两个数据集下,通过Resnet50+FPN、Resnet50+FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练,之后绘制CMC曲线图,三种方法在Market-150数据集上的表现如图9所示,在DukeMTMC-reID数据集上的表现如图10所示。
从实验结果来看,Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN表现较好,说明MPN网络采用了自上而下渐进式交互模块,有效利用了行人图像多尺度信息,提高了行人检测的精确度。而且在不同的数据集上,Resnet50+MPN结果并没有比另外两种网络结构低,说明M-Convolution注意力机制模块并没有因为网络参数量增多导致特征提取速度变慢,反而因为对注意力图个数的抑制使得特征提取速度加快的同时也提高了行人检测的精确度。
为了验证M-Convolution注意力机制模块和构建自上而下渐进式交互模块的有效性,计算平均精度均值mAP、Rank-1和Rank-5三个衡量指标,如表1所示:
表1对比衡量指标
Figure BDA0003539551950000091
结合Rank-1、mAP和Rank-5的定义,验证了基于注意力机制与多尺度特征融合的行人特征提取方法的有效性,具有较大的实用价值。

Claims (5)

1.基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,包括以下步骤:
步骤a、构建自上而下渐进式交互模块;
步骤b、构建M-Convolution注意力机制模块;
步骤c、设置评价指标;
步骤d、评价行人特征提取方法的有效性。
2.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤a具体步骤如下:
步骤a1、输入行人图像,采用残差网络Resnet50完成特征卷积计算,生成的四个特征图,{C2,C3,C4,C5}表示所述四个特征图;
步骤a2、将较低层次相邻的特征图{C4,C5}进行跨尺度非局部特征操作,将重复出现的行人特征信息进行融合得到特征图
Figure FDA0003539551940000011
所述跨尺度非局部特征操作公式如下:
Figure FDA0003539551940000012
Figure FDA0003539551940000013
Figure FDA0003539551940000014
f(Fi)=WfFi
g(Gj)=WgGj
θ=WθGj
其中,F、G为两个行人特征图;i,j为特征图F、G、y的位置索引;∑为求和符号;φ为点乘进行相似度计算函数;θ为行人特征转换函数;Gj为生成新的行人特征图;yi为行人特征信息;σ(F,G)为标量函数;r*r为斑块区域的大小;δ(r)为邻域大小;Wf、Wg、Wθ为线性嵌入函数实现从向量到标量的转化;e为自然常数;T为转置符号;f(Fi)Tg(Gj)为点乘相似度计算公式;
步骤a3、将特征图
Figure FDA0003539551940000015
和特征图{C3}再次进行跨尺度非局部特征操作,将重复出现的行人特征信息再次进行融合得到特征图
Figure FDA0003539551940000016
步骤a4、将得到的特征图进行级联操作和上采样操作之后,输入到注意力机制模块。
3.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤b具体步骤如下:
步骤b1、在通道和空间两个维度通过CBAM网络模型结构进行特征捕捉,得到特征图A;具体步骤如下:
步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉;
步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉;
步骤b2、计算特征图之间的关联性并且增添注意力权重K,输出行人特征图,所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度;
所述输出行人特征公式如下:
Figure FDA0003539551940000021
AK=F2(A,K)=K+A⊙K
其中,I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征;l=0,...,N-1;m=0,...,H-1;n=0,...,W-1;o=0,...,c1-1;p=0,...,c2-1;
Figure FDA0003539551940000022
为输入特征;N、c1、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度;
Figure FDA0003539551940000023
为权重;
Figure FDA0003539551940000024
为输出特征;c2、h和w分别是输出通道的数量、输出行人特征图的高度和宽度;
Figure FDA0003539551940000025
为注意力机制行人特征;⊙表示哈达玛乘积;
Figure FDA0003539551940000026
表示卷积运算;∑为求和符号;
Figure FDA0003539551940000027
F1、F2为函数;
步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作,最终得到预测特征图{P2,P3,P4,P5,P6}。
4.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤c具体步骤如下:
步骤c1、绘制累积匹配曲线CMC图;
步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标;具体步骤如下:
步骤c2-1、计算每个查询行人图像的准确率P(k,A);计算公式如下:
Figure FDA0003539551940000028
其中,k表示返回的前k个行人排序结果;kc表示k个行人中正例样本的数目;A为查询的图像;P为准确率;
步骤c2-2、计算每个查询行人图像的平均值AP(A);计算公式如下:
Figure FDA0003539551940000031
其中,M为候选行人图库中与查询的图像A同标签的行人图片数目;j为M个正例行人样本在返回的排序结果中的位置索引;
步骤c2-3、计算平均精度均值mAP;计算公式如下:
Figure FDA0003539551940000032
其中,N为检索行人图像的数量;
步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5;计算公式如下:
Figure FDA0003539551940000033
Figure FDA0003539551940000034
其中,cn-1表示N次查询中,排在第一位的检测结果是正确行人对象的次数;cn-5表示N次查询中,排在第五位的检测结果是正确行人对象的次数。
5.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤d具体步骤如下:
步骤d1、使用难样本采样三元组损失调整网络;计算公式如下:
Figure FDA0003539551940000035
其中,LID为标签平滑分类损失;Ltrihard为难样本采样三元组损失;b表示每批次训练样本数;||fHi-fPi||2表示两个行人特征之间的距离;H和P是同一行人的样本;H和N代表不同行人的样本;α表示距离间隔;
步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练;
步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。
CN202210226785.9A 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法 Pending CN114821631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210226785.9A CN114821631A (zh) 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210226785.9A CN114821631A (zh) 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法

Publications (1)

Publication Number Publication Date
CN114821631A true CN114821631A (zh) 2022-07-29

Family

ID=82528939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210226785.9A Pending CN114821631A (zh) 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法

Country Status (1)

Country Link
CN (1) CN114821631A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527123A (zh) * 2022-10-21 2022-12-27 河北省科学院地理科学研究所 一种基于多源特征融合的土地覆被遥感监测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527123A (zh) * 2022-10-21 2022-12-27 河北省科学院地理科学研究所 一种基于多源特征融合的土地覆被遥感监测方法

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
Zhao et al. Object detection with deep learning: A review
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
Sarkhel et al. A multi-scale deep quad tree based feature extraction method for the recognition of isolated handwritten characters of popular indic scripts
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
Xiao et al. Enhancing multiscale representations with transformer for remote sensing image semantic segmentation
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN113239784A (zh) 一种基于空间序列特征学习的行人重识别***及方法
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN113920516B (zh) 一种基于孪生神经网络的书法字骨架匹配方法及***
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
CN115222998B (zh) 一种图像分类方法
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及***
CN114973418A (zh) 一种跨模态三维点云序列时空特征网络的行为识别方法
CN116030495A (zh) 基于倍率学习的低分辨率行人重识别算法
Sajid et al. Parallel scale-wise attention network for effective scene text recognition
CN114821631A (zh) 基于注意力机制与多尺度特征融合的行人特征提取方法
CN113780140A (zh) 基于深度学习的手势图像分割与识别方法以及装置
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
Jin et al. Loop closure detection with patch-level local features and visual saliency prediction
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination