CN111696137B - 一种基于多层特征混合与注意力机制的目标跟踪方法 - Google Patents
一种基于多层特征混合与注意力机制的目标跟踪方法 Download PDFInfo
- Publication number
- CN111696137B CN111696137B CN202010518472.1A CN202010518472A CN111696137B CN 111696137 B CN111696137 B CN 111696137B CN 202010518472 A CN202010518472 A CN 202010518472A CN 111696137 B CN111696137 B CN 111696137B
- Authority
- CN
- China
- Prior art keywords
- frame
- cls
- reg
- network
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层特征混合与注意力机制的目标跟踪方法,该方法利用改进的FPN结构将图像浅层特征加以更好的保留利用,这种对浅层特征有更好保留的改进的FPN结构可以输出具有多维度、多尺度特征的融合特征。对不同尺度大小的目标,以及大小在不断变化的目标拥有更好的跟踪能力。将FPN用于级联的RPN上,对于特征提取更加精准,对于保证跟踪时对于相似干扰物有更好的区分,减少错误跟踪的情况发生。同时,利用注意力机制,在空间尺度上,使得网络对目标可能出现的位置给予更多关注,以减少由目标半遮挡,形变,光照等造成的目标丢失或目标跟踪错误的情况。
Description
技术领域
本发明属于图像处理和计算机视觉领域,具体涉及一种基于多层特征混合与注意力机制的目标跟踪方法。
背景技术
视觉目标跟踪是一项重要的计算机视觉任务,可应用于视觉监控、人机交互、视频压缩等领域。尽管对这一课题进行了广泛的研究,但由于光照变化、部分遮挡、形状变形和相机运动等因素的影响,它在处理复杂的物体外观变化方面仍然存在困难。
目标跟踪算法在现阶段主要有两个大的分支,一个是基于相关滤波算法,一个是基于深度学习算法。本发明所提出的目标跟踪方法属于深度学习这一分支。
深度学***衡分布问题,同时通过生成样本,解决样本量不足的问题。但生成对抗网络通常很难训练和评估,在实际中对这一问题的解决的技巧性非常强。发明专利“基于卷积神经网络的红外弱小目标检测跟踪方法,CN110728697A”利用孪生网络进行目标跟踪,通过提取图片的深度特征,进行特征的匹配进而完成目标的跟踪,但该方法对目标浅层特征利用不足,同时对跟踪中的遮挡、半遮挡、光照变化、形变等问题没有好的解决,方法的鲁棒性有待提升。
针对以往深度学习目标特征利用不均以及被跟踪物体受到的遮挡、半遮挡、光照变化、形变等问题,本发明以孪生网络为基础,利用多个FPN进行浅层与深层特征的结合,同时使用注意力机制,提高方法的鲁棒性。
发明内容
本发明属于计算机视觉和深度学习领域,通过改进孪生网络的特征提取部分和区域推荐网络部分,使得整个目标跟踪网络拥有更强的特征提取能力和更强的鲁棒性。本发明提出的一种基于多层特征混合与注意力机制的目标跟踪方法具体步骤如下:
(1)在训练前,对数据集做预处理:训练数据是由视频序列所组成,并带有目标物体
位置与大小的标签;目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧。将原始视频序列进行裁切处理,获得wt×ht像素的模板帧Ft和wc×hc像素的搜索帧Fc,,其中模板帧对应视频序列的第一帧,搜索帧对应视频序列的第二帧开始的剩余视频序列。
(2)设计两个并行的5区块深度残差网络N1、N2用于提取模板帧和搜索帧的特征,通过权值共享的方式构成孪生网络NS,使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding,同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积,将模板帧Ft和搜索帧Fc分别送入N1、N2,通过卷积、池化、激活等操作,提取出其各自在不同深度的特征;ConvM_N(Ft)和ConvM_N(Fc)分别代表了网络不同层次上模板帧Ft和搜索帧Fc的特征输出,其中M代表该特征图所在的ResNet网络中的区块位置,N代表在某一区块中的具***置。
(3)设计特征金字塔网络FPN,包括三个FPN:FPN1,FPN2和FPN3分别将从网络N1、N2提取的:(Conv1_1、Conv2_3、Conv3_3);(Conv1_1、Conv2_3、Conv4_6);(Conv1_1、Conv2_3、Conv5_3)这3组不同深度的输出特征分别进行融合,获得了3组经过融合的特征,每个FPN接收3个不同尺度的特征图,从大到小、从浅到深分别为F1、F2、F3;特征的融合通过点对点相加完成,通过使用1×1卷积调整一个特征的通道数,使得两个特征通道数相同,再使用2倍上采样或者步长为2的3×3卷积调整另外一个特征的尺寸,使得调整后的两个特征尺寸相同,得以完成点对点相加,即特征融合;将这3种特征进行融合,最终输出融合后的特征FM,且FM的尺寸和F3相同;最终,三个FPN分别输出了模版帧的混合特征FM_1(Ft)、FM_2(Ft)、FM_3(Ft)和搜索帧的混合特征FM_1(Fc)、FM_2(Fc)、FM_3(Fc);
(4)设计区域推荐网络RPN,包括三个RPN:RPN1,RPN2和RPN3通过分别输入三对模版帧与搜索帧的混合特征:FM_1(Ft)、FM_1(Fc);FM_2(Ft)、FM_2(Fc);FM_3(Ft)、FM_3(Fc),获得建议框的分类结果CLS与回归结果REG;
(5)RPN输出建议框的分类CLS与REG回归结果,这两个不同的输出由两条路径来完成,RPN上半部分输出建议框的分类CLS,下半部分输出建议框的回归REG;RPN首先将从模板帧获取的混合特征FM(Ft)从边缘进行裁切,不同组合的混合特征通道数不同;之后通过卷积的调整,将FM(Ft)与FM(Fc)调整到合适的尺寸[FM(Ft)]c,[FM(Fc)]c,[FM(Ft)]r,[FM(Fc)]r;将[FM(Ft)]c,[FM(Fc)]c进行互相关运算得到初步的分类结果CLS_O;将[FM(Ft)]r,[FM(Fc)]r进行互相关运算得到初步的回归结果REG_O;
CLS_O的尺寸为wres×hres×2k,REG_O的尺寸为wres×hres×4k,输出的结果中在wres×hres维度与原图wc×hc在空间上呈线性的对应关系,在wres×hres的每一个位置上对应k个预先设定好大小的锚框,锚框的中心为当前所在位置的中心;CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率Ppos和不包含目标的概率Pneg;REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异,分别为dx,dy,dw,dh。其与实际目标框的关系为:
其中Ax、Ay表示参考框的中心点,Aw、Ah表示参考框的宽高,Tx、Ty、Tw、Th表示真值的坐标与长宽,最后通过极大值抑制等方法找出最终的目标;
(6)在输出得到CLS_O和REG_O后,再将其输入空间注意力模块,通过平均池化和最大值池化、卷积、Sigmoid激活操作,获得了wres×hres×1的空间注意力权重SA_c和SA_r;CLS_O和REG_O分别与SA_c和SA_r对应位置相乘,并与原始的CLS_O和REG_O相加,或得了最终的RPN输出结果CLS和REG;
(7)对三个RPN:RPN1,RPN2和RPN3的输出结果进行加权相加,作为最终的目标跟踪网络输出结果:
其中,α1,α2,α3,β1,β2,β3为预先设定的权重。
(8)训练所述目标跟踪网络时的分类损失Lcls使用交叉熵损失,回归损失Lreg使用具有标准化坐标的平滑L1损失;y表示标签值,表示实际分类值,即Ppos;dxT,dyT,dwT,dhT,代表实际k种锚框与实际目标框的长宽差异和位置差异,即真值;损失函数分别定义为:
其中:
最后的损失函数如下:
loss=Lcls+λLreg (5)
其中λ是超参数,用于平衡两类损失。
本发明利用改进的FPN结构。相较于传统FPN中获得的深层特征对浅层特征保留不足的情况,利用改进的FPN结构,将图像浅层特征加以更好的保留利用。这种对浅层特征有更好保留的改进的FPN结构可以输出具有多维度、多尺度特征的融合特征。对不同尺度大小的目标,以及大小在不断变化的目标拥有更好的跟踪能力。将FPN用于级联的RPN上,对于特征提取更加精准,对于保证跟踪时对于相似干扰物有更好的区分,减少错误跟踪的情况发生。同时,利用注意力机制,在空间尺度上,使得网络对目标可能出现的位置给予更多关注,以减少由目标半遮挡,形变,光照等造成的目标丢失或目标跟踪错误的情况。
附图说明
图1为本发明的模板帧与搜索帧示意图
图2为本发明的目标跟踪网络整体结构图
图3为本发明的FPN结构图
图4为本发明的RPN结构图
图5为本发明RPN输出结果示意图
图6为本发明的目标跟踪网络训练流程图
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
本发明提出的一种基于多层特征混合与注意力机制的目标跟踪方法具体步骤如下:
(1)在训练前,对数据集做预处理。训练数据是由视频序列所组成,并带有目标物***置与大小的标签。目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧。将原始视频序列进行裁切处理,获得wt×ht像素的模板帧Ft和wc×hc像素的搜索帧Fc,如图1、图2所示。其中模板帧对应视频序列的第一帧,搜索帧对应视频序列的第二帧开始的剩余视频序列。
(2)设计两个并行的5区块深度残差网络N1、N2用于提取模板帧和搜索帧的特征,通过权值共享的方式构成孪生网络NS。使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding,同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积。将模板帧Ft和搜索帧Fc分别送入N1、N2,通过卷积、池化、激活等操作,提取出其各自在不同深度的特征。ConvM_N(Ft)和ConvM_N(Fc)分别代表了网络不同层次上模板帧Ft和搜索帧Fc的特征输出,其中M代表该特征图所在的ResNet网络中的区块位置,N代表在某一区块中的具***置。
(3)设计特征金字塔网络(Feature Pyramid Networks,FPN),三个FPN(FPN1,FPN2,FPN3)分别将从网络N1、N2提取的:(Conv1_1、Conv2_3、Conv3_3);(Conv1_1、Conv2_3、Conv4_6);(Conv1_1、Conv2_3、Conv5_3)这3组不同深度的输出特征分别进行融合,获得了3组经过融合的特征。
本发明使用的单个FPN的具体结构如图4所示。每个FPN接收3个不同尺度的特征图,从大到小、从浅到深分别为F1、F2、F3。特征的融合通过点对点相加完成,通过使用1×1卷积调整一个特征的通道数,使得两个特征通道数相同,再使用2倍上采样或者步长为2的3×3卷积调整另外一个特征的尺寸,使得调整后的两个特征尺寸相同,得以完成点对点相加,即特征融合。将这3种特征进行融合,最终输出融合后的特征FM,且FM的尺寸和F3相同。最终,三个FPN分别输出了模版帧的混合特征FM_1(Ft)、FM_2(Ft)、FM_3(Ft)和搜索帧的混合特征FM_1(Fc)、FM_2(Fc)、FM_3(Fc)。
(4)区域推荐网络(Region Proposal Network,RPN),三个RPN(RPN1,RPN2,RP N3)通过分别输入三对模版帧与搜索帧的混合特征:FM_1(Ft)、FM_1(Fc);FM_2(Ft)、FM_2(Fc);FM_3(Ft)、FM_3(Fc),获得建议框的分类结果CLS与回归结果REG,如图2所示。
(5)RPN需要输出建议框的分类CLS与REG回归结果,这两个不同的输出需要两条路径来完成,图2中的RPN上半部分输出建议框的分类CLS,下半部分输出建议框的回归RE G。RPN首先将从模板帧获取的混合特征FM(Ft)从边缘进行裁切,其中图4中的c′为当前混合特征通道数,不同组合的混合特征通道数不同。之后通过卷积的调整,将FM(Ft)与FM(Fc)调整到合适的尺寸[FM(Ft)]c,[FM(Fc)]c,[FM(Ft)]r,[FM(Fc)]r。将[FM(Ft)]c,[FM(Fc)]c进行互相关运算得到初步的分类结果CLS_O;将[FM(Ft)]r,[FM(Fc)]r进行互相关运算得到初步的回归结果REG_O。
CLS_O的尺寸为wres×hres×2k,REG_O的尺寸为wres×hres×4k,如图5所示,输出的结果中在wres×hres维度与原图wc×hc在空间上呈线性的对应关系,在wres×hres的每一个位置上对应k个预先设定好大小的锚框,锚框的中心为当前所在位置的中心。CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率Ppos和不包含目标的概率Pneg。REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异,分别为dx,dy,dw,dh。其与实际目标框的关系为:
其中Ax、Ay表示参考框的中心点,Aw、Ah表示参考框的宽高,Tx、Ty、Tw、Th表示真值的坐标与长宽。最后通过极大值抑制等方法找出最终的目标。
(6)在输出得到CLS_O和REG_O后,再将其输入空间注意力模块,如图4所示,通过平均池化和最大值池化、卷积、Sigmoid激活操作,获得了wres×hres×1的空间注意力权重SA_c和SA_r。CLS_O和REG_O分别与SA_c和SA_r对应位置相乘,并与原始的CLS_O和REG_O相加,或得了最终的RPN输出结果CLS和REG。
(7)对三个RPN(RPN1,RPN2,RPN3)的输出结果进行加权相加,作为最终的目标跟踪网络输出结果:
其中,α1,α2,α3,β1,β2,β3为预先设定的权重。
(8)训练所述目标跟踪网络时的分类损失Lcls使用交叉熵损失,回归损失Lreg使用具有标准化坐标的平滑L1损失。y表示标签值,表示实际分类值(即Ppos);dxT,dyT,dwT,dhT,代表实际k种锚框与实际目标框的长宽差异和位置差异,即真值。损失函数分别定义为:
其中:
最后的损失函数如下:
loss=Lcls+λLreg (5)
其中λ是超参数,用于平衡两类损失。
本发明的一种实施例所涉及的关键参数如表1所示,附录1部分图中标注的具体参数是以该实施参数为基准:
表1一种实施例参数
本发明所设计的目标跟踪网络具体训练流程如图6所示,其中具体训练过程以及该方案具体实施相关参数如下:
对数据集中的视频序列进行处理。根据标签信息,裁切获得127×127像素的模板帧Ft和255×255像素的搜索帧Fc。
将模板帧Ft和搜索帧Fc送入图2中的特征提取网络ResNet_N1与ResNet_N2,提取出五个不同深度层次的特征,其中两个特征提取网络共享权重。
三个特征金字塔网络,如图3所示,FPN1、FPN2、FPN3分别将提取出的不同深度层次的模板帧Ft与搜索帧Fc特征进行特征融合,其中FPN1融合第一、二、三区块(层)获得的特征,FPN2融合第一、二、四区块(层)获得的特征,FPN3融合第一、二、五区块(层)获得的特征,如图2所示。三对FPN分别输出了模版帧的混合特征FM_1(Ft)、FM_2(Ft)、FM_3(Ft)和搜索帧的混合特征FM_1(Fc)、FM_2(Fc)、FM_3(Fc)。模版帧的混合特征尺寸都为15×15×512,搜索帧的混合特征尺寸都为31×31×512。
将三对混合特征FM_1(Ft)与FM_1(Fc)、FM_2(Ft)与FM_2(Fc)、FM_3(Ft)与FM_3(Fc)分别送入三个区域推荐网络RPN1,RPN2,RPN3,如图2所示。其中每个区域推荐网络的结构相同,如图4所示,共设置5种锚框,即k=5。首先将模版帧的混合特征FM(Ft)进行裁切,裁切掉周围部分元素,尺寸变为7×7×512,之后通过四个卷积层调整FM(Ft)与搜索帧的混合特征FM(Fc)的通道数,分别可以获得:[FM(Ft)]c,尺寸为5×5×(10×512);[FM(Ft)]r,尺寸为5×5×(20×512);[FM(Fc)]c,尺寸为29×29×512;[FM(Fc)]r,尺寸为29×29×512。
分别将[FM(Ft)]c与[FM(Fc)]c、[FM(Ft)]r与[FM(Fc)]r进行互相关运算,可以获得分类中间结果CLS_O和回归中间结果REG_O。其中CLS_O的尺寸为25×25×10,REG_O的尺寸为25×25×20。
CLS_O和REG_O分别送入对应的空间注意力模块,获得空间注意力权重SA_c和SA_r。将CLS_O和REG_O与SA_c和SA_r对应位置相乘,并与原始的CLS_O和REG_O相加,获得最终RPN输出分类结果CLS和回归结果REG。CLS和CLS_O尺寸相同;REG和REG_O尺寸相同。流程图中的“空间注意力”即完成上述步骤。
将RPN1,RPN2,RPN3的输出的分类结果与回归结果按照0.2,0.3,0.5的权值进行加权相加,即获得最终的目标分类结果与建议框回归结果。根据式(3)(4)(5)计算损失并进行优化。当达到了设定的训练轮数50轮后,即结束训练进行测试。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。
Claims (2)
1.一种基于多层特征混合与注意力机制的目标跟踪方法,其特征在于,该方法包括以下步骤:
(1)在训练前,对数据集做预处理:训练数据是由视频序列所组成,并带有目标物***置与大小的标签;目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧;将原始视频序列进行裁切处理,获得wt×ht像素的模板帧Ft和wc×hc像素的搜索帧Fc,其中模板帧对应视频序列的第一帧,搜索帧对应视频序列的第二帧开始的剩余视频序列;
(2)设计两个并行的5区块深度残差网络N1、N2用于提取模板帧和搜索帧的特征,通过权值共享的方式构成孪生网络NS,使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding,同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积,将模板帧Ft和搜索帧Fc分别送入N1、N2,通过包括卷积、池化、激活在内的操作,提取出其各自在不同深度的特征;ConvM_N(Ft)和ConvM_N(Fc)分别代表了网络不同层次上模板帧Ft和搜索帧Fc的特征输出,其中M代表特征输出ConvM_N(Ft)或ConvM_N(Fc)所在的ResNet网络中的区块位置,N代表特征输出ConvM_N(Ft)或ConvM_N(Fc)在某一区块中的具***置;
(3)设计特征金字塔网络FPN,包括三个FPN:FPN1,FPN2和FPN3分别将从网络N1、N2提取的:(Conv1_1、Conv2_3、Conv3_3);(Conv1_1、Conv2_3、Conv4_6);(Conv1_1、Conv2_3、Conv5_3)这3组不同深度的输出特征分别进行融合,获得了3组经过融合的特征,每个FPN接收3个不同尺度的特征图,从大到小、从浅到深分别为F1、F2、F3;特征的融合通过点对点相加完成,通过使用1×1卷积调整一个特征的通道数,使得两个特征通道数相同,再使用2倍上采样或者步长为2的3×3卷积调整另外一个特征的尺寸,使得调整后的两个特征尺寸相同,得以完成点对点相加,即特征融合;将这3种特征进行融合,最终输出融合后的特征FM,且FM的尺寸和F3相同;最终,三个FPN分别输出了模版帧的混合特征FM_1(Ft)、FM_2(Ft)、FM_3(Ft)和搜索帧的混合特征FM_1(Fc)、FM_2(Fc)、FM_3(Fc);
(4)设计区域推荐网络RPN,包括三个RPN:RPN1,RPN2和RPN3通过分别输入三对模版帧与搜索帧的混合特征:FM_1(Ft)、FM_1(Fc);FM_2(Ft)、FM_2(Fc);FM_3(Ft)、FM_3(Fc),获得建议框的分类结果CLS与回归结果REG;
(5)RPN输出建议框的分类CLS与REG回归结果,这两个不同的输出由两条路径来完成,RPN上半部分输出建议框的分类CLS,下半部分输出建议框的回归REG;RPN首先将从模板帧获取的混合特征FM(Ft)从边缘进行裁切,不同组合的混合特征通道数不同;之后通过卷积的调整,将FM(Ft)与FM(Fc)调整到合适的尺寸[FM(Ft)]c,[FM(Fc)]c,[FM(Ft)]r,[FM(Fc)]r;将[FM(Ft)]c,[FM(Fc)]c进行互相关运算得到初步的分类结果CLS_O;将[FM(Ft)]r,[FM(Fc)]r进行互相关运算得到初步的回归结果REG_O;
CLS_O的尺寸为wres×hres×2k,REG_O的尺寸为wres×hres×4k,输出的结果中在wres×hres维度与原图wc×hc在空间上呈线性的对应关系,在wres×hres的每一个位置上对应k个预先设定好大小的锚框,锚框的中心为当前所在位置的中心;CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率Ppos和不包含目标的概率Pneg;REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异,分别为dx,dy,dw,dh,其与实际目标框的关系为:
其中Ax、Ay表示参考框的中心点,Aw、Ah表示参考框的宽高,Tx、Ty、Tw、Th表示真值的坐标与长宽,最后通过极大值抑制方法找出最终的目标;
(6)在输出得到CLS_O和REG_O后,再将其输入空间注意力模块,通过平均池化和最大值池化、卷积、Sigmoid激活操作,获得了wres×hres×1的空间注意力权重SA_c和SA_r;CLS_O和REG_O分别与SA_c和SA_r对应位置相乘,并与原始的CLS_O和REG_O相加,或得了最终的RPN输出结果CLS和REG;
(7)对三个RPN:RPN1,RPN2和RPN3的输出结果进行加权相加,作为最终的目标跟踪网络输出结果:
其中,α1,α2,α3,β1,β2,β3为预先设定的权重;
(8)训练所述目标跟踪网络时的分类损失Lcls使用交叉熵损失,回归损失Lreg使用具有标准化坐标的平滑L1损失;y表示标签值,表示实际分类值,即Ppos;dxT,dyT,dwT,dhT,代表实际k种锚框与实际目标框的长宽差异和位置差异,即真值;损失函数分别定义为:
其中:
最后的损失函数如下:
loss=Lcls+λLreg (5)
其中λ是超参数,用于平衡两类损失。
2.根据权利要求1所述的基于多层特征混合与注意力机制的目标跟踪方法,其特征在于,所述步骤(8)训练所述目标跟踪网络具体包括:
对数据集中的视频序列进行处理,根据标签信息,裁切获得127×127像素的模板帧Ft和255×255像素的搜索帧Fc;
将模板帧Ft和搜索帧Fc送入特征提取网络ResNet_N1与ResNet_N2,提取出五个不同深度层次的特征,其中两个特征提取网络共享权重;
三个特征金字塔网络,FPN1、FPN2、FPN3分别将提取出的不同深度层次的模板帧Ft与搜索帧Fc特征进行特征融合,其中FPN1融合第一、二、三区块,即一、二、三层获得的特征,FPN2融合第一、二、四区块,即一、二、四层获得的特征,FPN3融合第一、二、五区块,即一、二、五层获得的特征,三对FPN分别输出了模版帧的混合特征FM_1(Ft)、FM_2(Ft)、FM_3(Ft)和搜索帧的混合特征FM_1(Fc)、FM_2(Fc)、FM_3(Fc);模版帧的混合特征尺寸都为15×15×512,搜索帧的混合特征尺寸都为31×31×512;
将三对混合特征FM_1(Ft)与FM_1(Fc)、FM_2(Ft)与FM_2(Fc)、FM_3(Ft)与FM_3(Fc)分别送入三个区域推荐网络RPN1,RPN2,RPN3,其中每个区域推荐网络的结构相同,共设置5种锚框,即k=5;首先将模版帧的混合特征FM(Ft)进行裁切,裁切掉周围部分元素,尺寸变为7×7×512,之后通过四个卷积层调整FM(Ft)与搜索帧的混合特征FM(Fc)的通道数,分别获得:[FM(Ft)]c,尺寸为5×5×(10×512);[FM(Ft)]r,尺寸为5×5×(20×512);[FM(Fc)]c,尺寸为29×29×512;[FM(Fc)]r,尺寸为29×29×512;
分别将[FM(Ft)]c与[FM(Fc)]c、[FM(Ft)]r与[FM(Fc)]r进行互相关运算,获得分类中间结果CLS_O和回归中间结果REG_O,其中CLS_O的尺寸为25×25×10,REG_O的尺寸为25×25×20;
CLS_O和REG_O分别送入对应的空间注意力模块,获得空间注意力权重SA_c和SA_r;将CLS_O和REG_O与SA_c和SA_r对应位置相乘,并与原始的CLS_O和REG_O相加,获得最终RPN输出分类结果CLS和回归结果REG;CLS和CLS_O尺寸相同;REG和REG_O尺寸相同,“空间注意力”即完成上述步骤;
将RPN1,RPN2,RPN3的输出的分类结果与回归结果按照0.2,0.3,0.5的权值进行加权相加,即获得最终的目标分类结果与建议框回归结果,根据所述式(3)(4)(5)计算损失并进行优化;当达到了设定的训练轮数50轮后,即结束训练进行测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518472.1A CN111696137B (zh) | 2020-06-09 | 2020-06-09 | 一种基于多层特征混合与注意力机制的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518472.1A CN111696137B (zh) | 2020-06-09 | 2020-06-09 | 一种基于多层特征混合与注意力机制的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696137A CN111696137A (zh) | 2020-09-22 |
CN111696137B true CN111696137B (zh) | 2022-08-02 |
Family
ID=72479929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010518472.1A Active CN111696137B (zh) | 2020-06-09 | 2020-06-09 | 一种基于多层特征混合与注意力机制的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696137B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258557B (zh) * | 2020-10-23 | 2022-06-10 | 福州大学 | 一种基于空间注意力特征聚合的视觉跟踪方法 |
CN112288778B (zh) * | 2020-10-29 | 2022-07-01 | 电子科技大学 | 一种基于多帧回归深度网络的红外小目标检测方法 |
CN112308013B (zh) * | 2020-11-16 | 2023-03-31 | 电子科技大学 | 一种基于深度学习的足球球员追踪方法 |
CN112489088A (zh) * | 2020-12-15 | 2021-03-12 | 东北大学 | 一种基于记忆单元的孪生网络视觉跟踪方法 |
CN112651954A (zh) * | 2020-12-30 | 2021-04-13 | 广东电网有限责任公司电力科学研究院 | 一种绝缘子掉串区域的检测方法及装置 |
CN112669350A (zh) * | 2020-12-31 | 2021-04-16 | 广东电网有限责任公司电力科学研究院 | 一种自适应特征融合的智能变电站人体目标跟踪方法 |
CN112785624B (zh) * | 2021-01-18 | 2023-07-04 | 苏州科技大学 | 基于孪生网络的rgb-d特征目标跟踪方法 |
CN113298850B (zh) * | 2021-06-11 | 2023-04-21 | 安徽大学 | 一种基于注意力机制与特征融合的目标跟踪方法及*** |
CN114120056A (zh) * | 2021-10-29 | 2022-03-01 | 中国农业大学 | 小目标识别方法、装置、电子设备、介质及产品 |
CN114399533B (zh) * | 2022-01-17 | 2024-04-16 | 中南大学 | 一种基于多层次注意力机制的单目标追踪方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201908574D0 (en) * | 2019-06-14 | 2019-07-31 | Vision Semantics Ltd | Optimised machine learning |
CN110544269A (zh) * | 2019-08-06 | 2019-12-06 | 西安电子科技大学 | 基于特征金字塔的孪生网络红外目标跟踪方法 |
CN110704665A (zh) * | 2019-08-30 | 2020-01-17 | 北京大学 | 一种基于视觉注意力机制的图像特征表达方法及*** |
CN111126472A (zh) * | 2019-12-18 | 2020-05-08 | 南京信息工程大学 | 一种基于ssd改进的目标检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053658A1 (en) * | 2001-06-29 | 2003-03-20 | Honeywell International Inc. | Surveillance system and methods regarding same |
CN110349185B (zh) * | 2019-07-12 | 2022-10-11 | 安徽大学 | 一种rgbt目标跟踪模型的训练方法及装置 |
CN111192292B (zh) * | 2019-12-27 | 2023-04-28 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
-
2020
- 2020-06-09 CN CN202010518472.1A patent/CN111696137B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201908574D0 (en) * | 2019-06-14 | 2019-07-31 | Vision Semantics Ltd | Optimised machine learning |
CN110544269A (zh) * | 2019-08-06 | 2019-12-06 | 西安电子科技大学 | 基于特征金字塔的孪生网络红外目标跟踪方法 |
CN110704665A (zh) * | 2019-08-30 | 2020-01-17 | 北京大学 | 一种基于视觉注意力机制的图像特征表达方法及*** |
CN111126472A (zh) * | 2019-12-18 | 2020-05-08 | 南京信息工程大学 | 一种基于ssd改进的目标检测方法 |
Non-Patent Citations (3)
Title |
---|
《Bridging the Gap Between Detection and Tracking: A Unified Approach》;Huang LH et al;《IEEE》;20200227;全文 * |
《基于多级特征和混合注意力机制的室内人群检测网络》;沈文祥等;《计算机应用》;20191210;第39卷(第12期);全文 * |
《基于深度特征增强的光学遥感目标检测技术研究》;胡滔;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20200215(第2020年第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111696137A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696137B (zh) | 一种基于多层特征混合与注意力机制的目标跟踪方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN108537824B (zh) | 基于交替反卷积与卷积的特征图增强的网络结构优化方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN110705448A (zh) | 一种人体检测方法及装置 | |
CN111696136B (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN108805151B (zh) | 一种基于深度相似性网络的图像分类方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN109766822A (zh) | 基于神经网络的手势识别方法及*** | |
CN113610905B (zh) | 基于子图像匹配的深度学习遥感图像配准方法及应用 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN114612832A (zh) | 一种实时手势检测方法及装置 | |
CN112819951A (zh) | 一种基于深度图修复的带遮挡三维人体重建方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN116343334A (zh) | 融合关节捕捉的三流自适应图卷积模型的动作识别方法 | |
CN115116139A (zh) | 基于图卷积网络的多粒度人体动作分类方法 | |
CN115222998A (zh) | 一种图像分类方法 | |
CN114743162A (zh) | 一种基于生成对抗网络的跨模态行人重识别方法 | |
Fu et al. | Complementarity-aware Local-global Feature Fusion Network for Building Extraction in Remote Sensing Images | |
CN114882234A (zh) | 多尺度轻量级密集连目标检测网络的构建方法 | |
CN114743273A (zh) | 基于多尺度残差图卷积网络的人体骨骼行为识别方法及*** | |
CN112990154B (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
Zong et al. | A cascaded refined rgb-d salient object detection network based on the attention mechanism | |
Ma et al. | Land Use Classification of High-Resolution Multispectral Satellite Images With Fine-Grained Multiscale Networks and Superpixel Postprocessing | |
CN110197226B (zh) | 一种无监督图像翻译方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |