CN115690152A - 一种基于注意力机制的目标追踪方法 - Google Patents

一种基于注意力机制的目标追踪方法 Download PDF

Info

Publication number
CN115690152A
CN115690152A CN202211284898.0A CN202211284898A CN115690152A CN 115690152 A CN115690152 A CN 115690152A CN 202211284898 A CN202211284898 A CN 202211284898A CN 115690152 A CN115690152 A CN 115690152A
Authority
CN
China
Prior art keywords
target
attention
image
tracking
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211284898.0A
Other languages
English (en)
Inventor
陈晓明
温海喜
陈谋
周莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211284898.0A priority Critical patent/CN115690152A/zh
Publication of CN115690152A publication Critical patent/CN115690152A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的目标追踪方法。首先,采用SwinTransformer块代替原有的卷积网络骨干,实现从局部到全局的自我关注;其次,在特征融合部分,利用注意力将模板特征与搜索区域特征有效结合,首次探索了将注意力机制作为目标跟踪骨干的可能性。最后,提出了一种由粗到精的跟踪策略。在离线粗跟踪阶段,生成目标对象的初始估计,得到目标的粗回归包围盒。在在线精细跟踪阶段,利用粗回归边界框对对应的目标帧进行扩展,利用分割得到目标的精回归边界框。在GOT‑10k、LaSOT、VOT2018、VOT2019、UAV123和OTB‑100等具有挑战性的基准测试中进行的实验表明,提出的CTFT性能优于许多最先进的***,实现了领先的性能。

Description

一种基于注意力机制的目标追踪方法
技术领域
本发明属于目标追踪技术领域,更具体地,涉及一种基于注意力机制的目标追踪方法。
背景技术
视觉对象跟踪的目的是在视频序列的每一帧跟踪给定的目标对象。它是计算机视觉中的一项基础任务,具有众多的实际应用。然而,开发一个快速、准确和鲁棒的***仍然是非常具有挑战性的,因为在具有复杂背景的视频对象上经常发生大量的变形、运动和遮挡。
近年来,基于相似性比较策略开发的孪生网络引起了视觉跟踪界的极大关注。这些孪生网络***通过骨干网提取的搜索区域和目标模板之间的相互关系来学习一般的相似度图,从而形式化视觉跟踪问题。然而,由于卷积运算的固有局限性,很难学习全局和长期的语义信息交互。因此,这自然就引出了一个有趣的问题:有没有比卷积神经网络更好的特征提取方法?在原始的孪生网络***中,对象模板只在第一帧中初始化。在目标跟踪过程中,模板保持固定,视频的其余部分与不变的初始帧进行匹配。然而,当目标处于运动状态时,其外观变化往往较大,模板不变可能导致跟踪失败。
为了解决这个问题,最近的Siamese***通过使用固定学***均值实现了一个简单的线性更新策略。此外,这种更新方法在所有维度上都是恒定的,不能进行局部更新,在遮挡的情况下会导致大量不相关的背景信息进入模板,导致跟踪失败。
综上所述,为了目标追踪的稳定性和准确性,应继续研究复杂场景变换以及长时间追踪的环境中,目标追踪问题。
发明内容
本发明的目的是提出一种基于注意力机制的目标追踪方法。针对目标追踪在实际过程中,背景复杂变换,以及长时间追踪时目标被遮挡情况,以Swin变换块代替卷积神经网络作为骨干,解决了卷积运算的固有局域性。注意力网络学习目标的运动规律,对目标的特征进行融合,对目标的位置进行预测,结合时间和空间两个方面计算目标的相似度进行目标匹配,实现目标追踪的目的。此方法可以减少目标追踪的漏检率,提升多目标追踪的准确度,并解决追踪过程中的目标遮挡问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习注意力机制下的目标追踪方法,所述方法包括:
(1)获取到样本图像以及搜索区域的解码特征。
(2)将解码获得的图像数据输入到训练好的Swin Transformer Backbone目标特征提取网络模型中,得到目标的位置信息以及空间特征。
(3)将得到的追踪目标位置信息以及空间特征输入注意力特征融合模块,获取到在该时刻的目标融合特征。
(4)将目标的融合特征,和目标当前时刻实际空间特征对比,使用IoU来计算其相似度,选取综合相似度最高的作为待定匹配目标。
(5)进行在线追踪,根据待定匹配目标位置,扩大1.7倍搜索范围,利用DeepMask进行分割获得最优匹配结果,与设定阈值比较,大于阈值匹配成功,如果小则匹配失败。下面结合附图和具体实施方式对本发明作进一步详细的描述;
附图说明
图1为算法跟踪框架图;
图2为编码解码示意图;
图3为在线跟踪结构示意图;
图4为不同融合层的注意力图可视化图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明方法流程如下所示:
(1)获取到样本图像以及搜索区域的解码特征。
1)从预训练数据集上按照时间戳顺序读取,并读取解码图像;
2)对图像进行预处理操作,将图像缩放到512*512像素大小,以适应网络的大小;
(2)将解码获得的图像数据输入到训练好的Swin Transformer Backbone目标特征提取网络模型中,得到目标的位置信息以及空间特征。
Swin Transformer Backbone是一个注意力机制网络,使用Swin Transformer进行目标检测首先需要先线下训练模型参数,然后线上处理图像以得到目标的位置和空间特征
线下训练模型的过程为:标记出图像中的目标位置和目标分类,使得网络可以通过设定的标记进行反向传播确定模型参数;模型训练是一个有监督的训练过程,训练的图像样本同样使用视频中提取的图像,保证与实际使用的场景相似;模型训练是一个反复迭代的过程,通过反馈调节,使得最终模型的输出误差在一定范围内。
1)将解码获得的图像数据输入到训练好的Swin Transformer Backbone目标特征提取网络模型中,通过注意力机制块提取出搜索图像以及样本的目标特征,样本图像维度为
Figure BDA0003894655130000031
搜索区域图像维度为
Figure BDA0003894655130000032
骨干对搜索区域和模板进行处理,得到它们的特征映射分别为
Figure BDA0003894655130000033
Figure BDA0003894655130000034
其中
Figure BDA0003894655130000035
Figure BDA0003894655130000036
C=1024。
2)将分别得到的图像特征向量,分别通过1*1卷积层来将1024个通道维度降低到256个通道,来为特征数据融合进行数据的预处理。
(3)将得到的追踪目标位置信息以及空间特征输入注意力特征融合模块,获取到在该时刻的目标融合特征。
1)将分别预处理得到的图像特征向量输入编码器-解码器(交叉)注意的多头注意模块,两个交叉特征增强模块同时接收各自分支和另一个分支的特征映射,并通过多头交叉注意将两种特征映射融合在一起。
其中注意力机制是设计特征融合网络的基本要素。给定查询Q、键K和值V,计算方式如下:
Figure BDA0003894655130000037
为了使模型关注不同方面的信息,使机制考虑到不同的注意分布,将注意机制扩展到多头部,并定义了多头部注意机制,计算方式如下:
Figure BDA0003894655130000038
Hi=Attention(QWi Q,KWi K,VWi V) (3)
其中
Figure BDA0003894655130000039
Figure BDA00038946551300000310
为参数矩阵,在本方法中,我们设置nh=8、dm=256、dk=dv=dm/nh=32作为默认值。
2)编码器采用多头自我注意和残差结构,对特征图不同位置的信息进行收集和整合,注意机制无法区分输入特征序列的位置信息。因此,我们引入了一个空间位置编码过程的输入
Figure BDA0003894655130000041
我们使用正弦函数生成空间位置编码,计算方式如下:
Xeo=X+MultiHead(X+Px,X+Px,X) (4)
其中
Figure BDA0003894655130000042
是空间位置编码,
Figure BDA0003894655130000043
是编码器的输出。
3)解码器采用多头交叉注意的方式,以残差的形式融合两个输入的特征向量。与编码器类似,解码器也使用空间位置编码。另外,我们使用FFN模块来增强模型的拟合能力,它是一个全连接的前馈网络,由两个线性变换组成,中间有一个ReLU,计算方式如下:
FFN(x)=max(0,xW1+b1)W2+b2 (5)
符号W和b分别代表权重矩阵和基向量。下标表示不同的层。因此,解码器的机制可以概括为:
Figure BDA0003894655130000044
Figure BDA0003894655130000045
其中
Figure BDA0003894655130000046
是分支的输入,
Figure BDA0003894655130000047
是另一个支路的输入,
Figure BDA0003894655130000048
是Xkv坐标的空间编码,
Figure BDA0003894655130000049
是Xq对应的空间位置编码,
Figure BDA00038946551300000410
是解码器的输出,将第一残差单元的输出分别输入到两个第一交叉注意特征融合模块中。
(4)将目标的融合特征,和目标当前时刻实际空间特征对比,使用IoU来计算其相似度,选取综合相似度最高的作为待定匹配目标。
预测器是由一个最简单和最有效的三层感知器组成。感知器包括隐藏维度d和激活函数ReLU。它包含两个分支,即分类分支和粗回归分支。骨干得到的特征图
Figure BDA00038946551300000411
通过三层感知器得到结果(HxWx)。分类分支判断前景和背景是否为跟踪目标,前景指的要追踪的物体,背景指的除追踪物体之外的。粗回归分支完全丢弃了基于先验知识的锚点或锚框,可以直接预测归一化坐标,选择分类分支得分最高的点对应的回归坐标,使***更加简洁。
为了保证样品之间的平衡,将负样品损失减少16倍。我们使用标准的二元交叉熵损失进行分类,计算公式为:
Figure BDA00038946551300000412
其中yj表示j-th样本的真实地面标签,yj=1表示前景,pj表示学习模型预测的属于前景的概率。
对于回归,我们遵循应用l1-norm损失
Figure BDA0003894655130000051
和广义
Figure BDA0003894655130000052
的线性组合,回归损失可以表示为:
Figure BDA0003894655130000053
其中yj=1表示阳性样本,bj表示j-th预测边界框,
Figure BDA0003894655130000054
表示归一化地面真边界框。λG=2和λ1=5是我们实验中的正则化参数。
(5)进行在线追踪,根据待定匹配目标位置,扩大1.7倍搜索范围,利用DeepMask进行分割获得最优匹配结果,与设定阈值比较,大于阈值匹配成功,如果小则匹配失败。
当预测头得到粗回归包围框时,将当前帧搜索区域的粗回归包围框扩大1.7倍得到放大后的图像块,训练后的DeepMask对放大后的图像补丁进行目标分割,得到图像补丁的掩码二值图像,然后通过形态学操作选择连通域最大的掩码,并利用椭圆法来近似目标物体的姿态和椭圆的中心。该点为目标框对角线的交点,其长轴和短轴作为包围框的长度和宽度。所得到的旋转矩形框通常比真实值稍微大一些,并且只需要稍微缩放它就可以得到一个良好的回归边框。
实验测试:
我们在LaSOT和GOT10k数据集上训练模型。骨干网络Swin Tramsformer块使用swin transformer上的预处理参数初始化,其他参数使用Xavier初始化。我们在单个GPU上采用AdamW优化,将骨干学习率设置为2e-5,其他参数的学习率设置为2e-4,并将权值衰减为2e-4。每次迭代的批次大小为25个图像对。我们总共设置了120个epoch,每个epoch有1200次迭代。经过50个时代,学习速度下降了10倍。我们的方法是在Python中使用PyTorch在PC上实现的,使用Intel(R)Core(TM)i5-10400F [email protected] 2.90GHz,16GRAM,NvidiaRTX 3060。
实验通过VOT2019数据集中的视频的结果来对比本发明使用方法与目前大部分方法中基于卷积神经网络目标追踪的效果,记A为目标追踪测试结果的准确性,记R为目标追踪种的健壮性,记EAO为目标追踪中的平均重叠率。实验结果如下表1所示。
表1在VOT2019数据集上与其他SOTA***比较结果
Figure BDA0003894655130000061
由于Swin Transformer块的结构,骨干网络可以分层构造。像ResNet50一样,SwinTransformer设计了一个具有明显层次的网络。底部的结构处理越来越多的本地数据。位于顶端的网络处理的数据较少,但拥有更多的语义信息。因此,受SiamRPN++的启发,我们尝试对从骨干网不同层提取的特征信息进行多层融合。
与SiamRPN++不同,我们不直接使用线性加权,而是进行自适应融合。如表2所示,3层特征融合并没有达到预期的效果,因此我们探究跟踪目标在不同层融合后的注意力图,探究图4中融合失败的原因。融合我们认为可能的原因不能改善后的效果是输入样本图像和搜索区域图像从主干中提取,获得的特征尺寸在第二阶段,第三阶段和第四阶段是32×32,16×16,8×8(搜索区域),16×16,8×8,4×4(模板区域)。分别从表2可以看出,第二和第四阶段的性能测试很差。在第二阶段,网络的浅层包含更多的简单特征,如边缘或位置,仅使用简单特征是无法跟踪的。在第四阶段,网络的深层包含更多的语义信息,但由于分辨率较低,仅利用第四层无法对其进行跟踪。在融合第二阶段和第四阶段特征后,可以发现将浅层位置信息和深层语义信息相结合,跟踪效果将优于单一的跟踪效果。在进行第2、3、4阶段的融合后,由于第4层的分辨率太小,在融合过程中会对第3层造成一些细微的影响,使得融合后的效果略差于单独的第3层,因此在发明中,我们选择第3层作为后续特征融合的输入。
表2在VOT2018数据集上不同层数融合结果对比
Figure BDA0003894655130000062
在本专利中,我们提出了一个简单而有效的视觉跟踪框架。通过SwinTransformer块替代原有的卷积网络骨干,我们可以从全局和远程语义信息交互中获得自我注意,并尝试探索注意力机制作为骨干的可能性。同时,增加了在线精细跟踪,大大提高了***的性能。本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于注意力机制的目标追踪方法,包括以下步骤:
1)获取样本图像的解码特征以及搜索区域的解码特征;
2)将两种解码特征分别输入到训练好的滑动窗口转换器骨干Swin TransformerBackbone目标特征提取网络模型中,得到目标的位置信息以及空间特征;
3)将得到的目标位置信息以及空间特征输入多头交叉注意模块,获取到当前时刻的目标融合特征;
4)将当前时刻的目标融合特征输入预测器中进行回归和分类,分别得到预测位置的粗回归框以及追踪目标分类得分;
5)将粗回归框输入在线跟踪模块,得到良好的回归框。
2.根据权利要求1所述的一种基于注意力机制的目标追踪方法,其特征在于,步骤2)的实现过程为:
2.1)分别输入两种解码特征,通过Swin Transformer Backbone目标特征提取网络模型的注意力机制块提取出搜索区域以及样本图像的目标特征,样本图像维度为
Figure FDA0003894655120000011
搜索区域图像维度为
Figure FDA0003894655120000012
通过网络模型的骨干对搜索区域和样本图像进行处理,得到它们的图像特征向量分别为:
Figure FDA0003894655120000013
Figure FDA0003894655120000014
其中参数Hz,
Figure FDA0003894655120000015
参数Hx,
Figure FDA0003894655120000016
C=1024,Hz0,Wz0;Hx0,Wx0分别为样本图像的长和宽;搜索图像的长和宽;C为通道数量;
2.2)分别对得到的图像特征向量进行预处理:分别将两个图像特征向量通过1*1卷积层来将1024个通道维度降低到256个通道。
3.根据权利要求2所述的一种基于注意力机制的目标追踪方法,其特征在于,步骤3)中:
多头交叉注意模块包括编码器和解码器,其中所述编码器包括两个多头自我注意单元,其中一个所述多头自我注意单元的输入为搜索区域经过预处理的图像特征向量,另一个所述多头自我注意单元的输入为样本图像经过预处理的图像特征向量,两个所述多头自我注意模块的输出端分别连接第一残差单元;所述解码器包括两个第一交叉注意特征融合模块,每个所述第一残差单元的输出端均连接两个所述第一交叉注意特征融合模块,两个所述第一交叉注意特征融合模块的输出端均连接于第二交叉注意特征融合模块;
所述第一交叉注意特征融合模块和所述第二交叉注意特征融合模块均包括多头交叉注意单元,所述多头交叉注意单元的输出端连接第二残差单元,所述第二残差单元的输出端连接FFN单元,所述FFN单元的输出端连接第三残差单元;
步骤3)的实现过程为:
3.1)将两个经过预处理的图像特征向量输入两个所述多头自我注意单元,两个所述多头自我注意单元的计算公式为:
Figure FDA0003894655120000021
Hi=Attention(QWi Q,KWi K,VWi V)
其中:查询Q、键K和值V,
Figure FDA0003894655120000022
Figure FDA0003894655120000023
为参数矩阵,Hi为参数;dm、dk、dv均为长度,
Figure FDA0003894655120000024
为第nh个多头自我注意单元,i为参数;
3.2)将MultiHead(Q,K,V)输入残差单元,残差单元输出结果Xeo,计算方式如下:
Xeo=X+MultiHead(X+Px,X+Px,X)
其中X为参数,
Figure FDA0003894655120000025
是空间位置编码,d为通道数,Nx为空间向量;
3.3)对于所述FFN单元,其计算方式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中:W和b分别代表权重矩阵和基向量,下标表示不同的层,x为第三残差单元的输出;
将解码器的机制表示为:
Figure FDA0003894655120000026
Figure FDA0003894655120000027
其中
Figure FDA0003894655120000028
Figure FDA0003894655120000029
是输入,
Figure FDA00038946551200000210
是Xq对应的空间位置编码,
Figure FDA00038946551200000211
是Xkv坐标的空间编码,
Figure FDA00038946551200000212
是解码器的输出。
4.根据权利要求1所述的一种基于注意力机制的目标追踪方法,其特征在于,步骤4)中:所述预测器包括三层感知器,所述三层感知器包括隐藏维度d和激活函数ReLU,将SwinTransformer Backbone目标特征提取网络模型的骨干得到的特征图
Figure FDA0003894655120000031
通过三层感知器得到结果HxWx,所述三层感知器包含分类分支和粗回归分支,分类分支判断是否为跟踪目标,粗回归分支预测跟踪目标的回归坐标,选择分类分支得分最高的点对应的回归坐标得到粗回归框。
5.根据权利要求4所述的一种基于注意力机制的目标追踪方法,其特征在于,步骤5)的实现过程为:当预测器得到粗回归包围框时,将粗回归包围框扩大1.7倍得到放大后的图像块,训练后的DeepMask实例分割模型对放大后的图像块的补丁进行目标分割,得到图像块补丁的掩码二值图像,然后通过形态学操作选择连通域最大的掩码二值图像,并利用椭圆法对连通域最大的掩码二值图像进行处理,获取目标物体的姿态和椭圆的中心,该中心为目标框对角线的交点,椭圆的长轴和短轴作为目标框的长度和宽度,将目标框进行缩放得到一个良好的回归边框。
CN202211284898.0A 2022-10-18 2022-10-18 一种基于注意力机制的目标追踪方法 Pending CN115690152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211284898.0A CN115690152A (zh) 2022-10-18 2022-10-18 一种基于注意力机制的目标追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211284898.0A CN115690152A (zh) 2022-10-18 2022-10-18 一种基于注意力机制的目标追踪方法

Publications (1)

Publication Number Publication Date
CN115690152A true CN115690152A (zh) 2023-02-03

Family

ID=85067015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211284898.0A Pending CN115690152A (zh) 2022-10-18 2022-10-18 一种基于注意力机制的目标追踪方法

Country Status (1)

Country Link
CN (1) CN115690152A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116664624A (zh) * 2023-06-01 2023-08-29 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及***
CN117274883A (zh) * 2023-11-20 2023-12-22 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与***
CN117522925A (zh) * 2024-01-05 2024-02-06 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824089A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联回归的人脸3d姿态识别方法
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
CN111046781A (zh) * 2019-12-09 2020-04-21 华中科技大学 一种基于三元注意力机制的鲁棒三维目标检测方法
CN112070713A (zh) * 2020-07-03 2020-12-11 中山大学 一种引入attention机制的多尺度目标检测方法
CN113111727A (zh) * 2021-03-19 2021-07-13 西北工业大学 一种基于特征对齐的遥感场景下旋转目标检测方法
CN113256678A (zh) * 2021-04-26 2021-08-13 中国人民解放军32802部队 基于自注意力变换网络的目标跟踪方法
CN114035429A (zh) * 2021-09-14 2022-02-11 南京航空航天大学 一种基于干扰观测器的涡扇发动机切换***的输出跟踪控制方法
US20220101007A1 (en) * 2020-09-28 2022-03-31 Nec Laboratories America, Inc. Multi-hop transformer for spatio-temporal reasoning and localization
CN114399533A (zh) * 2022-01-17 2022-04-26 中南大学 一种基于多层次注意力机制的单目标追踪方法
CN114529583A (zh) * 2022-02-10 2022-05-24 国网河南省电力公司电力科学研究院 基于残差回归网络的电力设备跟踪方法及跟踪***
CN114693952A (zh) * 2022-03-24 2022-07-01 安徽理工大学 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN115147459A (zh) * 2022-07-31 2022-10-04 哈尔滨理工大学 基于Swin Transformer的无人机目标跟踪方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824089A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联回归的人脸3d姿态识别方法
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
CN111046781A (zh) * 2019-12-09 2020-04-21 华中科技大学 一种基于三元注意力机制的鲁棒三维目标检测方法
CN112070713A (zh) * 2020-07-03 2020-12-11 中山大学 一种引入attention机制的多尺度目标检测方法
US20220101007A1 (en) * 2020-09-28 2022-03-31 Nec Laboratories America, Inc. Multi-hop transformer for spatio-temporal reasoning and localization
CN113111727A (zh) * 2021-03-19 2021-07-13 西北工业大学 一种基于特征对齐的遥感场景下旋转目标检测方法
CN113256678A (zh) * 2021-04-26 2021-08-13 中国人民解放军32802部队 基于自注意力变换网络的目标跟踪方法
CN114035429A (zh) * 2021-09-14 2022-02-11 南京航空航天大学 一种基于干扰观测器的涡扇发动机切换***的输出跟踪控制方法
CN114399533A (zh) * 2022-01-17 2022-04-26 中南大学 一种基于多层次注意力机制的单目标追踪方法
CN114529583A (zh) * 2022-02-10 2022-05-24 国网河南省电力公司电力科学研究院 基于残差回归网络的电力设备跟踪方法及跟踪***
CN114693952A (zh) * 2022-03-24 2022-07-01 安徽理工大学 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN115147459A (zh) * 2022-07-31 2022-10-04 哈尔滨理工大学 基于Swin Transformer的无人机目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIN LITING ET AL: "SwinTrack: A Simple and Strong Baseline for Transformer Tracking", 《ARXIV E-PRINTS》, pages 1 - 20 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116402858B (zh) * 2023-04-11 2023-11-21 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116664624A (zh) * 2023-06-01 2023-08-29 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及***
CN116664624B (zh) * 2023-06-01 2023-10-27 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及***
CN117274883A (zh) * 2023-11-20 2023-12-22 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与***
CN117274883B (zh) * 2023-11-20 2024-01-26 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与***
CN117522925A (zh) * 2024-01-05 2024-02-06 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及***
CN117522925B (zh) * 2024-01-05 2024-04-16 成都合能创越软件有限公司 注意力机制下移动相机中判断物体运动状态方法及***

Similar Documents

Publication Publication Date Title
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
CN112069896B (zh) 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN111444889A (zh) 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111553350B (zh) 一种基于深度学习的注意力机制文本识别方法
CN108537147A (zh) 一种基于深度学习的手势识别方法
Sedai et al. A Gaussian process guided particle filter for tracking 3D human pose in video
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN115205730A (zh) 一种结合特征增强与模板更新的目标跟踪方法
CN115496928A (zh) 基于多重特征匹配的多模态图像特征匹配方法
Qin et al. Structure-aware feature disentanglement with knowledge transfer for appearance-changing place recognition
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
Zou et al. Gpt-cope: A graph-guided point transformer for category-level object pose estimation
CN113627245B (zh) Crts目标检测方法
Cheng et al. Joint graph convolution networks and transformer for human pose estimation in sports technique analysis
Chen et al. Towards Pedestrian Target Detection with Optimized Mask R‐CNN
Zhao et al. Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images
CN114299535A (zh) 基于Transformer的特征聚合人体姿态估计方法
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach
Gao et al. FSOD4RSI: Few-Shot Object Detection for Remote Sensing Images Via Features Aggregation and Scale Attention
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
Wang et al. Object tracking via dual fuzzy low-rank approximation
Lu et al. A feature aggregation hourglass network for human pose estimation
Wang et al. EFCPose: End-to-End Multi-Person Pose Estimation with Fully Convolutional Heads
Lai et al. Light weight facial landmark detection with weakly supervised learning
Yuan et al. Multiple object detection and tracking from drone videos based on GM-YOLO and multi-tracker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination