CN113592900A - 一种基于注意力机制与全局推理的目标跟踪方法及*** - Google Patents

一种基于注意力机制与全局推理的目标跟踪方法及*** Download PDF

Info

Publication number
CN113592900A
CN113592900A CN202110656309.6A CN202110656309A CN113592900A CN 113592900 A CN113592900 A CN 113592900A CN 202110656309 A CN202110656309 A CN 202110656309A CN 113592900 A CN113592900 A CN 113592900A
Authority
CN
China
Prior art keywords
feature map
attention mechanism
map
target tracking
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110656309.6A
Other languages
English (en)
Inventor
鲍华
束平
许克应
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110656309.6A priority Critical patent/CN113592900A/zh
Publication of CN113592900A publication Critical patent/CN113592900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制与全局推理的目标跟踪方法及***,属于计算机视觉技术领域,包括:利用基于孪生网络的目标跟踪模型进行目标跟踪,目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,包括:获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图;将第一得分图和第二得分图进行加权求和,得到回归图;根据回归图,确定目标所在位置。本发明相较于现有的跟踪算法,具有更好的跟踪效果。

Description

一种基于注意力机制与全局推理的目标跟踪方法及***
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于注意力机制与全局推理的目标跟踪方法及***。
背景技术
目标跟踪是计算机视觉领域的难题之一,它是更高级的视觉理解和场景分析的基础。目标跟踪技术广泛用于视频监视,人机交互,机器人技术,视频编辑和无人驾驶。视觉对象跟踪任务就是根据初始帧目标位置和大小信息,在后续帧中实现对移动目标的连续和稳定跟踪。由于受到目标的尺度变化,旋转,变形,快速运动以及背景照明的变化等类似的物体干扰,实现长期稳定的目标跟踪仍然是一项艰巨的任务。
近年来,对视觉跟踪任务的研究集中在两个方面,一方面是提高算法的速度,另一方面是提高跟踪的准确性。在速度方面,相关过滤算法是最成功的跟踪框架之一,主要使用了快速傅里叶傅里叶变换和更简单的手动功能,运行速度接近每秒700帧。但是这种方法在复杂的情况下通常很难处理,并且性能将大大降低。在准确性方面,基于深度学习的目标跟踪方法显示出非常强大的效果。与相关过滤算法相比,基于深度学习的目标跟踪方法的目标跟踪性能具有很大的提高,可以更好地处理最困难的场景,但其速度较慢。
为解决上述基于深度学习的目标跟踪算法跟踪速度慢的问题,提出了基于孪生网络的目标跟踪算法。相关研究人员首次提出孪生网络的目标跟踪,即将目标跟踪问题转化为一个patch块匹配问题,并用神经网络来实现;也有研究者提出了一个端到端的孪生网络跟踪算法SiamFC,其速度很快,所以接下来的几年中出现了许多基于孪生网络的目标跟踪。
基于孪生网络的目标跟踪方法具有很高的速度和准确率优势,因而受到了很强的关注度,但已有的一些孪生网络跟踪算法仍存在一些不足。下面针对典型的孪生网络SiamFC和SiamRPN,指出其存在的两方面不足,其一,它们使用的网络结构较浅,提取的特征不充分,没有很好的关注跟踪目标本身,所以在面对一些跟踪挑战时会出现跟踪失败的情况。其二,它们都没有考虑到上下文信息,在面对遮挡较大或者形变过大的物体容易导致跟踪失败。
发明内容
本发明的目的在于克服现有技术存在的缺陷,取得更好的跟踪效果。
为实现以上目的,一方面,本发明采用一种基于注意力机制与全局推理的目标跟踪方法,利用基于孪生网络的目标跟踪模型进行目标跟踪,所述目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,包括:
获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图;
将第一得分图和第二得分图进行加权求和,得到回归图;
根据回归图,确定目标所在位置。
进一步地,所述主干网络采用ReNeXt网络结构,其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取,得到特征图并作为所述注意力机制的输入。
进一步地,所述注意力机制包括通道注意力机制和空间注意力机制,其中:
空间注意力机制用于对输入的特征图进行处理,得到第一特征图;
通道注意力机制用于对输入的特征图进行处理,得到第二特征图;
将第一特征图和第二特征图并行相加,得到注意力特征图,并作为所述全局推理模块的输入。
进一步地,所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上,进行推理,然后将交互空间节点的特征映射到原空间,得到新特征图;将新特征图与所述注意力特征图相加,得到新特征图。
进一步地,所述获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图,包括:
将所述模板分支中的全局推理模块输出的新特征图与所述搜索分支中的全局推理模块输出的新特征图执行互相关运算,分别得到所述第一得分图和所述第二得分图。
另一方面,采用一种基于注意力机制与全局推理的目标跟踪***,包括图片获取模块和目标跟踪模块,其中:
图片获取模块用于获取初始帧图片和当前帧图片;
目标跟踪模块用于利用目标跟踪模型对初始帧图片和当前帧图片进行处理,确定目标所在位置,所述目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,所述模板分支和搜索分支分别对初始帧图像和当前帧图像进行处理,得到第一得分图和第二得分图,并将第一得分图和第二得分图进行加权求和,得到回归图,确定目标所在位置。
进一步地,所述主干网络采用ReNeXt网络结构,其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取,得到特征图并作为所述注意力机制的输入。
进一步地,所述注意力机制包括通道注意力机制和空间注意力机制,其中:
空间注意力机制用于对输入的特征图进行处理,得到第一特征图;
通道注意力机制用于对输入的特征图进行处理,得到第二特征图;
将第一特征图和第二特征图并行相加,得到注意力特征图,并作为所述全局推理模块的输入。
进一步地,所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上,进行推理,然后将交互空间节点的特征映射到原空间,得到新特征图;将新特征图与所述注意力特征图相加,得到新特征图。
与现有技术相比,本发明存在以下技术效果:本发明使用了更深的网络结构并加入了并行的注意力机制,使得提取的特征更加的充分,同时还加入了全局推理模块,全局推理模块的加入更好的考虑到了全局上下文的消息,从而取得更好的跟踪效果,相较于已有的跟踪算法,本发明取得了较有竞争的精度和成功率结果。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于注意力机制与全局推理的目标跟踪方法的流程图;
图2是目标跟踪方法的整体跟踪框图,其中包含三部分,分别是主干网络,并行注意力机制以及全局推理模块;
图3是空间注意力机制框图;
图4是通道注意力机制框图;
图5是全局推理模块结构图;
图6是本发明跟踪算法与其他5种高性能主流算法在OTB100基准数据集上进行对比评估,(a)为成功率图,(b)为精度图;
图7是本发明跟踪算法与其他5种高性能主流算法在OTB100数据集上面对各种挑战时的精度图;
图8是本发明中跟踪算法与其他5种高性能主流算法在OTB100数据集上面对各种挑战时的成功率图;
图9是本发明种跟踪算法与其他三种跟踪算法在OTB100中四个视频帧上的定性分析比较。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1至图2所示,本实施例公开了一种基于注意力机制与全局推理的目标跟踪方法,利用基于孪生网络的目标跟踪模型进行目标跟踪,所述目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,包括如下步骤S1至S3:
S1、获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图;
S2、将第一得分图和第二得分图进行加权求和,得到回归图;
S3、根据回归图,确定目标所在位置。
需要说明的是,目标跟踪模型中提取特征的主干网络采用最新的ReNeXt网络结构,其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取,得到特征图并作为所述注意力机制的输入,具体如下:
孪生网络有两个分支,模板分支和搜索分支,模板分支将给定的初始帧图片作为输入,而搜索分支将当前帧的图片用作输入。这两个分支经过完整的卷积网络进行特征提取,然后执行互相关运算,最后得到一个得分图,具体情况可以用以下公式表示:
Figure BDA0003112943050000051
其中,z表示模板图片,x表示搜索图片,
Figure BDA0003112943050000052
表示经过卷积神经网络生成的特征图,b表示偏置值,I表示单位矩阵,S(z,x)为最终的得分图,由两个分支获得的特征图经过互相关运算以获得S(z,x),得分最高的是目标的位置。
作为进一步优选的技术方案,所述注意力机制包括通道注意力机制和空间注意力机制,其中:
空间注意力机制用于对输入的特征图进行处理,得到第一特征图;
通道注意力机制用于对输入的特征图进行处理,得到第二特征图;
将第一特征图和第二特征图并行相加,得到注意力特征图,并作为所述全局推理模块的输入。
如图3所示,本实施例中空间注意力机制采用了简洁、高效、计算量小的空间注意力模块,将输入的特征图
Figure BDA0003112943050000061
按照空间的位置进行分割得:
FSA=[f1,1,f1,2,…,fi,j,…,fH,W]
其中,
Figure BDA0003112943050000062
表示空间位置(i,j)处的特征张量,其中i∈{1,2,…,H},j∈{1,2,…,W}。特征图FSA由两个分支输入,一个分支生成权重系数,而另一个保持不变。最后,对权重系数和分割后的特征图中的每个对应位置张量进行相乘运算,输出处理后的特征图
Figure BDA0003112943050000063
如下式所示:
Figure BDA0003112943050000064
其中,μi,j由特征张量fi,j通过1×1的卷积操作得来,σ(·)代表sigmoid激活函数。
如图4所示,本实施例中的通道注意力机制将输入的特征图FCA分成俩个分支,其一保持原特征图不变,其二分别经过全局平均池化,1×1的卷积压缩通道,1×1的卷积扩张通道,再经过sigmoid激活函数,最终产生权重系数,将原特征图与生成的权重系数进行加权得到新的特征图。
将输入的特征图
Figure BDA0003112943050000065
按通道数进行分割,具体情况如下式:
FCA=[f1,f2,…,fk,…,fC]
其中,
Figure BDA0003112943050000066
k∈{1,2,…,C}。
特征图经过全局平均池化后生成特征张量
Figure BDA0003112943050000071
第k通道的值如下式所示:
Figure BDA0003112943050000072
将生成特征张量在经过俩个1×1的卷积操作之后得到新的特征张量z′,如下式所示:
z′=W1(δ(W2z))
其中,
Figure BDA0003112943050000073
是第一个卷积层的权重值,
Figure BDA0003112943050000074
是第二个卷积层的权重值,δ(·)是ReLU激活函数。得到最终的特征图如下式所示:
Figure BDA0003112943050000075
最后,基于并行注意力机制将空间注意力机制产生的特征图
Figure BDA0003112943050000076
和通道注意力机制产生的特征图
Figure BDA0003112943050000077
并行相加得到新的特征图F,如下式所示:
Figure BDA0003112943050000078
作为进一步优选的技术方案,所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上,形成一个完全相连的图,进行推理,然后将交互空间节点的特征映射到原空间,得到新特征图;将新特征图与所述注意力特征图相加,得到新特征图。
如图5所示,全局推理模块由五个卷积组成,两个用于在输入特征图X和输出特征图Y上进行尺寸缩减和扩展(最左侧和最右侧),一个用于在坐标和潜在交互空间之间生成双投影B(顶部),而两个用于基于交互空间(中间)中的图Ag的全局推理。在这里,V将区域特征编码为图节点,Wg表示图卷积的参数。将输入特征图
Figure BDA0003112943050000081
其中c为通道数,L=H×W,通过线性转化映射到交互空间,具体如下式所示:
Figure BDA0003112943050000082
其中,
Figure BDA0003112943050000083
在交互空间中的图卷积可用下式表示:
Z=GVWg=((I-Ag)V)Wg
其中,G和Ag表示N×N节点邻接矩阵,用于跨节点之间扩散信息;Wg表示状态更新,
Figure BDA0003112943050000084
表示节点矩阵。
再将交互空间映射到原空间得到新的特征图,具体如下式线性映射所示:
Figure BDA0003112943050000085
最后将新的特征图与原特征图相加得到最终的具有上下文信息的特征图。
本实施例向孪生网络的两个分支分别添加全局推理模块,并与另一分支执行互相关运算以获得得分图,将得到的得分图执行加权和,具体公式如下:
S(z,x)=φS1(z,x)+(1-φ)S2(z,x)
其中,S1(z,x)是全局推理模块加在模板分支所得到的得分图,S2(z,x)是全局推理模块加在搜索分支得到的得分图,φ是权重系数,本实施例中φ取0.5,S(z,x)是最终输出的得分图。
本实施例还公开了一种基于注意力机制与全局推理的目标跟踪***,包括图片获取模块和目标跟踪模块,其中:
图片获取模块用于获取初始帧图片和当前帧图片;
目标跟踪模块用于利用目标跟踪模型对初始帧图片和当前帧图片进行处理,确定目标所在位置,所述目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,所述模板分支和搜索分支分别对初始帧图像和当前帧图像进行处理,得到第一得分图和第二得分图,并将第一得分图和第二得分图进行加权求和,得到回归图,确定目标所在位置。
作为进一步优选的技术方案,所述主干网络采用ReNeXt网络结构,其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取,得到特征图并作为所述注意力机制的输入。
作为进一步优选的技术方案,所述注意力机制包括通道注意力机制和空间注意力机制,其中:
空间注意力机制用于对输入的特征图进行处理,得到第一特征图;
通道注意力机制用于对输入的特征图进行处理,得到第二特征图;
将第一特征图和第二特征图并行相加,得到注意力特征图,并作为所述全局推理模块的输入。
作为进一步优选的技术方案,所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上,进行推理,然后将交互空间节点的特征映射到原空间,得到新特征图;将新特征图与所述注意力特征图相加,得到新特征图。
本实施例公开的一种基于注意力机制与全局推理的目标跟踪***与上述实施例公开的一种基于注意力机制与全局推理的目标跟踪方法具有相同的技术特征和技术效果,该处不再赘述。
相较于现有的跟踪算法,本发明取得了更好的跟踪效果,实验验证如下:
本实施例的实验采取的数据集是OTB100[Yi Wu,Jongwoo Lim,and Ming-HsuanYang.Object tracking benchmark.IEEE Transactions on Pattern Analysis andMachine Intelligence,37(9):1834–1848,2015.2]。它由100个视频帧组成,并于2015年提出。不同的数据集还标有不同的属性。共有11种不同的属性。这些属性可能代表目标跟踪领域的常见困难。例如光照变化(IV),尺度变化(SV),遮挡(OCC),形变(DEF),运动模糊(MB),快速运动(FM),平面内旋转(IPR),平面外旋转(OPR),出视野(OV),背景相似(BC),低分辨率(LR)。
跟踪算法的质量取决于OTB100数据集的精度图和成功图,精度图是指视频帧的跟踪算法估计的目标位置的中心点与手动标记的距离目标中心点小于给定阈值帧数的百分比。由于精度图无法反映目标对象的大小和比例的变化,因此提出了成功率图。成功图是计算给定重合率阈值下大于重合率阈值的帧数占总帧数的百分比,重合率的计算公式如下:
Figure BDA0003112943050000101
其中,O是重合率,B是跟踪算法得到的边界框区域,G是真实值的边界框区域,∩是交集运算,∪是并集运算。
如图6所示,将本发明的跟踪算法在OTB100数据集上进行测试,并将得出的结果与SiamRPN[Li B,Yan J,Wu W,et al.High performance visual tracking with siameseregion proposal network[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:8971-8980.]、CFNet[Valmadre J,BertinettoL,Henriques J,et al.End-to-end representation learning for correlation filterbased tracking[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017:2805-2813.]、SiamFC3s[Wang L,Ouyang W,Wang X,etal.Visual tracking with fully convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:3119-3127.]、Staple[Bertinetto L,Valmadre J,Golodetz S,et al.Staple:Complementary learners forreal-time tracking[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2016:1401-1409.]、fDSST[Danelljan M,
Figure BDA0003112943050000111
G,Khan F S,et al.Discriminative scale space tracking[J].IEEE transactions on patternanalysis and machine intelligence,2016,39(8):1561-1575.]五种近几年的主流算法得到的结果进行对比,本发明的算法都取得了较好的效果。相比较于SiamFC算法,本发明的跟踪算法在平均成功率和精度上都有所提升,其中成功率提高了6.9个百分点,精度提高了9.6个百分点。相较于SiamRPN算法也都有所提高,其中成功率和精度分别提高了1.8个百分点和2.4个百分点。
如图7和图8所示,将上述五种经典跟踪算法与本发明的算法在OTB100的不同属性上得到成功率和精度的显现出了不错的效果。其中图7和图8中的(a),(b),(c),(d),(e),(f),(g)和(h)分别代表的跟踪挑战的属性是背景相似,形变,低分辨率,运动模糊,遮挡,平面外旋转,出视野和尺度变化。图7和图8可以显示出在面临上述挑战时,本发明的跟踪算法在成功率和精度上均要优于SiamRPN,CFNet,SiamFC3s,Staple和fDSST算法。
如图9所示,选取OTB2015数据集中的四个具有挑战性的视频序列,将本发明的跟踪算法得出的结果与真实值、SiamFC得出的结果、Staple得出的结果进行比较,可以发现本发明中跟踪算法在处理遮挡、形变、运动模糊、尺度变化的困难上有着明显的优势。
“Bolt2”视频序列中具有的跟踪挑战有形变和背景相似,对于形变这个挑战上述算法表现的情况都较好,但对于背景相似这个挑战,由图中的第235帧和第252帧可知,SiamFC表现的较差,而本发明的算法依旧表现较好。
“Box”视频序列中具有的跟踪挑战有光照变化、尺度变化、遮挡、运动模糊、平面内旋转、平面外旋转、出视野、背景相似和低分辨率,对于光照变化、出视野、低分辨率这三种跟踪算法的挑战,图中三种算法表现的状态相似,但对于尺度变化、遮挡、运动模糊、平面内旋转、平面外旋转和背景相似这六种挑战,本发明的算法表现的较好。图中的第43帧图片、第357帧图片和第945帧图片SiamFC算法会跟丢目标,第641帧Staple算法会跟丢目标,但本发明提出的算法跟踪的状态一直很稳定,没有出现跟丢情况。
“Dragon Baby”视频序列中具有的跟踪挑战有尺度变化、遮挡、运动模糊、快速运动、平面内旋转、平面外旋转和出视野。如图所示,当视频处于19帧时,三种算法基本都能跟住,但在第44帧出现运动模糊和快速运动、第48帧出现遮挡和第80帧出现平面外旋转情况时只有本发明的跟踪算法可以跟住目标。
“Girl2”视频序列中具有的跟踪挑战有尺度变化、遮挡、形变、运动模糊和平面外旋转。如图所示,在第107帧即将发生遮挡时,三种算法跟踪状态相似,但发生遮挡之后的第239帧只有本发明的跟踪算法跟住了目标。同样,在第842帧和第927帧发生形变时本发明算法依旧可以跟住目标,但其他俩种算法表现较差。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于注意力机制与全局推理的目标跟踪方法,其特征在于,利用基于孪生网络的目标跟踪模型进行目标跟踪,所述目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,包括:
获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图;
将第一得分图和第二得分图进行加权求和,得到回归图;
根据回归图,确定目标所在位置。
2.如权利要求1所述的基于注意力机制与全局推理的目标跟踪方法,其特征在于,所述主干网络采用ReNeXt网络结构,其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取,得到特征图并作为所述注意力机制的输入。
3.如权利要求1所述的基于注意力机制与全局推理的目标跟踪方法,其特征在于,所述注意力机制包括通道注意力机制和空间注意力机制,其中:
空间注意力机制用于对输入的特征图进行处理,得到第一特征图;
通道注意力机制用于对输入的特征图进行处理,得到第二特征图;
将第一特征图和第二特征图并行相加,得到注意力特征图,并作为所述全局推理模块的输入。
4.如权利要求3所述的基于注意力机制与全局推理的目标跟踪方法,其特征在于,所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上,进行推理,然后将交互空间节点的特征映射到原空间,得到新特征图;将新特征图与所述注意力特征图相加,得到新特征图。
5.如权利要求4所述的基于注意力机制与全局推理的目标跟踪方法,其特征在于,所述获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图,包括:
将所述模板分支中的全局推理模块输出的新特征图与所述搜索分支中的全局推理模块输出的新特征图执行互相关运算,分别得到所述第一得分图和所述第二得分图。
6.一种基于注意力机制与全局推理的目标跟踪***,其特征在于,包括图片获取模块和目标跟踪模块,其中:
图片获取模块用于获取初始帧图片和当前帧图片;
目标跟踪模块用于利用目标跟踪模型对初始帧图片和当前帧图片进行处理,确定目标所在位置,所述目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,所述模板分支和搜索分支分别对初始帧图像和当前帧图像进行处理,得到第一得分图和第二得分图,并将第一得分图和第二得分图进行加权求和,得到回归图,确定目标所在位置。
7.如权利要求6所述的基于注意力机制与全局推理的目标跟踪***,其特征在于,所述主干网络采用ReNeXt网络结构,其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取,得到特征图并作为所述注意力机制的输入。
8.如权利要求6所述的基于注意力机制与全局推理的目标跟踪***,其特征在于,所述注意力机制包括通道注意力机制和空间注意力机制,其中:
空间注意力机制用于对输入的特征图进行处理,得到第一特征图;
通道注意力机制用于对输入的特征图进行处理,得到第二特征图;
将第一特征图和第二特征图并行相加,得到注意力特征图,并作为所述全局推理模块的输入。
9.如权利要求8所述的基于注意力机制与全局推理的目标跟踪***,其特征在于,所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上,进行推理,然后将交互空间节点的特征映射到原空间,得到新特征图;将新特征图与所述注意力特征图相加,得到新特征图。
CN202110656309.6A 2021-06-11 2021-06-11 一种基于注意力机制与全局推理的目标跟踪方法及*** Pending CN113592900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110656309.6A CN113592900A (zh) 2021-06-11 2021-06-11 一种基于注意力机制与全局推理的目标跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110656309.6A CN113592900A (zh) 2021-06-11 2021-06-11 一种基于注意力机制与全局推理的目标跟踪方法及***

Publications (1)

Publication Number Publication Date
CN113592900A true CN113592900A (zh) 2021-11-02

Family

ID=78243779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110656309.6A Pending CN113592900A (zh) 2021-06-11 2021-06-11 一种基于注意力机制与全局推理的目标跟踪方法及***

Country Status (1)

Country Link
CN (1) CN113592900A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115018878A (zh) * 2022-04-21 2022-09-06 哈尔滨工业大学 基于注意力机制的复杂场景下目标跟踪方法、存储介质及设备
CN115661207A (zh) * 2022-11-14 2023-01-31 南昌工程学院 基于空间一致性匹配与权重学习的目标跟踪方法与***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978921A (zh) * 2019-04-01 2019-07-05 南京信息工程大学 一种基于多层注意力机制的实时视频目标跟踪算法
CN110472495A (zh) * 2019-07-08 2019-11-19 南京邮电大学盐城大数据研究院有限公司 一种基于图形推理全局特征的深度学习人脸识别方法
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN111192270A (zh) * 2020-01-03 2020-05-22 中山大学 一种基于点全局上下文关系推理的点云语义分割方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111428699A (zh) * 2020-06-10 2020-07-17 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及***
CN112560695A (zh) * 2020-12-17 2021-03-26 中国海洋大学 水下目标跟踪方法、***、存储介质、设备、终端及应用

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978921A (zh) * 2019-04-01 2019-07-05 南京信息工程大学 一种基于多层注意力机制的实时视频目标跟踪算法
CN110472495A (zh) * 2019-07-08 2019-11-19 南京邮电大学盐城大数据研究院有限公司 一种基于图形推理全局特征的深度学习人脸识别方法
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN111192270A (zh) * 2020-01-03 2020-05-22 中山大学 一种基于点全局上下文关系推理的点云语义分割方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111428699A (zh) * 2020-06-10 2020-07-17 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及***
CN112560695A (zh) * 2020-12-17 2021-03-26 中国海洋大学 水下目标跟踪方法、***、存储介质、设备、终端及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUNPENG CHEN: "Graph-Based Global Reasoning Networks", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 9 January 2020 (2020-01-09), pages 433 - 442 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115018878A (zh) * 2022-04-21 2022-09-06 哈尔滨工业大学 基于注意力机制的复杂场景下目标跟踪方法、存储介质及设备
CN115661207A (zh) * 2022-11-14 2023-01-31 南昌工程学院 基于空间一致性匹配与权重学习的目标跟踪方法与***

Similar Documents

Publication Publication Date Title
Tang et al. Real-time neural radiance talking portrait synthesis via audio-spatial decomposition
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN112560656A (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN108830170B (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN110135365B (zh) 基于幻觉对抗网络的鲁棒目标跟踪方法
CN110942476A (zh) 基于二维图像引导的改进三维点云配准方法、***及可读存储介质
CN112163498A (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN113592900A (zh) 一种基于注意力机制与全局推理的目标跟踪方法及***
CN111415318B (zh) 基于拼图任务的无监督相关滤波目标跟踪方法及***
CN112183675B (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN111488932A (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
CN111968155B (zh) 一种基于分割目标掩模更新模板的目标跟踪方法
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
Yu et al. Background subtraction based on GAN and domain adaptation for VHR optical remote sensing videos
CN114972426A (zh) 一种基于注意力和卷积的单目标跟踪方法
Wani et al. Deep learning-based video action recognition: a review
Wu et al. Eventclip: Adapting clip for event-based object recognition
Saunders et al. Dyna-dm: Dynamic object-aware self-supervised monocular depth maps
CN115063717B (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN116734834A (zh) 应用于动态场景的定位建图方法、装置和智能设备
CN115512263A (zh) 一种面向高空坠物的动态视觉监测方法及装置
Sun et al. Research on robot target recognition based on deep learning
Ouanan et al. Pubface: Celebrity face identification based on deep learning
Wang et al. A spatio-temporal attention convolution block for action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination