CN109685831B - 基于残差分层注意力和相关性滤波器的目标跟踪方法及*** - Google Patents

基于残差分层注意力和相关性滤波器的目标跟踪方法及*** Download PDF

Info

Publication number
CN109685831B
CN109685831B CN201811592319.2A CN201811592319A CN109685831B CN 109685831 B CN109685831 B CN 109685831B CN 201811592319 A CN201811592319 A CN 201811592319A CN 109685831 B CN109685831 B CN 109685831B
Authority
CN
China
Prior art keywords
target
sample
network
attention
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811592319.2A
Other languages
English (en)
Other versions
CN109685831A (zh
Inventor
马昕
黄文慧
宋锐
荣学文
田国会
李贻斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811592319.2A priority Critical patent/CN109685831B/zh
Publication of CN109685831A publication Critical patent/CN109685831A/zh
Application granted granted Critical
Publication of CN109685831B publication Critical patent/CN109685831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开提出了一种基于残差分层注意力和相关性滤波器的目标跟踪方法及***。本公开使用端到端训练的卷积神经网络,并将相关性滤波器作为网络中的层,实现了对运动目标进行实时的目标跟踪。而且,通过残差分层注意力学习,能够获得更有效、鲁棒的卷积目标特征,显著提升了目标跟踪的泛化能力。此外,多上下文相关性滤波层实现了以联合的方式对上下文进行感知和对回归目标进行自适应,显著提升了目标跟踪的判别能力。

Description

基于残差分层注意力和相关性滤波器的目标跟踪方法及***
技术领域
本公开涉及一种基于残差分层注意力和相关性滤波器的目标跟踪方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
对一个运动的目标进行目标跟踪是计算机视觉的重要分支和研究热点,并在许多领域,如运动事件检测、视频监控、生物视觉等,应用广泛。然而,由于跟踪过程中经常出现的外形变化、光照变化、遮挡、背景干扰等问题,目标跟踪仍是一个极具挑战性的课题。
近年来,基于相关性滤波器的目标跟踪方法引起了广泛的关注,发展迅速。这类方法能够达到较高的跟踪精度,同时具有较快的处理速度。在跟踪过程中,上下文信息包含了许多重要的前景和背景线索,这些信息有助于提升目标定位的准确性。然而,基于相关性滤波器的目标跟踪方法通常是不能进行上下文感知的;部分这类方法尽管利用了跟踪过程中的上下文信息,但由于每一帧的搜索区域仅包含少量的上下文区域,且用于减弱边界效应的余弦窗会进一步减少这类方法中搜索区域包含的上下文信息。
在最近五年中,深度网络和机器学习的相关方法和技术逐渐被应用到目标跟踪中,大大提高了目标跟踪的性能。这类方法与传统的目标跟踪方法相比,其跟踪精确度和跟踪成功率都有显著的提升。然而,许多基于深度学习的目标跟踪方法采用的是像VGG或Alexnet等预先训练的网络,之后再叠加上其它已有的跟踪方法,很难满足目标跟踪实时性要求,没有真正地进行端到端的网络训练,以及充分发挥深度网络的优势。
发明内容
本公开为了解决上述问题,提出了一种基于残差分层注意力和相关性滤波器的目标跟踪方法及***。本公开使用端到端训练的卷积神经网络,并将相关性滤波器作为网络中的层,实现了对运动目标进行实时的目标跟踪。而且,通过残差分层注意力学习,能够获得更有效、鲁棒的卷积目标特征,显著提升了目标跟踪的泛化能力。此外,多上下文相关性滤波层实现了以联合的方式对上下文进行感知和对回归目标进行自适应,显著提升了目标跟踪的判别能力。
根据一些实施例,本公开采用如下技术方案:
一种基于残差分层注意力和相关性滤波器的目标跟踪方法,包括以下步骤:
(1)读取当前帧图像,获取目标在前一帧图像中的位置和尺度,进而确定当前帧中的测试样本;
(2)将测试样本输入到训练后的卷积神经网络,获得测试样本的卷积特征,将所述特征输入至多上下文相关性滤波层,通过模型参数,获得网络响应,并确定目标在当前帧的位置和尺度;
(3)根据目标在当前帧的位置和尺度,获取训练样本,将所述训练样本输入卷积神经网络和残差分层注意力模块,获得含有注意力信息的训练样本特征;
(4)根据目标在当前帧的位置,提取转变样本,将其输入卷积神经网络,基于转变样本的网络响应,获得自适应的回归目标,之后,提取上下文样本,获得上下文样本特征,并根据含有注意力信息的训练样本特征和自适应的回归目标,得到含有多上下文信息的滤波器参数;
(5)利用获得的滤波器参数,对原有的模型参数进行更新。
作为进一步的限定,所述方法还包括步骤(6),更新至下一帧图像,不断进行步骤(1)-(5)的迭代,直到所有图像处理完成。
作为进一步的限定,所述步骤(1)中,选定目标在当前帧的测试样本的确定过程包括:在当前帧图像中以上一帧目标位置为中心,提取出尺度N倍于上一帧目标尺度的图像片,N大于1,并将图像片调整至指定像素,作为当前帧的测试样本。
作为进一步的限定,所述步骤(2)中,卷积神经网络的结构包括:
采用VGG-16网络第一层卷积层和第二层卷积层的结构,并去除所有池化层;
将以上卷积层复制为对称的孪生网络结构,使该网络具有两个结构一致的训练分支和测试分支;
在网络训练分支的卷积层之后加入具有三层池化层的Hourglass结构,作为该网络的残差分层注意力模块;
网络的最后一层为多上下文相关性滤波层,该层的输入为注意力模块的输出和测试分支的输出。
作为进一步的限定,所述步骤(2)中,采用训练数据集对端到端的卷积神经网络进行预训练。
作为更进一步的限定,所述步骤(2)中,预训练的具体过程包括:
对训练数据进行预处理,每隔若干帧提取一对图像帧,以大于目标大小的范围提取出图像片,并调整图像片的大小至设定像素,作为训练网络的样本;
采用随机梯度下降法训练网络;
对不含残差分层注意力模块的卷积神经网络进行多次使用完整数据集的迭代训练;
将残差分层注意力模块加入深度卷积网络,并固定卷积网络中已训练的层,进行多次使用完整数据集的迭代训练。
作为进一步的限定,所述步骤(2)中,将测试样本输入网络的测试分支,经过两层卷积层,得到测试样本的特征。
作为进一步的限定,所述步骤(2)中,确定目标在当前帧的位置和尺度包括:将测试样本特征输入多上下文相关性滤波层,并根据模型参数,计算网络响应值;在跟踪阶段,将提取多个不同尺度的图像片,处理为测试样本,获得它们的特征和网络响应,目标在当前帧的尺度和位置分别为取得网络响应最大值的测试样本中目标的尺度和最大响应值对应的位置。
作为进一步的限定,所述步骤(3)中,获得训练样本的具体过程包括:在当前帧图像中,以当前帧中的目标位置为中心,提取出尺度N倍于当前目标尺度的图像片,N大于1,并将图像片调整至指定像素,作为目标在当前帧图像的训练样本。
作为进一步的限定,所述步骤(3)中,获得含有注意力信息的训练样本特征的具体过程包括:
将训练样本x0输入网络训练分支中的卷积层,得到输出P(x0);之后,将P(x0)输入至残差分层注意力模块,获得含有注意力信息的训练样本特征:
Q(x0)=∑uMu(x0)*P(x0)+P(x0)
其中,*表示Hadamard按通道相乘,Mu(x0)表示注意力模块生成的注意力分布图,u表示注意力模块中上采样层的个数,Q(x0)表示将会被输入至多上下文滤波层的带有注意力信息的训练样本特征。
作为进一步的限定,所述步骤(4)中,获得自适应的回归目标,具体如下:
以设定点为中心,提取若干个转变样本,转变样本的尺度与训练样本的尺度一致,并构建一个中心位置和尺度与训练样本的中心位置和尺度一致的限制矩阵,其元素的初始值为0;
将转变样本输入至网络测试分支,获得转变样本的特征,并得到网络响应图,取每个响应图中心位置的值作为限制矩阵对应位置的值;
根据已知限制矩阵中元素的值,基于高斯分布,计算剩余元素的值,最终得到能够反映目标分布和目标运动的限制矩阵;
根据限制矩阵,得到自适应的回归目标,它与限制矩阵服从噪声模型。
作为进一步的限定,所述步骤(4)中,获得含有多上下文信息的滤波器参数的具体过程包括:
以设定点为中心,提取上下文样本,上下文样本的尺度与训练样本一致,并将上下文样本输入至网络测试分支,得到上下文样本的特征;
在训练阶段,根据包含注意力的训练样本特征,上下文样本的特征和自适应回归目标中的限制矩阵,获得滤波器参数。
在一个或多个实施方式中,一种基于残差分层注意力和相关性滤波器的目标跟踪***,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于残差分层注意力和相关性滤波器的目标跟踪的方法。
在一个或多个实施方式中,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述的基于残差分层注意力和相关性滤波器的目标跟踪***方法。
与现有技术相比,本公开的有益效果为:
(1)针对目标跟踪,提出了端到端训练的卷积神经网络,能够满足目标跟踪实时性要求,并将相关性滤波器融入所提出的网络,作为网络的相关性滤波层,提高了网络的判别能力;
(2)提出了残差分层注意力学习,能够利用残差信息和注意力模块中多个上采样层的信息,提高了网络的泛化能力;
(3)通过构建新的基于相关性滤波层的目标函数,提出了多上下文相关性滤波层,能够进行上下文的感知和回归目标的自适应,并将其结合为多上下文信息,有助于目标的定位和模型的学习,进一步提升了网络的性能;
(4)本公开在许多复杂环境下,如在大面积遮挡、目标外形变化、目标快速旋转、光照变化、背景干扰等环境下,能够有效、稳定的对运动目标进行跟踪。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是基于残差分层注意力和相关性滤波器的目标跟踪方法示意图;
图2是所提出的残差分层注意力模块示意图;
图3是传统方法中使用的上下文信息和本方法中使用的上下文信息的对比图;
图4是提取转变样本和获得自适应回归目标的过程图;
图5是在OTB50、OTB2013、OTB2015数据集上的跟踪精确度和跟踪成功率图;
图6是在OTB数据集上对不同类型的目标进行跟踪的部分结果示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。
本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。
实施例一
在一个或多个实施方式中公开了一种基于残差分层注意力和相关性滤波器的目标跟踪方法,如图1所示,能够通过所提出的含有残差分层注意力机制和多上下文相关性滤波层的端到端的卷积网络进行实时的目标跟踪。
在某一帧中,对于一个测试样本,将其输入至所提出的对称孪生网络结构的测试分支,得到测试样本特征;测试分支中卷积层的结构采用VGG-16网络中的第一层卷积层和第二层卷积层的结构,并且去掉其中所有的池化层。
将得到的卷积特征z输入至多上下文相关性滤波层,得到滤波器的响应,即网络的输出响应G(z),公式如下:
Figure GDA0002579442710000081
其中,ω为模型参数,“-”表示离散傅里叶变换,“ο”表示矩阵元素依次相乘。
对于当前帧中,不同尺度的测试样本,重复以上操作,得到其特征zs和相应的网络输出响应G(zs);将所有网络响应中最大值对应的位置作为目标在当前帧的位置,同时根据最大响应值对应的测试样本中目标的尺度,最为目标的最佳尺度,公式如下:
Figure GDA0002579442710000082
进入训练阶段,根据目标当前的位置和尺度,提取训练样本x0,将训练样本x0输入网络训练分支中的卷积层,得到输出P(x0),训练分支中的卷积层结构与测试分支中的卷积层结构一致;之后,将P(x0)输入至残差分层注意力模块,获得包含注意力信息的训练样本特征,公式如下:
Q(x0)=∑uMu(x0)*P(x0)+P(x0)
其中,*表示Hadamard按通道相乘,Mu(x0)表示注意力模块生成的注意力分布图,u表示注意力模块中上采样层的个数,Q(x0)表示将会被输入至多上下文滤波层的带有注意力信息的训练样本特征。
根据目标当前的位置和尺度,提取上下文样本及转变样本,将其输入至所提出的对称孪生网络结构的测试分支,分别得到上下文样本卷积特征和转变样本特征,并根据转变样本的特征,构建自适应的回归目标。
在多上下文相关性滤波层,本公开提出了一个新的目标函数,通过对该目标函数的最优值进行求解,可以以联合的方式进行上下文的感知,回归目标的自适应以及滤波器参数的学习,公式如下:
Figure GDA0002579442710000091
其中,w表示滤波器参数;y0表示用于构建回归目标y的限制矩阵;X0表示图像中采集的样本;Xi表示上下文样本;正则项参数θ123∈(0,1]为常数,用于防止过拟合;此处X0和Xi为循环样本,他们的基础样本分别为x0和xi
通过对所提出多上下文相关性滤波层的目标函数的最优值进行求解,使用循环矩阵的性质和求逆公式可计算得到滤波器参数的闭式解为:
Figure GDA0002579442710000101
其中,
Figure GDA0002579442710000102
为x0的共轭复数。在训练阶段,可使用获得的训练样本特征x0、上下文特征xi、自适应回归目标中的限制矩阵y0,求得滤波器参数w。此处x0为输入相关性滤波层的训练样本的特征,而非训练样本;xi为输入相关性滤波层的上下文样本的特征,而非上下文样本。
基于新的滤波器参数,对原有的模型参数进行更新,完成训练过程,公式如下:
Figure GDA0002579442710000103
其中,ω为原有模型参数;λ∈[0,1]为常数,表示学习率。
下面对本申请的方法进行详细的说明。
在注意力模块,受到了残差网络使用残差跳跃连接以增强网络性能的启发,本公开提出了残差分层注意力学习来获得更泛化和更有效的可感知注意力的卷积特征,图2是所提出的残差分层注意力模块示意图。
在传统的注意力机制中,注意力模块的输出Q(x0)可以被表示为:
Q(x0)=M(x0)*P(x0)
其中,P(x0)为注意力模块的输入,即训练分支中卷积层输出的样本x0的特征,M(x0)为注意力模块生成的注意力分布图,Q(x0)为注意力模块输出的含有注意力信息的卷积特征。
然而,在传统的注意力机制中,将卷积特征与元素值在0到1范围内的注意力分布图进行相乘,将会降低卷积特征的值,这在许多情况下会降低原本卷积网络的性能。因此,针对这一问题,受到了残差网络的启发,提出了一种基于残差信息的注意力模块。此外,本公开提出的注意力模块采用了自底而上-自上而下的沙漏结构。与不同卷积层输出的卷积特征包含不同的样本信息类似的是,在注意力模块中,不同的上采样层的输出也能反映不同的注意力信息,因此,本公开将其整合以得到一个更加精准的注意力分布图。
本公开所提出的残差分层注意力学习可被表示为如下公式,分层注意力分布图与由卷积层输入的特征融合成了最终的含有注意力信息的卷积特征:
Q(x0)=∑uMu(x0)*P(x0)+P(x0)
其中,u为注意力模块中上采样层的个数。在此处,不同上采样层输出的注意力分布图具有不同的分辨率,采用最临近插值对较低分辨率的分布图进行处理,使其与较高分辨率的分布图保持一致的分辨率。
如图2所示,本公开的注意力模块使用了残差网络中的跳跃连接。在传统的注意力机制中,只采用了最后一个上采样层的输出作为注意力分布图,而舍弃了之前上采样层输出的信息。与传统的注意力机制不同的是,本公开采用了多个上采样层输出的具有不同含义和作用的注意力信息,并将其进行了结合。在图2中,具有较低分辨率的前置上采样层的输出含有较多的全局信息,这有助于对目标的定位以及防止因遮挡或其它因素引起的漂移问题;而具有较高分辨率的后置上采样层的输出含有较多的精确的局部信息,这有助于区分目标与相似物体,以及适应目标的变化。
上下文信息可在跟踪过程中,给目标定位提供更多的辅助信息,这有助于提高目标跟踪的准确性,特别是在复杂环境下的目标跟踪。然而,传统的基于相关性器的方法由于使用了缓解边界效应的余弦窗,因此在跟踪过程中仅保留了少量的上下文信息,图3所示的是传统方法中包含的上下文信息和本方法中使用的上下文信息的对比图。
如图3所示,在模型训练阶段,本公开的方法提取上下文样本,用于模型的更新。以A+pn为中心,提取上下文样本x1:k,其中,pn为目标在第n帧的位置,A=[-size(x0,1),0;0,-size(x0,2);size(x0,1),0;0,size(x0,2)],上下文样本的尺度与训练样本一致。
传统的基于相关性滤波器的目标跟踪方法采用的是静态的高斯形状的回归目标,与之不同的是,本公开的方法采用的是动态的回归目标y,可适应目标的运动和目标的分布情况,其中,y服从噪声模型y=y+n,
Figure GDA0002579442710000121
y0为用于构建回归目标y的限制矩阵。图4所示的是本公开的方法提取转变样本和获得自适应回归目标的过程图。
如图4所示,以T+pn为中心,提取j个转变样本m1:j,转变样本的尺度与训练样本的尺度一致,其中,pn为目标在第n帧的位置,j=7,T=[t1,t2,...,tj]=[0,0;0,1;1,1;0,-1;-1,0;-1,-1]*ρ,
Figure GDA0002579442710000122
将m1:j输入至网络测试分支得到网络响应图G(m1:j),取响应图中心位置的值为限制矩阵y0对应位置的值,即:
y0(t1:j+pn)=G(m1:j)
根据已知y0中元素的值,基于高斯分布,获得剩余元素的值,最终得到自适应的回归目标。在图4所示的回归目标的俯视图中,相比于高斯形状的回归目标,本公开所使用的自适应的回归目标,能够更好的反映目标的分布。
在OTB50、OTB2013、OTB2015三个数据集上对所提出的基于残差分层注意力和相关性滤波器的目标跟踪方法进行了评估。首先介绍了本公开所提出的端到端的卷积网络的训练过程,之后给出了实验的具体配置及采用的评估方法,最后对在三个数据集上得到的实验结果进行了分析。
端到端的卷积神经网络的结构和训练过程如下:
采用VGG-16网络第一层卷积层和第二层卷积层的结构,并去除所有池化层;
将以上卷积层复制为对称的孪生网络结构,使该网络具有两个结构一致的训练分支和测试分支;
在网络训练分支的卷积层之后加入具有三层池化层的Hourglass结构,作为该网络的残差分层注意力模块;
网络的最后一层为多上下文相关性滤波层,该层的输入为注意力模块的输出和测试分支的输出。
对卷积神经网络的预训练过程,具体如下:
对训练数据进行预处理,每隔10帧提取一对图像帧,以3倍于目标大小的范围提取出图像片,并调整图像片的大小至128*128像素;
采用随机梯度下降法训练网络,其中,动量值设置为0.9,权重衰减设置为0.005,学习率设置为1e-2;
网络训练的损失函数采用回归损失函数,公式如下:
Figure GDA0002579442710000131
其中,G(z)为对样本z的网络响应函数,y为服从高斯分布的回归目标;
对不含残差分层注意力模块的卷积神经网络进行50次使用完整数据集的迭代训练;
将残差分层注意力模块加入深度卷积网络,并固定卷积网络中已训练的层,进行20次使用完整数据集的迭代训练。
本公开的试验配置如下:在一台2.59GHz配有8G内存,i5处理器和英伟达GTX1070GPU的计算机上进行了实验,在PyTorch环境中执行的速度可达到36帧/秒,符合实时性要求。在实验过程中,本方法使用的全部参数都是固定不变的。在分层注意力机制中,使用的上采样层的个数为u=3;正则参数θ1、θ2、θ3的值分别为1e-3、1、0.5;学习参数λ为0.012。
将所提出的方法(Ours)在OTB数据集上的结果与其它17种高性能目标跟踪方法的结果进行了对比。这17种目标跟踪方法包括SRDCFdecon,MUSTer,LCT,SRDCF,Staple_CA,CFNet,SiamFC,HDT,Staple,DCF_CA,SAMF,MEEM,DSST,KCF,TGPR,DLT,STC。其中,SRDCFdecon,LCT,SRDCF,CFNet,SiamFC,HDT,Staple和DSST的结果来自于它们的作者公开的方法结果;Staple_CA,DCF_CA,SAMF和KCF的结果来自于它们的作者所公开的方法在实验设备上运行之后的结果;MUSTer,MEEM,TGPR,DLT和STC的结果来自于LCT的作者。本公开采用了曲线下区域(area under the curve,AUC)和在阈值为20个像素时的成功率作为衡量标准,分别对这18种方法的跟踪成功率和跟踪精确度进行了排名。图5所示的为排名前12位方法的跟踪成功率和精确度的示意图。表1总结了用于性能对比的18种目标跟踪方法的类型。
表1用于对比的目标跟踪方法的类型
Figure GDA0002579442710000141
Figure GDA0002579442710000151
基于残差分层注意力和相关性滤波器的目标跟踪方法评估过程为:
在OTB50数据集上,本公开提出的***的AUC为0.591,优于排名第二的SRDCFdecon(0.560)5.5%。本公开的***优于另外两个可进行上下文感知的***,即Staple_CA(0.542)和DCF_CA(0.493),分别优于9.0%和19.8%,这得益于本公开的方法所使用的卷积特征及回归目标的自适应。除本公开的方法外,具有孪生对称结构的最高性能的***是CFNet(0.530),它的网络结构使用了两个卷积层;然而,其结果比本公开的低11.5%。在精确度方面,本公开的追踪器排名第二(0.790),比位于第一位的HDT(0.804)低1.8%。但是,本公开的***在执行速度上是有优势的,根据HDT作者提供的数据,HDT的处理速度为10fps,本公开的方法的执行速度比HDT***快三倍。
在OTB2013数据集上,本公开提出的***的AUC为0.671,排在第一位,比SRDCFdecon(0.653)高2.8%。本公开的***优于另外两个可进行上下文感知的***,即Staple_CA(0.615)和DCF_CA(0.592),分别优于9.1%和13.3%。除本公开的方法外,具有孪生对称结构的最高性能的***是CFNet(0.611),但其结果比本公开的方法低9.8%。在精确度方面,本公开的***(0.889)比HDT***(0.883)仅低0.7%,但本公开的***在执行速度方面明显优于HDT***。
在OTB2015数据集上,本公开提出的***的AUC为0.623,排名第二,比位于第一位的SRDCFdecon(0.627)仅低0.6%。但是,本公开的***执行速度比SRDCFdecon(其作者提供的处理速度为1fps)方法快30倍。本公开的***优于另外两个可进行上下文感知的***,即Staple_CA(0.598)和DCF_CA(0.552),分别优于4.2%和12.9%。除本公开的方法外,具有孪生对称结构的最高性能的***是SiamFC(0.582),但其结果比本公开的低7.0%。在精确度方面,本公开的***的精度为0.815,排在第三位。
本公开所提出的方法可在复杂的场景中对目标进行稳定的跟踪,图6所示的为本公开的方法在OTB数据集上对各类目标进行跟踪的部分结果示意图。本公开的方法在许多复杂环境下,如在大面积遮挡、目标外形变化、目标快速旋转、光照变化、背景干扰等环境下,能够进行有效、稳定的目标跟踪。
实施例二
在一个或多个实施方式中公开的一种基于残差分层注意力和相关性滤波器的目标跟踪***,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述的基于残差分层注意力和相关性滤波器的目标跟踪方法。
实施例三
在一个或多个实施方式中公开的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例一所述的基于残差分层注意力和相关性滤波器的目标跟踪方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (9)

1.一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:包括以下步骤:
(1)读取当前帧图像,获取目标在前一帧图像中的位置和尺度,进而确定当前帧中的测试样本;
(2)将测试样本输入到训练后的卷积神经网络,获得测试样本的卷积特征,将所述特征输入至多上下文相关性滤波层,通过模型参数,获得网络响应,并确定目标在当前帧的位置和尺度;
(3)根据目标在当前帧的位置和尺度,获取训练样本,将所述训练样本输入卷积神经网络和残差分层注意力模块,获得含有注意力信息的训练样本特征;
(4)根据目标在当前帧的位置,提取转变样本,将其输入卷积神经网络,基于转变样本的网络响应,获得自适应的回归目标,之后,提取上下文样本,获得上下文样本特征,并根据含有注意力信息的训练样本特征和自适应的回归目标,得到含有多上下文信息的滤波器参数;
(5)利用获得的滤波器参数,对原有的模型参数进行更新;
所述步骤(4)中,获得含有多上下文信息的滤波器参数的具体过程包括:
以设定点为中心,提取上下文样本,上下文样本的尺度与训练样本一致,并将上下文样本输入至网络测试分支,得到上下文样本的特征;
在训练阶段,根据包含注意力的训练样本特征,上下文样本的特征和自适应回归目标中的限制矩阵,获得滤波器参数。
2.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:还包括步骤(6),更新至下一帧图像,不断进行步骤(1)-(5)的迭代,直到所有图像处理完成。
3.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:所述步骤(1)中,选定目标在当前帧的测试样本的确定过程包括:在当前帧图像中以上一帧目标位置为中心,提取出尺度N倍于上一帧目标尺度的图像片,N大于1,并将图像片调整至指定像素,作为当前帧的测试样本。
4.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:所述步骤(2)中,卷积神经网络的结构包括:
采用VGG-16网络第一层卷积层和第二层卷积层的结构,并去除所有池化层;
将以上卷积层复制为对称的孪生网络结构,使该网络具有两个结构一致的训练分支和测试分支;
在网络训练分支的卷积层之后加入具有三层池化层的Hourglass结构,作为该网络的残差分层注意力模块;
网络的最后一层为多上下文相关性滤波层,该层的输入为注意力模块的输出和测试分支的输出。
5.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:所述步骤(2)中,采用训练数据集对端到端的卷积神经网络进行预训练;
预训练的具体过程包括:
对训练数据进行预处理,每隔若干帧提取一对图像帧,以大于目标大小的范围提取出图像片,并调整图像片的大小至设定像素,作为训练网络的样本;
采用随机梯度下降法训练网络;
对不含残差分层注意力模块的卷积神经网络进行多次使用完整数据集的迭代训练;
将残差分层注意力模块加入深度卷积网络,并固定卷积网络中已训练的层,进行多次使用完整数据集的迭代训练。
6.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:所述步骤(2)中,将测试样本输入网络的测试分支,经过两层卷积层,得到测试样本的特征;
或,所述步骤(2)中,确定目标在当前帧的位置和尺度包括:将测试样本特征输入多上下文相关性滤波层,并根据模型参数,计算网络响应值;在跟踪阶段,将提取多个不同尺度的图像片,处理为测试样本,获得它们的特征和网络响应,目标在当前帧的尺度和位置分别为取得网络响应最大值的测试样本中目标的尺度和最大响应值对应的位置。
7.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:所述步骤(3)中,获得训练样本的具体过程包括:在当前帧图像中,以当前帧中的目标位置为中心,提取出尺度N倍于当前目标尺度的图像片,N大于1,并将图像片调整至指定像素,作为目标在当前帧图像的训练样本;
或,所述步骤(3)中,获得含有注意力信息的训练样本特征的具体过程包括:
将训练样本x0输入网络训练分支中的卷积层,得到输出P(x0);之后,将P(x0)输入至残差分层注意力模块,获得含有注意力信息的训练样本特征:
Q(x0)=∑uMu(x0)*P(x0)+P(x0)
其中,*表示Hadamard按通道相乘,Mu(x0)表示注意力模块生成的注意力分布图,u表示注意力模块中上采样层的个数,Q(x0)表示将会被输入至多上下文滤波层的带有注意力信息的训练样本特征。
8.如权利要求1所述的一种基于残差分层注意力和相关性滤波器的目标跟踪方法,其特征是:所述步骤(4)中,获得自适应的回归目标,具体如下:
以设定点为中心,提取若干个转变样本,转变样本的尺度与训练样本的尺度一致,并构建一个中心位置和尺度与训练样本的中心位置和尺度一致的限制矩阵,其元素的初始值为0;
将转变样本输入至网络测试分支,获得转变样本的特征,并得到网络响应图,取每个响应图中心位置的值作为限制矩阵对应位置的值;
根据已知限制矩阵中元素的值,基于高斯分布,计算剩余元素的值,最终得到能够反映目标分布和目标运动的限制矩阵;
根据限制矩阵,得到自适应的回归目标,它与限制矩阵服从噪声模型。
9.一种基于残差分层注意力和相关性滤波器的目标跟踪***,其特征是:包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的基于残差分层注意力和相关性滤波器的目标跟踪的方法。
CN201811592319.2A 2018-12-20 2018-12-20 基于残差分层注意力和相关性滤波器的目标跟踪方法及*** Active CN109685831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592319.2A CN109685831B (zh) 2018-12-20 2018-12-20 基于残差分层注意力和相关性滤波器的目标跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592319.2A CN109685831B (zh) 2018-12-20 2018-12-20 基于残差分层注意力和相关性滤波器的目标跟踪方法及***

Publications (2)

Publication Number Publication Date
CN109685831A CN109685831A (zh) 2019-04-26
CN109685831B true CN109685831B (zh) 2020-08-25

Family

ID=66189235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592319.2A Active CN109685831B (zh) 2018-12-20 2018-12-20 基于残差分层注意力和相关性滤波器的目标跟踪方法及***

Country Status (1)

Country Link
CN (1) CN109685831B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070563A (zh) * 2019-04-30 2019-07-30 山东大学 基于联合感知的相关性滤波器目标跟踪方法及***
CN110210551B (zh) * 2019-05-28 2021-07-30 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110335290B (zh) * 2019-06-04 2021-02-26 大连理工大学 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN110443852B (zh) * 2019-08-07 2022-03-01 腾讯科技(深圳)有限公司 一种图像定位的方法及相关装置
CN110827320B (zh) * 2019-09-17 2022-05-20 北京邮电大学 基于时序预测的目标跟踪方法和装置
CN111080541B (zh) * 2019-12-06 2020-10-30 广东启迪图卫科技股份有限公司 基于比特分层和注意力融合机制的彩色图像去噪方法
CN110992404B (zh) * 2019-12-23 2023-09-19 驭势科技(浙江)有限公司 目标跟踪方法、装置和***及存储介质
CN111724410A (zh) * 2020-05-25 2020-09-29 天津大学 一种基于残余注意力的目标跟踪方法
CN112907607B (zh) * 2021-03-15 2024-06-18 德鲁动力科技(成都)有限公司 基于差分注意力的深度学习、目标检测及语义分割方法
CN113297959B (zh) * 2021-05-24 2024-07-09 南京邮电大学 一种基于角点注意力孪生网络的目标跟踪方法及***
CN113627240B (zh) * 2021-06-29 2023-07-25 南京邮电大学 一种基于改进ssd学习模型的无人机树木种类识别方法
CN113689464A (zh) * 2021-07-09 2021-11-23 西北工业大学 一种基于孪生网络的自适应多层响应融合的目标跟踪方法
CN113947618B (zh) * 2021-10-20 2023-08-29 哈尔滨工业大学 基于调制器的自适应回归跟踪方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401248B1 (en) * 2008-12-30 2013-03-19 Videomining Corporation Method and system for measuring emotional and attentional response to dynamic digital media content
CN103065326A (zh) * 2012-12-26 2013-04-24 西安理工大学 基于时-空多尺度运动注意力分析的目标检测方法
CN103514608A (zh) * 2013-06-24 2014-01-15 西安理工大学 基于运动注意力融合模型的运动目标检测与提取方法
CN104243916A (zh) * 2014-09-02 2014-12-24 江苏大学 一种基于压缩传感的运动目标检测和跟踪方法
CN106530329A (zh) * 2016-11-14 2017-03-22 华北电力大学(保定) 一种基于分数阶微分和多特征联合的稀疏表示跟踪方法
CN106898015A (zh) * 2017-01-17 2017-06-27 华中科技大学 一种基于自适应子块筛选的多线索视觉跟踪方法
CN107016689A (zh) * 2017-02-04 2017-08-04 中国人民解放军理工大学 一种尺度自适应的相关滤波对冲目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401248B1 (en) * 2008-12-30 2013-03-19 Videomining Corporation Method and system for measuring emotional and attentional response to dynamic digital media content
CN103065326A (zh) * 2012-12-26 2013-04-24 西安理工大学 基于时-空多尺度运动注意力分析的目标检测方法
CN103514608A (zh) * 2013-06-24 2014-01-15 西安理工大学 基于运动注意力融合模型的运动目标检测与提取方法
CN104243916A (zh) * 2014-09-02 2014-12-24 江苏大学 一种基于压缩传感的运动目标检测和跟踪方法
CN106530329A (zh) * 2016-11-14 2017-03-22 华北电力大学(保定) 一种基于分数阶微分和多特征联合的稀疏表示跟踪方法
CN106898015A (zh) * 2017-01-17 2017-06-27 华中科技大学 一种基于自适应子块筛选的多线索视觉跟踪方法
CN107016689A (zh) * 2017-02-04 2017-08-04 中国人民解放军理工大学 一种尺度自适应的相关滤波对冲目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The Role of Visual Attention in Multiple Object Tracking;Doran M M等;《Attention Perception & Psychophysics》;20101231;第72卷(第1期);第33-52页 *
基于显著性的视觉目标跟踪研究;伍博;《中国博士学位论文全文数据库 信息科技辑》;20180115(第1期);第I138-98页 *

Also Published As

Publication number Publication date
CN109685831A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109685831B (zh) 基于残差分层注意力和相关性滤波器的目标跟踪方法及***
CN110574077B (zh) 利用虚拟三维深层神经网络的影像分析装置及方法
CN108399611B (zh) 基于梯度正则化的多聚焦图像融合方法
CN109543559B (zh) 基于孪生网络和动作选择机制的目标跟踪方法及***
CN107424177B (zh) 基于连续相关滤波器的定位修正长程跟踪方法
CN107689052B (zh) 基于多模型融合和结构化深度特征的视觉目标跟踪方法
CN112712546A (zh) 一种基于孪生神经网络的目标跟踪方法
CN116681679A (zh) 基于双分支特征融合注意的医学图像小目标分割方法
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
Gong et al. Combining sparse representation and local rank constraint for single image super resolution
CN110889864B (zh) 一种基于双层深度特征感知的目标跟踪方法
Liu et al. Adaptive sparse coding on PCA dictionary for image denoising
CN113589286B (zh) 基于D-LinkNet的无迹卡尔曼滤波相位解缠方法
Li et al. Transformer helps identify kiwifruit diseases in complex natural environments
He et al. Remote sensing image super-resolution using deep–shallow cascaded convolutional neural networks
CN108305268A (zh) 一种图像分割方法及装置
Sreelakshmi et al. Fast and denoise feature extraction based ADMF–CNN with GBML framework for MRI brain image
Abbasi-Sureshjani et al. Boosted exudate segmentation in retinal images using residual nets
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN111191555B (zh) 一种结合高低空间频率特征的目标跟踪方法、介质及***
Wang et al. Multi-feature fusion tracking algorithm based on generative compression network
CN113379658B (zh) 一种无人机观测目标特征双光融合方法及***
CN112489062B (zh) 基于边界及邻域引导的医学图像分割方法及***
CN106934398A (zh) 基于超像素聚类和稀疏表示的图像去噪方法
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant