CN111354017B - 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 - Google Patents

一种基于孪生神经网络及平行注意力模块的目标跟踪方法 Download PDF

Info

Publication number
CN111354017B
CN111354017B CN202010142418.1A CN202010142418A CN111354017B CN 111354017 B CN111354017 B CN 111354017B CN 202010142418 A CN202010142418 A CN 202010142418A CN 111354017 B CN111354017 B CN 111354017B
Authority
CN
China
Prior art keywords
training
target
tracking
twin
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010142418.1A
Other languages
English (en)
Other versions
CN111354017A (zh
Inventor
蒋敏
赵禹尧
刘克俭
王任华
霍宏涛
孔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Jiangnan University
Original Assignee
PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA, Jiangnan University filed Critical PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Priority to CN202010142418.1A priority Critical patent/CN111354017B/zh
Publication of CN111354017A publication Critical patent/CN111354017A/zh
Application granted granted Critical
Publication of CN111354017B publication Critical patent/CN111354017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于孪生神经网络及平行注意力模块的目标跟踪方法,属于机器视觉领域。包括如下步骤:1、根据视频序列图片中目标的位置及尺寸,裁剪出模板图像和搜索区域图像,构成训练数据集;2、构建孪生网络,孪生网络的基本骨架采用微调后的残差网络;3、在孪生网络的模板分支嵌入平行注意力模块,包括两个平行的通道注意力模块和空间注意力模块;4、基于训练集,构建自适应焦点损失函数,训练带有平行注意力模块的孪生网络,获得训练收敛的网络模型;5、使用训练好的网络模型进行在线跟踪。本发明在跟踪过程中,可以有效应对目标外观变化等问题,提高了跟踪的精度。

Description

一种基于孪生神经网络及平行注意力模块的目标跟踪方法
技术领域
本发明属于机器视觉领域,特别涉及一种基于孪生神经网络及平行注意力模块的目标跟踪方法。
背景技术
随着机器视觉在理论上和实践上的广泛研究,目标跟踪逐渐成为其中基础但至关重要的一个分支。目标跟踪的任务是仅根据第一帧中目标的边界框,计算得出后续每一帧中该目标的具***置,因此各种客观因素诸如物体形变、遮挡、快速运动、模糊、光照变化等问题使得跟踪面临着挑战。目前,目标跟踪主要可分为基于相关滤波的方法和基于深度学习的方法。在深度学习还未流行的很长一段时间内,大多数目标跟踪算法都是基于相关滤波的,尽管该类算法通过快速傅里叶变换大大减少了计算代价,提供可观的跟踪速度,但是其依靠手工特征对目标进行跟踪,在物体形变和背景杂乱等情况下,通过传统的手工特征对目标进行跟踪并不容易。相较而言,基于深度学习的目标跟踪算法可以有效学习到目标的深度特征,跟踪的鲁棒性较高。而基于孪生神经网络的方法,在保持较高的跟踪精度前提下,跟踪速度也高于其他多数基于深度学习的跟踪方法,可以满足跟踪的实时性。
孪生网络结构通过两个分支中共享权重的特征提取网络对目标及搜索区域分别进行特征提取,并通过对特征的相似性计算来确定目标的最终位置。孪生网络的双分支结构较为巧妙,但仍有以下几个问题有待改善:(1)原始的孪生网络特征提取部分中,浅层的神经网络特征表达能力较弱,没有充分发挥出深度学习的优势;(2)训练过程中采用的损失函数易受简单样本的影响。
基于以上考虑,本发明提出一个基于孪生神经网络并带有平行注意力模块的方法用于目标跟踪。首先,采用微调后的残差网络ResNet作为特征提取网络,提取深层次的特征。其次,将平行注意力模块嵌入到网络的模板分支中,强化提取到的特征的表达能力。最后,在训练阶段通过自适应焦点损失函数对不同样本进行加权,以减少简单样本对训练过程的影响。
发明内容
本发明的主要目的是提出一种基于孪生神经网络及平行注意力模块的目标跟踪方法。在训练阶段,通过引入自适应焦点损失函数减小简单样本对训练的负面影响;在跟踪阶段,通过提取深度特征,学习更加深层次的语义信息,并通过注意力模块对有效信息进行增强,同时抑制干扰信息的影响,以进行高效的目标跟踪。
为了实现上述目的,本发明提供如下技术方案:
步骤1、根据训练集视频序列图片中目标的位置及尺寸,裁剪出对应的目标区域z和搜索区域s,并以此图像对(z,s)为训练数据,构成训练数据集;
步骤2、构建孪生网络及平行注意力模块,所述孪生网络包括模板分支和搜索分支,所述模板分支用于提取步骤1中所述目标区域z的特征,所述搜索分支用于提取步骤1中所述搜索区域s的特征,它们共享特征提取网络的权重。平行注意力模块作用于模板分支提取得到的特征,经过平行注意力模块强化的特征与搜索分支提取的特征做互相关运算,得到最终的得分图;
步骤3、基于所述训练数据集,训练所述孪生神经网络,获得训练收敛的孪生网络模型;
步骤4、利用训练得到的孪生网络模型进行在线跟踪。
具体地,步骤1的操作包括裁剪目标区域和裁剪搜索区域图片对。根据视频序列中每一帧图片的边界框标注信息,获取目标的中心位置及尺寸(x,y,w,h),其中(x,y)代表目标的中心位置坐标,w,h分别代表边界框的宽和高。在裁剪目标区域图片时,首先计算扩充参数
Figure BDA0002399542420000031
在边界框四周分别扩充q个像素,若超出图片边界,则超出部分用图片的平均像素值进行填充,将扩充后的边界框裁剪出来并将尺寸重置为127×127,即可得到目标区域图片。类似地,在裁剪搜索区域图片时,采用相同的扩充参数q,在边界框四周分别扩充2q个像素,若超出图片边界,则用图片的平均像素值进行填充,将扩充后的边界框裁剪出来并将尺寸重置为255×255,即可得到搜索区域图片。
具体地,步骤2中所述孪生网络两个分支的特征提取网络均为微调后的ResNet,删除了原始ResNet的全连接层,仅保留了conv1,conv2,conv3三个阶段。将步骤1中所述图像对(z,s)分别输入搜索分支和模板分支得到对应的特征fz和fs,并将fz分别输入平行注意力模块的通道注意力强化模块和空间注意力强化模块,得到通道强化后的特征表示
Figure BDA0002399542420000032
和空间强化后的特征表示
Figure BDA0002399542420000033
Figure BDA0002399542420000034
Figure BDA0002399542420000035
以对应元素相加的方式进行特征融合,得到最终增强后的模板特征
Figure BDA0002399542420000036
Figure BDA0002399542420000037
和fs进行互相关操作,得到最终的得分图scoremap,对应公式为:
Figure BDA0002399542420000038
Figure BDA0002399542420000039
Figure BDA00023995424200000310
为互相关运算。
具体地,步骤3在训练过程中构建的自适应焦点损失函数公式为:
Figure BDA00023995424200000311
Figure BDA00023995424200000312
Figure BDA00023995424200000313
Figure BDA00023995424200000314
其中,LAFL为所述自适应焦点损失函数,p∈[0,1]代表样本被判定为正样本的概率,α∈[0,1]为平衡正负样本的参数,k∈{+1,-1}代表正负样本的标签,方便起见将p和α根据k的值分别记为pt和αt
Figure BDA0002399542420000041
是损失函数中的自适应参数,γinitial和γend分别为γ的起始值和终止值,i表示当前是训练过程的第i轮,epochnum为总的训练轮数。
具体地,步骤4中所述在线跟踪过程包括以下步骤:
1)读取待跟踪视频序列的第一帧图片frame1,获取其边界框信息,根据步骤1中所述裁剪目标区域图片的方法,裁剪出第一帧的目标模板图像z,将z输入步骤3中所述训练收敛的孪生网络的模板分支,提取模板图像的特征fz,并将特征输入平行注意力模块,得到经过强化的特征表示
Figure BDA0002399542420000042
置t=2;
2)读取待跟踪视频第t帧framet,并根据第t-1帧中确定的目标位置,按照步骤1中所述裁剪搜索区域图片的方法,裁剪出framet的搜索区域图像st,将st输入进步骤3中所述训练收敛的孪生网络的搜索分支,提取模板图像的特征
Figure BDA0002399542420000043
3)对1)中的
Figure BDA0002399542420000044
和2)中的
Figure BDA0002399542420000045
进行互相关操作:
Figure BDA0002399542420000046
scoremap为尺寸为17×17的相似性得分图,根据双三次插值上采样将scoremap映射为255×255,设u为scoremap中任一点的值,由argmaxu(scoremap)确定目标最终的位置;
4)置t=t+1,判断t≤N是否成立,其中N为待测视频序列的总帧数。若成立则执行步骤2)—3),否则待测视频序列跟踪过程结束。
与现有的技术相比,本发明具有以下有益效果:
1、步骤2中的特征提取环节,本发明采用微调后的残差网络作为特征提取器。与原始的孪生网络采用的AlexNet相比,ResNet可以更加充分地发挥深度网络在提取深度特征上的优势,使得网络学习到更具判别性的特征。同时,特征提取网络保留了原始孪生网络结构中AlexNet不采用全连接层和padding的措施,此举有利于保证网络的全卷积性和后面的scoremap计算环节。
2、步骤2中,在提取到模板特征fz后,本发明利用空间特征以及通道特征对其进行强化。通过对应元素相加的特征融合操作,利用空间特征和通道特征之间的互补性,极大地提高了目标特征的鲁棒性。
3、步骤3所述训练阶段,本发明引入了自适应焦点损失函数Adaptive FocalLoss(AFL),该损失函数与原始算法中的逻辑回归损失函数相比,可以有效地抑制简单样本和困难样本不平衡对训练造成的负面影响。它综合考虑了对训练样本正确分类的置信度和当前的训练进度,对不同训练样本设置不同的权重,使得模型更加侧重于困难样本,从而不会被大量的简单样本影响到训练效果。
4、与基础孪生网络跟踪***相比,本发明构建的孪生网络结构的跟踪精度更高,同时依然可以满足跟踪的实时性要求。
附图说明
图1为本发明步骤4流程图;
图2为目标区域图像和模板区域图像示意图;其中,(a)、(b)、(c)分别为不同目标的目标模板图像,(d)、(e)、(f)分别为不同目标的搜索区域图像。
图3为本发明的算法模型图;
图4为通道注意力模块;
图5为空间注意力模块;
图6为第一视频序列跟踪结果;其中,(a)为对第一视频序列lemming进行目标跟踪的第287帧;(b)对第一视频序列lemming进行目标跟踪的第338帧;(c)对第一视频序列lemming进行目标跟踪的第370帧。
图7为第二视频序列跟踪结果;其中,(a)为对第二视频序列skiing进行目标跟踪的第10帧;(b)为对第二视频序列skiing进行目标跟踪的第30帧;(c)为对第二视频序列skiing进行目标跟踪的第39帧。
图8为第三视频序列跟踪结果。其中,(a)为对第三视频序列soccer进行目标跟踪的第10帧;(b)为对第三视频序列soccer进行目标跟踪的第79帧;(c)为对第三视频序列soccer进行目标跟踪的第215帧。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明。
本实施例提供了一种基于孪生神经网络及平行注意力模块的目标跟踪方法,包括以下步骤:
(1)根据训练集中视频序列每帧图片的标注信息,裁剪出每帧对应的目标区域图像和搜索区域图像,所有裁剪得到的目标区域和搜索区域图像对构成训练数据集。本实施例的训练数据集为从Got-10k中裁剪得到的图像对。目标区域的裁剪方法为:在边界框四周分别扩充q个像素,
Figure BDA0002399542420000061
是根据边界框的宽和高计算得到的扩充参数。以标注的边界框的中心为目标中心,以边长
Figure BDA0002399542420000062
截取出一个正方形区域,若该区域超出图片的边界,则用图片的像素平均值填充超出的部分。将此正方形区域的尺寸重置为127×127,即得到所述目标区域。
搜索区域的裁剪方法为:在边界框四周分别扩充2q个像素,
Figure BDA0002399542420000063
是根据边界框的宽和高计算得到的扩充参数。以标注的边界框的中心为目标中心,以边长
Figure BDA0002399542420000071
截取出一个正方形区域,若该区域超出图片的边界,则用图片的像素平均值填充超出的部分。将此正方形区域的尺寸重置为255×255,即得到所述目标区域。
图2为本实施例裁剪得到的目标模板图像和搜索区域图像的示意图。其中第一行为目标模板图像,第二行为搜索区域图像。
所述裁剪操作是线下进行的,避免了训练过程中进行裁剪带来的计算代价。
(2)构建孪生网络及平行注意力模块。图3为本发明实施例提供的算法模型示意图。
特征fz∈RC*H*W,在H*W维度上分别对其进行最大池化和平均池化操作,得到C*1*1的特征表示,这两个特征表示经过全连接层和激活函数ReLU的作用。对应公式为:
Figure BDA0002399542420000072
Figure BDA0002399542420000073
W0和W1分别对应权重共享部分两个全连接层的操作,avgpool和maxpool分别代表平均池化和最大池化。然后将得到的结果进行相加,最后通过Sigmoid函数(σ)激活得到C*1*1的通道注意力权重fc
Figure BDA0002399542420000074
将fc与原特征fz的对应通道进行逐元素相乘得到最终的通道强化特征表示
Figure BDA0002399542420000076
采用通道注意力强化特征的优点是:在跟踪不同的目标时,不同的特征通道有着不同的重要性,因此,在跟踪时计算出不同通道的权重可以有效增强有益信息,同时抑制无关信息的影响,在一定程度上改善跟踪的结果。
空间注意力强化模块如图5所示:
如图5所示,记输入为特征fz∈RC*H*W,将特征沿通道维度进行分组,假设分为M组(本实施例中M被设为64),则每组特征图的维度为
Figure BDA0002399542420000075
由于每组特征图所进行的操作一致,这里仅讨论第i组fi z,图5中虚线代表相同操作被省略。在该组中,特定语义特征的位置具有较高的响应,而其他位置则响应值较低。通过对H*W维度的最大池化和平均池化以及把它们的结果相加,得到维度为
Figure BDA0002399542420000081
的该语义特征的近似表示,用vectori来代表该特征表示。vectori=avgpool(fi z)+maxpool(fi z)。
Figure BDA0002399542420000082
的特征图可以看成是H*W个位置上不同的
Figure BDA0002399542420000083
向量,将它们分别与vectori点乘,得到的标量值即为该位置的响应。如图5,对响应图进行标准化Normalization和激活函数Sigmoid的操作后得到该组对应的空间注意力掩码
Figure BDA00023995424200000811
最终的空间强化特征表示
Figure BDA0002399542420000084
其中concate表示级联操作。
采用空间注意力强化特征的优点是:空间注意力关注特征图的具***置对区分目标和背景的影响。整个特征图中包含了特定目标各个不同部分的语义信息,因此,空间注意力模块旨在找出关键性的位置并分别增强其特征表示,从而可以得到更好的跟踪结果。
将通道强化特征表示
Figure BDA0002399542420000085
和空间强化特征表示
Figure BDA0002399542420000086
融合后,得到的结果即为模板分支输出的增强特征表示
Figure BDA0002399542420000087
(3)针对训练过程中简单样本带来的负面影响,构建自适应焦点损失函数。由于原始孪生网络所采用的损失函数没有针对简单样本做出对应处理,在训练的后期,大量的简单样本会影响到参数更新,因此通过对简单样本赋予低权重可以弱化其影响。本发明提出自适应焦点损失函数:
Figure BDA0002399542420000088
Figure BDA0002399542420000089
Figure BDA00023995424200000810
Figure BDA0002399542420000091
其中i代表当前训练的轮数,epochnum代表总的训练轮数,γinitialend分别是人为设定的γ的起始值和终止值(本实施例中分别设为2和10-8)。在训练前期,
Figure BDA0002399542420000092
应该是一个足够大的值,以保证简单样本的负面影响被抑制,随着训练进行,
Figure BDA0002399542420000093
则需要不断衰减以降低后期模型所受的影响。由于
Figure BDA0002399542420000094
小于1,随着训练的进行,
Figure BDA0002399542420000095
会相应地不断衰减以适应当前训练过程,从而在一定程度上抑制不同训练阶段的简单样本对训练的影响。以在ImageNet上预训练的网络进行参数初始化,采用梯度下降法进行训练,得到收敛的孪生网络模型。
(4)利用所述训练得到的孪生网络进行在线跟踪。如图1所示为在线跟踪的流程图。
首先,读取待跟踪视频序列的第一帧图片frame1,由于frame1中目标的位置及大小是已知的,根据步骤1中所述裁剪目标区域图片的方法,裁剪出第一帧的目标模板图像z,将z输入进步骤3中所述训练收敛的孪生网络的模板分支,提取模板图像的特征fz,并将特征输入平行注意力模块,得到经过强化的特征表示
Figure BDA0002399542420000096
置t=2;
其次,读取待跟踪视频第t帧,并根据第t-1帧中确定的目标位置,按照步骤1中所述裁剪搜索区域图片的方法,裁剪出搜索区域图像st,将st输入进步骤3中所述训练收敛的孪生网络的搜索分支,提取模板图像的特征
Figure BDA0002399542420000097
然后,对
Figure BDA0002399542420000098
Figure BDA0002399542420000099
进行互相关操作:
Figure BDA00023995424200000910
scoremap为尺寸为17×17的相似性得分图,根据双三次插值上采样将scoremap映射为255×255,设u为scoremap中任一点的值,由argmaxu(scoremap)确定目标最终的位置;
最后,置t=t+1,判断t≤N是否成立,其中N为待测视频序列的总帧数。成立则继续执行上述两个步骤,否则待测视频序列跟踪过程结束。
图6中的(a)为本发明实施例提供的使用本发明方法对第一视频序列lemming进行目标跟踪的第287帧,(b)和(c)分别对应第338帧和第370帧。可以看出,本发明提出的目标跟踪方法可以有效地跟踪到有遮挡干扰的目标。
图7中的(a)为本发明实施例提供的使用本发明方法对第二视频序列skiing进行目标跟踪的第10帧,(b)和(c)分别对应第30帧和第39帧。可以看出,本发明提出的目标跟踪方法可以有效地跟踪到有低分辨率和快速运动干扰的目标。
图8中的(a)为本发明实施例提供的使用本发明方法对第三视频序列soccer进行目标跟踪的第10帧,(b)和(c)分别对应第79帧和第215帧。可以看出,本发明提出的目标跟踪方法可以有效地跟踪到有背景杂乱和相似背景干扰的目标。
为了对本发明进行更好的说明,下面以公开的目标跟踪数据集OTB2013为例进行阐述。
本发明在公开的OTB2013数据集上进行了实验。它包含50个视频序列,是跟踪领域较为常用的数据集。OTB2013中的视频序列包含11种不同属性的干扰因素,它们分别是尺度变化(SV)、光照变化(IV)、平面内旋转(IPR)、快速移动(FM)、背景杂乱(BC)、遮挡(OCC)、平面外旋转(OPR)、形变(DEF)、离开视野(OV)、运动模糊(MB)、低分辨率(LR)。这些属性代表了跟踪领域常见的难点。本发明采用跟踪领域常用的指标精确率和成功率来衡量算法的性能。若已知某一帧预测得到的目标边界框(记为Rl),通过计算预测得到的Rl与groundtruth(记为Rc)之间的交并比
Figure BDA0002399542420000101
若交并比大于给定的阈值,则认为这一帧被成功跟踪,成功率表示视频中被成功跟踪的帧数所占的比例。通常情况下,针对不同的阈值作出成功率曲线,通过计算曲线下面积Area Under Curve(AUC)评估跟踪算法。类似地,通过计算某一帧中预测得到的目标中心坐标与groundtruth中心坐标的欧式距离,若小于给定的阈值(默认为20个像素),则认为这一帧被精确跟踪,精确率表示视频中被精确跟踪的帧数所占的比例。
表1为本发明提出的基于孪生神经网络及平行注意力模块的目标跟踪方法在OTB2013数据集上的测试结果,本发明在这个数据集上取得了较好的跟踪结果,同时,速度达到66FPS(Frames Per Second)满足了实时跟踪条件。尽管这OTB2013存在着遮挡、变形、背景混乱、低分辨率等困难,但本发明提出的方法对这些困难具有很好的鲁棒性,因此表现较好。
表1 在OTB2013上的跟踪结果
数据集 视频数量 AUC 精确率 FPS
OTB2013 50 0.669 0.881 66
本发明提出的方法主要包含平行注意力模块以及训练阶段使用的自适应焦点损失函数。从表2中可以看出,针对OTB2013数据集,单纯使用原始孪生网络的AUC达到0.608。在原始孪生网络的基础上,将特征提取网络换成ResNet,AUC达到0.623;在特征提取网络的模板分支上再加入平行注意力模块,AUC达到0.653;在此基础上在训练阶段采用自适应焦点损失函数,AUC达到0.669。这表明本发明提出的注意力模块和损失函数都对跟踪的性能有好的影响。它们分别可以强化目标特征的有效信息,抑制无关信息,以及在训练过程中减小简单样本对训练的负面影响,从而提高跟踪精度。
表2 在OTB2013数据集上不同机制的影响
Figure BDA0002399542420000111
Figure BDA0002399542420000121
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于孪生神经网络及平行注意力模块的目标跟踪方法,其特征在于,步骤如下:
步骤1、根据训练集视频序列图片中目标的位置及尺寸,裁剪出对应的目标区域z和搜索区域s,并以此图像对(z,s)为训练数据,构成训练数据集;
步骤2、构建孪生网络及平行注意力模块,所述孪生网络包括模板分支和搜索分支,所述模板分支用于提取步骤1中所述目标区域z的特征,所述搜索分支用于提取步骤1中所述搜索区域s的特征,它们共享特征提取网络的权重;平行注意力模块作用于模板分支提取得到的特征,经过平行注意力模块强化的特征与搜索分支提取的特征做互相关运算,得到最终的得分图;
步骤3、基于所述训练数据集,训练所述孪生神经网络,获得训练收敛的孪生网络模型;
步骤4、利用训练得到的孪生网络模型进行在线跟踪;
步骤2中所述孪生网络两个分支的特征提取网络均为微调后的ResNet,删除了原始ResNet的全连接层,仅保留了conv1,conv2,conv3三个阶段;将步骤1中所述图像对(z,s)分别输入搜索分支和模板分支得到对应的特征fz和fs,并将fz分别输入平行注意力模块的通道注意力强化模块和空间注意力强化模块,得到通道强化后的特征表示
Figure FDA0004047926520000011
和空间强化后的特征表示
Figure FDA0004047926520000012
Figure FDA0004047926520000013
Figure FDA0004047926520000014
以对应元素相加的方式进行特征融合,得到最终增强后的模板特征
Figure FDA0004047926520000017
Figure FDA0004047926520000018
和fs进行互相关操作,得到最终的得分图scoremap,对应公式为:
Figure FDA0004047926520000015
Figure FDA0004047926520000016
为互相关运算;
(1)通道注意力强化模块
特征fz∈RC*H*W,在H*W维度上分别对其进行最大池化和平均池化操作,得到C*1*1的特征表示,这两个特征表示经过全连接层和激活函数ReLU的作用;对应公式为:
Figure FDA0004047926520000021
Figure FDA0004047926520000022
W0和W1分别对应权重共享部分两个全连接层的操作,avgpool和maxpool分别代表平均池化和最大池化;
然后将得到的结果进行相加,最后通过Sigmoid函数σ激活得到C*1*1的通道注意力权重fc
Figure FDA0004047926520000023
将fc与原特征fz的对应通道进行逐元素相乘得到最终的通道强化特征表示
Figure FDA00040479265200000212
(2)空间注意力强化模块
记输入为特征fz∈RC*H*W,将特征沿通道维度进行分组,设分为M,则每组特征图的维度为
Figure FDA0004047926520000024
在第i组特征图fi z中,通过对H*W维度的最大池化和平均池化以及把它们的结果相加,得到维度为
Figure FDA0004047926520000025
的该特征的近似表示,用vectori来代表该特征表示:vectori=avgpool(fi z)+maxpool(fi z);
Figure FDA0004047926520000026
的特征图可以看成是H*W个位置上不同的
Figure FDA0004047926520000027
向量,将它们分别与vectori点乘,得到的标量值即为该位置的响应;对响应图进行标准化和激活函数Sigmoid的操作后得到该组对应的空间注意力掩码
Figure FDA0004047926520000028
最终的空间强化特征表示
Figure FDA0004047926520000029
其中concate表示级联操作。
2.根据权利要求1所述的一种基于孪生神经网络及平行注意力模块的目标跟踪方法,其特征在于,步骤3在训练过程中构建的自适应焦点损失函数公式为:
Figure FDA00040479265200000210
Figure FDA00040479265200000211
Figure FDA0004047926520000031
Figure FDA0004047926520000032
其中,LAFL为所述自适应焦点损失函数,p∈[0,1]代表样本被判定为正样本的概率,α∈[0,1]为平衡正负样本的参数,k∈{+1,-1}代表正负样本的标签,方便起见将p和α根据k的值分别记为pt和αt
Figure FDA0004047926520000033
是损失函数中的自适应参数,γinitial和γend分别为γ的起始值和终止值,i表示当前是训练过程的第i轮,epochnum为总的训练轮数。
3.根据权利要求1所述的一种基于孪生神经网络及平行注意力模块的目标跟踪方法,其特征在于,步骤4中所述在线跟踪过程包括以下步骤:
1)读取待跟踪视频序列的第一帧图片frame1,获取其边界框信息,根据步骤1中裁剪目标区域图片的方法,裁剪出第一帧的目标区域z,将z输入步骤3中所述训练收敛的孪生网络的模板分支,提取模板图像的特征fz,并将特征输入平行注意力模块,得到经过强化的特征表示
Figure FDA0004047926520000034
置t=2;
2)读取待跟踪视频第t帧framet,并根据第t-1帧中确定的目标位置,按照步骤1中裁剪搜索区域图片的方法,裁剪出framet的搜索区域图像st,将st输入进步骤3中所述训练收敛的孪生网络的搜索分支,提取模板图像的特征
Figure FDA0004047926520000035
3)对步骤1)中的
Figure FDA0004047926520000036
和步骤2)中的
Figure FDA0004047926520000037
进行互相关操作:
Figure FDA0004047926520000038
Figure FDA0004047926520000039
scoremap为尺寸为17×17的相似性得分图,根据双三次插值上采样将scoremap映射为255×255,设u为scoremap中任一点的值,由argmaxu(scoremap)确定目标最终的位置;
4)置t=t+1,判断t≤N是否成立,其中N为待测视频序列的总帧数;成立则执行步骤2)—3),否则待测视频序列跟踪过程结束。
CN202010142418.1A 2020-03-04 2020-03-04 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 Active CN111354017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010142418.1A CN111354017B (zh) 2020-03-04 2020-03-04 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010142418.1A CN111354017B (zh) 2020-03-04 2020-03-04 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN111354017A CN111354017A (zh) 2020-06-30
CN111354017B true CN111354017B (zh) 2023-05-05

Family

ID=71195881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010142418.1A Active CN111354017B (zh) 2020-03-04 2020-03-04 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN111354017B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915648B (zh) * 2020-07-16 2023-09-01 郑州轻工业大学 一种基于常识和记忆网络的长期目标运动跟踪方法
CN112150504A (zh) * 2020-08-03 2020-12-29 上海大学 一种基于注意力机制的视觉跟踪方法
CN112085718B (zh) * 2020-09-04 2022-05-10 厦门大学 一种基于孪生注意力网络的nafld超声视频诊断***
CN112164094A (zh) * 2020-09-22 2021-01-01 江南大学 一种基于孪生网络的快速视频目标跟踪方法
CN112183645B (zh) * 2020-09-30 2022-09-09 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112258554B (zh) * 2020-10-07 2022-11-18 大连理工大学 基于注意力机制的双流层次孪生网络目标跟踪方法
CN112347852B (zh) * 2020-10-10 2022-07-29 上海交通大学 体育运动视频的目标追踪与语义分割方法及装置、插件
CN112288772B (zh) * 2020-10-14 2022-06-07 武汉大学 基于在线多特征选择的通道注意力目标跟踪方法
CN112348849B (zh) * 2020-10-27 2023-06-20 南京邮电大学 一种孪生网络视频目标跟踪方法及装置
CN112308013B (zh) * 2020-11-16 2023-03-31 电子科技大学 一种基于深度学习的足球球员追踪方法
CN112560656B (zh) * 2020-12-11 2024-04-02 成都东方天呈智能科技有限公司 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN112560695B (zh) * 2020-12-17 2023-03-24 中国海洋大学 水下目标跟踪方法、***、存储介质、设备、终端及应用
CN112488061B (zh) * 2020-12-18 2022-04-29 电子科技大学 一种联合ads-b信息的多航空器检测与跟踪方法
CN112712546A (zh) * 2020-12-21 2021-04-27 吉林大学 一种基于孪生神经网络的目标跟踪方法
CN112750148B (zh) * 2021-01-13 2024-03-22 浙江工业大学 一种基于孪生网络的多尺度目标感知跟踪方法
CN112785624B (zh) * 2021-01-18 2023-07-04 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112819762B (zh) * 2021-01-22 2022-10-18 南京邮电大学 一种基于伪孪生密集连接注意力机制的路面裂缝检测方法
CN113077491B (zh) * 2021-04-02 2023-05-02 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN112990088A (zh) * 2021-04-08 2021-06-18 昆明理工大学 一种基于cnn模型嵌入的遥感图像小样本分类方法
CN113190706A (zh) * 2021-04-16 2021-07-30 西安理工大学 一种基于二阶注意力机制的孪生网络图像检索方法
CN113065645B (zh) * 2021-04-30 2024-04-09 华为技术有限公司 孪生注意力网络、图像处理方法和装置
CN113269808B (zh) * 2021-04-30 2022-04-15 武汉大学 视频小目标跟踪方法和装置
CN113192108B (zh) * 2021-05-19 2024-04-02 西安交通大学 一种针对视觉跟踪模型的人在回路训练方法及相关装置
CN113506317B (zh) * 2021-06-07 2022-04-22 北京百卓网络技术有限公司 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN113592900A (zh) * 2021-06-11 2021-11-02 安徽大学 一种基于注意力机制与全局推理的目标跟踪方法及***
CN113379787B (zh) * 2021-06-11 2023-04-07 西安理工大学 基于3d卷积孪生神经网络和模板更新的目标跟踪方法
CN113469074B (zh) * 2021-07-06 2023-12-19 西安电子科技大学 基于孪生注意力融合网络的遥感图像变化检测方法及***
CN113658218B (zh) * 2021-07-19 2023-10-13 南京邮电大学 一种双模板密集孪生网络跟踪方法、装置及存储介质
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法
CN113435409A (zh) * 2021-07-23 2021-09-24 北京地平线信息技术有限公司 图像识别模型的训练方法、装置、存储介质及电子设备
CN113724261A (zh) * 2021-08-11 2021-11-30 电子科技大学 一种基于卷积神经网络的快速图像构图方法
CN113643329B (zh) * 2021-09-01 2022-04-19 北京航空航天大学 一种基于孪生注意力网络的在线更新目标跟踪方法和***
CN113744311A (zh) * 2021-09-02 2021-12-03 北京理工大学 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113850189B (zh) * 2021-09-26 2024-06-21 北京航空航天大学 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN113888595B (zh) * 2021-09-29 2024-05-14 中国海洋大学 一种基于困难样本挖掘的孪生网络单目标视觉跟踪方法
CN113870312B (zh) * 2021-09-30 2023-09-22 四川大学 基于孪生网络的单目标跟踪方法
CN114170094B (zh) * 2021-11-17 2024-05-31 北京理工大学 基于孪生网络的机载红外图像超分辨率与噪声去除算法
CN113920323B (zh) * 2021-11-18 2023-04-07 西安电子科技大学 基于语义图注意力网络的不同混乱度高光谱图像分类方法
CN114399533B (zh) * 2022-01-17 2024-04-16 中南大学 一种基于多层次注意力机制的单目标追踪方法
CN115018754B (zh) * 2022-01-20 2023-08-18 湖北理工学院 一种深度孪生网络改进形变轮廓模型的方法
CN114494195B (zh) * 2022-01-26 2024-06-04 南通大学 用于眼底图像分类的小样本注意力机制并行孪生方法
CN114782488A (zh) * 2022-04-01 2022-07-22 燕山大学 一种基于通道感知的水下目标跟踪方法
CN115018906A (zh) * 2022-04-22 2022-09-06 国网浙江省电力有限公司 一种基于组特征选择与判别相关滤波联合的电网变电检修作业人员跟踪方法
CN114842378A (zh) * 2022-04-26 2022-08-02 南京信息技术研究院 一种基于孪生网络的多摄像头单目标追踪方法
CN116486203B (zh) * 2023-04-24 2024-02-02 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN117615255B (zh) * 2024-01-19 2024-04-19 深圳市浩瀚卓越科技有限公司 基于云台的拍摄追踪方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272530B (zh) * 2018-08-08 2020-07-21 北京航空航天大学 面向空基监视场景的目标跟踪方法与装置
CN109993774B (zh) * 2019-03-29 2020-12-11 大连理工大学 基于深度交叉相似匹配的在线视频目标跟踪方法
CN110570458B (zh) * 2019-08-12 2022-02-01 武汉大学 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN110675423A (zh) * 2019-08-29 2020-01-10 电子科技大学 一种基于孪生神经网络和注意力模型的无人机跟踪方法

Also Published As

Publication number Publication date
CN111354017A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
Dai et al. Visual tracking via adaptive spatially-regularized correlation filters
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN110473231B (zh) 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法
CN110909591B (zh) 用编码向量的行人图像检测自适应非极大值抑制处理方法
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN110276784B (zh) 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法
CN107730536B (zh) 一种基于深度特征的高速相关滤波物体追踪方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及***
CN112927209B (zh) 一种基于cnn的显著性检测***和方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN111310609A (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN115147632A (zh) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN111091583B (zh) 长期目标跟踪方法
CN110544267B (zh) 一种自适应选择特征的相关滤波跟踪方法
CN110135435B (zh) 一种基于广度学习***的显著性检测方法及装置
CN108764233B (zh) 一种基于连续卷积激活的场景字符识别方法
CN115588030B (zh) 基于孪生网络的视觉目标跟踪方法及设备
CN116543250A (zh) 一种基于类注意力传输的模型压缩方法
CN113920159B (zh) 一种基于全卷积孪生网络的红外空中小目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant