CN108520530B

CN108520530B - 基于长短时记忆网络的目标跟踪方法

Info

Publication number: CN108520530B
Application number: CN201810323668.8A
Authority: CN
Inventors: 严严; 杜伊涵; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2020-01-14
Anticipated expiration: 2038-04-12
Also published as: CN108520530A

Abstract

基于长短时记忆网络的目标跟踪方法，涉及计算机视觉技术。首先采用基于相似性学习的快速匹配方法对候选目标状态进行预估计，筛选出高质量的候选目标状态，然后将这些高质量的目标状态用长短时记忆网络进行分类。所用的长短时记忆网络包括用于提取特征的卷积层和用于分类的长短时记忆层。卷积层在大规模图像数据集ILSVRC15上离线训练而得，规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得，充分利用了输入视频序列包含的时间相关性，具有良好的适应目标形态和动作变化的能力。速度显著提高，将一种可以适应目标变化的长短时记忆网络运用于目标跟踪。

Description

基于长短时记忆网络的目标跟踪方法

技术领域

本发明涉及计算机视觉技术，具体涉及一种基于长短时记忆网络的目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域中一个极具挑战性的研究热点，在视频监控，人机交互和无人驾驶等领域都具有广泛的应用。目标跟踪的定义是给定视频序列初始帧中目标位置，在接下来的视频序列中自动地给出目标所在的位置。目标跟踪处于视频内容分析研究的中间层次，它获取视频中目标的位置与运动信息，为进一步的语义层分析(动作识别、场景识别)提供基础。目标跟踪任务的难点在于处理视频中的各种视觉信息和运动信息，包括目标本身的信息和周围环境的信息，特别是对于一些包含遮挡、光照变化、形变等挑战性难题的场景。

目标跟踪的研究在近几年发展迅速，经典方法包括基于稀疏表示(sparserepresentation)的方法，基于结构化支持向量机(structured SVM)的方法和基于相关滤波(correlation filter)的方法等。近几年，深度学习在计算机视觉领域取得了巨大成功，越来越多基于深度学习的目标跟踪方法出现。与采用手工提取特征(hand-draftedfeature)的传统方法不同，基于深度学习的目标跟踪方法利用卷积神经网络(Convolutional Neural Network)来表达视觉特征，在跟踪的精度上取得了令人瞩目的突破。这些基于卷积神经网络的目标跟踪方法大致可以分为两类：一类是基于分类的方法，另一类是基于匹配的方法。基于分类的目标跟踪方法把目标跟踪视为一个而分类问题，它们训练一个分类器将目标与背景区分开来。虽然这些方法达到了相当高的跟踪精度，但是大量的特征提取和复杂的在线更新使这些方法的速度变得很慢。此外，一些高精度的分类方法，例如MDNet(H.Nam and B.Han,“Learning multi-domain convolutional neuralnetworks for visual tracking,”in CVPR,2016.)，在目标跟踪的数据集上训练和测试，存在过拟合的问题。基于匹配的目标跟踪方法，例如SiameseFC(L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.S.Torr,“Fully-convolutionalsiamese networks for object tracking,”in ECCV Workshop,2016.)，将候选的目标状态与目标模板匹配，不需要在线更新。这些方法的特点是速度快，能够实时运行。然而，由于基于匹配的目标跟踪方法没有利用背景信息，又缺乏在线适应性，这些方法在一些复杂的场景中往往会发生跟踪漂移或失败。

上述基于卷积神经网络的目标跟踪方法大都是在视频序列的每一帧单独实施目标检测，而没有利用视频序列之间的时间相关性。近年来，循环神经网络(RecurrentNeural Network)凭借其捕捉时间相关性和处理序列数据的能力获得了计算机视觉领域的广泛关注，一些目标跟踪方法也开始使用循环神经网络。长短时记忆(Long Short-TermMemory)网络就是一种特殊的循环神经网络，它不仅能够记忆历史输入信息，还具有遗忘机制，能够处理长时间的序列信息。2015年，Gan等人(Q.Gan,Q.Guo,Z.Zhang,andK.Cho,“Firststeptoward model-free,anonymous object tracking with recurrent neuralnetworks,”CoRR,vol.abs/1511.06425,2015.)训练循环神经网络来预测目标位置。类似地，Kahou等人(S.E.Kahou,V.Michalski,and R.Memisevic,“RATM:recurrent attentivetracking model,”CoRR,vol.abs/1510.08660,2015.)训练基于关注机制的循环神经网络应用于目标跟踪。但是，这两种基于循环神经网络的目标跟踪方法只能跟踪一些简单的数据集，如MNIST数字。Fan等人(H.Fan and H.Ling,“SANet:Structure-aware network forvisual tracking,”in CVPR Workshop,2017.)将循环神经网络与卷积神经网络的特征图融合，以对目标自身的结构进行建模。这种方法精度很高，但是繁重的计算使其速度低于1帧/秒，难以应用于实际。最近，Gordon等人(D.Gordon,A.Farhadi,and D.Fox,“Re3:Real-time recurrent regression networks for object tracking,”CoRR,vol.abs/1705.06368,2017.)提出一种实时的循环回归网络(Re3)。Re3离线训练了一个用于回归的长短时记忆网络，使其学习目标形态和动作的变化。因为这种方法没有进行在线更新，所以它的速度很快。但是，由于离线训练所用视频包含的目标千差万别，这种方法很难学习到一个通用的模型来描述所有目标形态和动作的变化。因此，Re3的跟踪精度并不理想。

发明内容

本发明的目的在于提供基于长短时记忆网络的目标跟踪方法。

本发明包括以下步骤：

1)用第一帧的目标状态x₁初始化长短时记忆(Long Short Term-Memory)网络，所述网络的结构由用于提取图像特征的卷积层(convolutional layers)和用于分类的长短时记忆层(LSTM layers)组成；在目标跟踪过程中，长短时记忆的网络状态记忆了目标形态和动作的变化，并在网络自身的前向传播(forward pass)过程中随目标变化而更新网络参数；

2)从输入视频的第一帧中采取样本集S₁放入长短时记忆网络，用基于时间的反向传播(Back Propagation Trough Time)算法训练初始化后的长短时记忆网络；为了契合目标跟踪的任务，在第一帧训练网络和随后的更新网络过程中，用上一时刻的网络状态(对于第一帧来说，用初始化后的网络状态)和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络，网络输出2个数值，分别对应为所输入目标状态成为正样本的概率和成为负样本的概率，网络每个时刻都输出当前帧跟踪的结果，反向传播的损失直接来源于分类的结果，使得训练过程能快速收敛；

3)对输入视频的第t帧，使用基于相似性学习的匹配方法

对搜索区域(searchregion)进行预估计，得到置信图

其中，搜索区域位于上一帧所估计的目标位置周围，置信图

反映了搜索区域中每个目标候选状态与目标模板的相似性，采用基于全卷积孪生网络(Fully-convolutional Siamese Network)的快速匹配方法作为

计算相似性，大大减少对无关目标状态的冗余计算，提高效率；

4)从置信图

中挑选N个候选目标状态

5)将步骤4)中所述N个候选目标状态放入长短时记忆网络，并根据上一时刻的网络状态

对

进行评估，得到这些候选目标状态作为正样本的概率

并找出概率最大的候选目标状态，作为最佳目标状态

完成当前帧的目标跟踪，确定最佳目标状态

的步骤写成如下公式：

6)将当前帧评估出的最佳目标状态

所对应的网络状态作为当前时刻的最佳网络状态

用于下一帧的目标跟踪；

7)如果最佳目标状态成为正样本的概率大于预设的阈值参数θ，从当前帧采取样本集S_t，用S_t更新长短时记忆网络，重复步骤3)～7)步骤，直至视频结束。

在步骤1)中，所述卷积层在大规模图像数据集上完成离线训练，起到提取图像高层语义特征的作用，网络的长短时记忆层则在目标跟踪的过程中在线学习，从而更充分地利用输入视频包含的信息。

在步骤2)中，所述从输入视频的第一帧中采取样本集S₁放入长短时记忆网络的具体方法为：

(1)在第一帧标注的矩形框周围分别以高斯分布和均匀分布采取正样本和负样本，得到样本集S₁；

(2)将样本集S₁放入长短时记忆网络采用基于时间的反向传播算法进行训练，长短时记忆网络的前向传播(forward pass)计算公式如下：

h^t＝o^t⊙φ(c^t)

其中，f^t，i^t和o^t分别为t时刻长短时记忆单元中的遗忘门，输入门和输出门参数；

c^t和h^t分别为长短时记忆单元的输入，状态和输出；⊙和φ分别为点乘运算和激活函数；

(3)长短时记忆网络的反向传播(backward pass)计算公式如下：

其中，

是训练的损失函数，ε和δ为公式中定义的导数，反向传播的损失直接来源于分类的结果，使得训练过程能快速收敛。

在步骤3)中，所述使用基于相似性学习的匹配方法

对搜索区域(searchregion)进行预估计的具体方法可为：筛选高质量的候选目标状态进行分类，减少对密集采样中无关候选目标状态的计算，提高传统基于检测的跟踪(tracking-by-detection)框架的效率。

在步骤5)中，所述将步骤4)中所述N个候选目标状态

放入长短时记忆网络的具体方法可为：

(1)将这N个候选目标状态

放入卷积层提取高层语义特征，得到它们的特征向量，卷积层是在大规模图像数据集ILSVRC15上离线训练而得到的，规避对目标跟踪数据集过拟合的风险；

(2)将提取出的特征向量放入长短时记忆层，长短时记忆层将根据上一时刻的网络状态

对这些特征向量分类，输出候选目标状态成为正样本和负样本的概率；

(3)找出成为正样本概率最大的候选目标状态，作为最佳目标状态

完成当前帧的目标跟踪，确定最佳目标状态

的公式如下：

所述目标状态对应于搜索区域中的一个图像块(image patch)。

在步骤6)中，所述网络状态

记忆了目标的形态和动作变化并且随网络前向传播不断更新，由于长短时记忆网络本身的这种循环结构，在跟踪过程中能够利用视频图像序列的时间相关性，从而获得对目标形态变化的适应性和精确定位目标的能力。

在步骤7)中，所述从当前帧采取样本集S_t可用难分样本挖掘(hard negativemining)的方法从当前帧采取样本集S_t；

所述用难分样本挖掘的方法是从当前帧采取样本集S_t来更新长短时记忆网络，具体方法可为：

(1)直接从置信图

中挑选高分的负样本作为难分样本，不需要重新采集或评估难分样本，提高了网络更新的速度。

(2)在所评估出的最佳目标状态

周围以高斯分布采取正样本，用正样本和难分负样本作为当前帧的样本集S_t更新长短时记忆网络。

本发明首先采用基于相似性学习的快速匹配方法对候选目标状态进行预估计，筛选出高质量的候选目标状态，然后将这些高质量的目标状态用长短时记忆网络进行分类。本发明所用的长短时记忆网络包括用于提取特征的卷积层和用于分类的长短时记忆层。卷积层在大规模图像数据集ILSVRC15上离线训练而得，规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得，充分利用了输入视频序列包含的时间相关性，具有良好的适应目标形态和动作变化的能力。

与传统的基于检测的深度学习跟踪方法相比，本发明速度显著提高，将一种可以适应目标变化的长短时记忆网络运用于目标跟踪。网络中的卷积层在大规模图像数据集ILSVRC15(O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein et al.,“Imagenet large scale visualrecognition challenge,”IJCV,vol.115,no.3,pp.211–252,2015.)上离线训练而得，规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得，用于对卷积层所提取的图像特征进行分类，充分利用了输入视频序列包含的时间相关性和背景信息。由于长短时记忆层的递归结构，它能够记忆目标形态和动作的变化，忽略干扰信息。而且，递归参数也在网络前向传播过程中自动更新。

附图说明

图1为本发明实施例的跟踪框架示意图。

图2为本发明与其它几种目标跟踪方法在OTB-2013数据集上对比的精度图。在图2中，标记1为OA-LSTM(ours)[0.830]，标记2为DLSSVM(2016)[0.829]，标记3为SiamFC(2016)[0.809]，标记4为CFNet(2017)[0.807]，标记5为Staple(2016)[0.793]，标记6为SAMF(2014)[0.785]，标记7为KCF(2015)[0.740]，标记8为DSST(2014)[0.740]，标记9为CNT(2016)[0.723]，标记10为Struck(2011)[0.656]。其中，OA-LSTM为本发明所提出的方法。

图3为本发明与其它几种目标跟踪方法在OTB-2015数据集上对比的精度图。在图3中，标记1为OA-LSTM(ours)[0.796]，标记2为Staple(2016)[0.784]，标记3为SiamFC(2016)[0.771]，标记4为DLSSVM(2016)[0.763]，标记5为SAMF(2014)[0.751]，标记6为CFNet(2017)[0.748，标记7为KCF(2015)[0.696]，标记8为DSST(2014)[0.680]，标记9为Struck(2011)[0.640]，标记10为CNT(2016)[0.572]。

图4为本发明与两种变形版本OA-FF(前馈型网络，不含长短时记忆层)，OA-LSTM-PS(不含候选目标状态预估计策略)在OTB-2013数据集上对比的精度图。图例表示对应方法的速度(帧/秒)。在图4中，标记1为OA-LSTM(11.5fps)[0.830]，标记2为OA-LSTM-PS(2.7fps)[0.794]，标记3为OA-FF(13.2fps)[0.742]。

图5为本发明与两种变形版本OA-FF(前馈型网络，不含长短时记忆层)，OA-LSTM-PS(不含候选目标状态预估计策略)在OTB-2015数据集上对比的精度图。图例表示对应方法的速度(帧/秒)。在图5中，标记1为OA-LSTM(11.5fps)[0.796]，标记2为OA-LSTM-PS(2.7fps)[0.778]，标记3为OA-FF(13.2fps)[0.699]。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1～5，本发明实施例包括以下步骤：

1)用第一帧的目标状态x₁初始化长短时记忆(Long Short Term-Memory)网络。本发明所提出的网络结构由用于提取图像特征的卷积层(convolutional layers)和用于分类的长短时记忆层(LSTM layers)组成。在目标跟踪过程中，长短时记忆的网络状态记忆了目标形态和动作的变化，并在网络自身的前向传播(forward pass)过程中随目标变化而更新网络参数。

2)从输入视频的第一帧中采取样本集S₁放入长短时记忆网络，用基于时间的反向传播(Back Propagation Trough Time)算法训练初始化后的长短时记忆网络。为了契合目标跟踪的任务，在第一帧训练网络和随后的更新网络过程中，用上一时刻的网络状态(对于第一帧来说，用初始化后的网络状态)和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络，网络输出2个数值，分别对应为所输入目标状态成为正样本的概率和成为负样本的概率。这样一来，网络每个时刻都输出当前帧跟踪的结果，反向传播的损失直接来源于分类的结果，使得训练过程能快速收敛。

3)对输入视频的第t帧，使用基于相似性学习的匹配方法

对搜索区域(searchregion)进行预估计，得到置信图

其中，搜索区域位于上一帧所估计的目标位置周围，置信图反映了搜索区域中每个目标候选状态与目标模板的相似性。本发明采用基于全卷积孪生网络(Fully-convolutional Siamese Network)的快速匹配方法作为

计算相似性，大大减少了对无关目标状态的冗余计算，提高了本发明的效率。

4)从置信图

中挑选N个高质量的候选目标状态

每个目标状态对应于搜索区域中的一个图像块(image patch)。

5)将这N个候选目标状态

放入长短时记忆网络，并根据上一时刻的网络状态

对

进行评估，得到这些候选目标状态作为正样本的概率

并找出概率最大的候选目标状态，作为最佳目标状态

完成当前帧的目标跟踪。确定最佳目标状态

的步骤可以写成如下公式：

6)将当前帧评估出的最佳目标状态所对应的网络状态作为当前时刻的最佳网络状态用于下一帧的目标跟踪。

7)如果最佳目标状态成为正样本的概率

大于预设的阈值参数θ，用难分样本挖掘(hard negative mining)的方法从当前帧采取样本集S_t，用S_t更新长短时记忆网络。重复上述3)～7)步骤，直至视频结束。

表1为本发明与其它几种目标跟踪方法在TC-128数据集上对比的精度，AUC(AreaUnder the Curve)和速度(帧/秒)。

表1

其中，^*表示GPU速度，其它的表示CPU速度。

Claims

1.基于长短时记忆网络的目标跟踪方法，其特征在于包括以下步骤：

1)用第一帧的目标状态x₁初始化长短时记忆网络，所述网络的结构由用于提取图像特征的卷积层和用于分类的长短时记忆层组成；在目标跟踪过程中，长短时记忆的网络状态记忆了目标形态和动作的变化，并在网络自身的前向传播过程中随目标变化而更新网络参数；

2)从输入视频的第一帧中采取样本集S₁放入长短时记忆网络，用基于时间的反向传播算法训练初始化后的长短时记忆网络；为了契合目标跟踪的任务，在第一帧训练网络和随后的更新网络过程中，用上一时刻的网络状态和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络，网络输出2个数值，分别对应为所输入目标状态成为正样本的概率和成为负样本的概率，网络每个时刻都输出当前帧跟踪的结果，反向传播的损失直接来源于分类的结果，使得训练过程收敛；

3)对输入视频的第t帧，使用基于相似性学习的匹配方法