CN108520530B - 基于长短时记忆网络的目标跟踪方法 - Google Patents

基于长短时记忆网络的目标跟踪方法 Download PDF

Info

Publication number
CN108520530B
CN108520530B CN201810323668.8A CN201810323668A CN108520530B CN 108520530 B CN108520530 B CN 108520530B CN 201810323668 A CN201810323668 A CN 201810323668A CN 108520530 B CN108520530 B CN 108520530B
Authority
CN
China
Prior art keywords
long
target
network
time
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810323668.8A
Other languages
English (en)
Other versions
CN108520530A (zh
Inventor
严严
杜伊涵
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810323668.8A priority Critical patent/CN108520530B/zh
Publication of CN108520530A publication Critical patent/CN108520530A/zh
Application granted granted Critical
Publication of CN108520530B publication Critical patent/CN108520530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

基于长短时记忆网络的目标跟踪方法,涉及计算机视觉技术。首先采用基于相似性学习的快速匹配方法对候选目标状态进行预估计,筛选出高质量的候选目标状态,然后将这些高质量的目标状态用长短时记忆网络进行分类。所用的长短时记忆网络包括用于提取特征的卷积层和用于分类的长短时记忆层。卷积层在大规模图像数据集ILSVRC15上离线训练而得,规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得,充分利用了输入视频序列包含的时间相关性,具有良好的适应目标形态和动作变化的能力。速度显著提高,将一种可以适应目标变化的长短时记忆网络运用于目标跟踪。

Description

基于长短时记忆网络的目标跟踪方法
技术领域
本发明涉及计算机视觉技术,具体涉及一种基于长短时记忆网络的目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域中一个极具挑战性的研究热点,在视频监控,人机交互和无人驾驶等领域都具有广泛的应用。目标跟踪的定义是给定视频序列初始帧中目标位置,在接下来的视频序列中自动地给出目标所在的位置。目标跟踪处于视频内容分析研究的中间层次,它获取视频中目标的位置与运动信息,为进一步的语义层分析(动作识别、场景识别)提供基础。目标跟踪任务的难点在于处理视频中的各种视觉信息和运动信息,包括目标本身的信息和周围环境的信息,特别是对于一些包含遮挡、光照变化、形变等挑战性难题的场景。
目标跟踪的研究在近几年发展迅速,经典方法包括基于稀疏表示(sparserepresentation)的方法,基于结构化支持向量机(structured SVM)的方法和基于相关滤波(correlation filter)的方法等。近几年,深度学习在计算机视觉领域取得了巨大成功,越来越多基于深度学习的目标跟踪方法出现。与采用手工提取特征(hand-draftedfeature)的传统方法不同,基于深度学习的目标跟踪方法利用卷积神经网络(Convolutional Neural Network)来表达视觉特征,在跟踪的精度上取得了令人瞩目的突破。这些基于卷积神经网络的目标跟踪方法大致可以分为两类:一类是基于分类的方法,另一类是基于匹配的方法。基于分类的目标跟踪方法把目标跟踪视为一个而分类问题,它们训练一个分类器将目标与背景区分开来。虽然这些方法达到了相当高的跟踪精度,但是大量的特征提取和复杂的在线更新使这些方法的速度变得很慢。此外,一些高精度的分类方法,例如MDNet(H.Nam and B.Han,“Learning multi-domain convolutional neuralnetworks for visual tracking,”in CVPR,2016.),在目标跟踪的数据集上训练和测试,存在过拟合的问题。基于匹配的目标跟踪方法,例如SiameseFC(L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.S.Torr,“Fully-convolutionalsiamese networks for object tracking,”in ECCV Workshop,2016.),将候选的目标状态与目标模板匹配,不需要在线更新。这些方法的特点是速度快,能够实时运行。然而,由于基于匹配的目标跟踪方法没有利用背景信息,又缺乏在线适应性,这些方法在一些复杂的场景中往往会发生跟踪漂移或失败。
上述基于卷积神经网络的目标跟踪方法大都是在视频序列的每一帧单独实施目标检测,而没有利用视频序列之间的时间相关性。近年来,循环神经网络(RecurrentNeural Network)凭借其捕捉时间相关性和处理序列数据的能力获得了计算机视觉领域的广泛关注,一些目标跟踪方法也开始使用循环神经网络。长短时记忆(Long Short-TermMemory)网络就是一种特殊的循环神经网络,它不仅能够记忆历史输入信息,还具有遗忘机制,能够处理长时间的序列信息。2015年,Gan等人(Q.Gan,Q.Guo,Z.Zhang,andK.Cho,“Firststeptoward model-free,anonymous object tracking with recurrent neuralnetworks,”CoRR,vol.abs/1511.06425,2015.)训练循环神经网络来预测目标位置。类似地,Kahou等人(S.E.Kahou,V.Michalski,and R.Memisevic,“RATM:recurrent attentivetracking model,”CoRR,vol.abs/1510.08660,2015.)训练基于关注机制的循环神经网络应用于目标跟踪。但是,这两种基于循环神经网络的目标跟踪方法只能跟踪一些简单的数据集,如MNIST数字。Fan等人(H.Fan and H.Ling,“SANet:Structure-aware network forvisual tracking,”in CVPR Workshop,2017.)将循环神经网络与卷积神经网络的特征图融合,以对目标自身的结构进行建模。这种方法精度很高,但是繁重的计算使其速度低于1帧/秒,难以应用于实际。最近,Gordon等人(D.Gordon,A.Farhadi,and D.Fox,“Re3:Real-time recurrent regression networks for object tracking,”CoRR,vol.abs/1705.06368,2017.)提出一种实时的循环回归网络(Re3)。Re3离线训练了一个用于回归的长短时记忆网络,使其学习目标形态和动作的变化。因为这种方法没有进行在线更新,所以它的速度很快。但是,由于离线训练所用视频包含的目标千差万别,这种方法很难学习到一个通用的模型来描述所有目标形态和动作的变化。因此,Re3的跟踪精度并不理想。
发明内容
本发明的目的在于提供基于长短时记忆网络的目标跟踪方法。
本发明包括以下步骤:
1)用第一帧的目标状态x1初始化长短时记忆(Long Short Term-Memory)网络,所述网络的结构由用于提取图像特征的卷积层(convolutional layers)和用于分类的长短时记忆层(LSTM layers)组成;在目标跟踪过程中,长短时记忆的网络状态记忆了目标形态和动作的变化,并在网络自身的前向传播(forward pass)过程中随目标变化而更新网络参数;
2)从输入视频的第一帧中采取样本集S1放入长短时记忆网络,用基于时间的反向传播(Back Propagation Trough Time)算法训练初始化后的长短时记忆网络;为了契合目标跟踪的任务,在第一帧训练网络和随后的更新网络过程中,用上一时刻的网络状态(对于第一帧来说,用初始化后的网络状态)和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络,网络输出2个数值,分别对应为所输入目标状态成为正样本的概率和成为负样本的概率,网络每个时刻都输出当前帧跟踪的结果,反向传播的损失直接来源于分类的结果,使得训练过程能快速收敛;
3)对输入视频的第t帧,使用基于相似性学习的匹配方法
Figure BDA0001625928680000031
对搜索区域(searchregion)进行预估计,得到置信图
Figure BDA0001625928680000032
其中,搜索区域位于上一帧所估计的目标位置周围,置信图
Figure BDA0001625928680000033
反映了搜索区域中每个目标候选状态与目标模板的相似性,采用基于全卷积孪生网络(Fully-convolutional Siamese Network)的快速匹配方法作为
Figure BDA0001625928680000034
计算相似性,大大减少对无关目标状态的冗余计算,提高效率;
4)从置信图
Figure BDA0001625928680000035
中挑选N个候选目标状态
5)将步骤4)中所述N个候选目标状态放入长短时记忆网络,并根据上一时刻的网络状态
Figure BDA0001625928680000038
Figure BDA0001625928680000039
进行评估,得到这些候选目标状态作为正样本的概率
Figure BDA00016259286800000310
并找出概率最大的候选目标状态,作为最佳目标状态
Figure BDA00016259286800000311
完成当前帧的目标跟踪,确定最佳目标状态
Figure BDA00016259286800000312
的步骤写成如下公式:
Figure BDA00016259286800000313
6)将当前帧评估出的最佳目标状态
Figure BDA00016259286800000314
所对应的网络状态作为当前时刻的最佳网络状态
Figure BDA00016259286800000315
用于下一帧的目标跟踪;
7)如果最佳目标状态成为正样本的概率大于预设的阈值参数θ,从当前帧采取样本集St,用St更新长短时记忆网络,重复步骤3)~7)步骤,直至视频结束。
在步骤1)中,所述卷积层在大规模图像数据集上完成离线训练,起到提取图像高层语义特征的作用,网络的长短时记忆层则在目标跟踪的过程中在线学习,从而更充分地利用输入视频包含的信息。
在步骤2)中,所述从输入视频的第一帧中采取样本集S1放入长短时记忆网络的具体方法为:
(1)在第一帧标注的矩形框周围分别以高斯分布和均匀分布采取正样本和负样本,得到样本集S1
(2)将样本集S1放入长短时记忆网络采用基于时间的反向传播算法进行训练,长短时记忆网络的前向传播(forward pass)计算公式如下:
Figure BDA00016259286800000317
ht=ot⊙φ(ct)
其中,ft,it和ot分别为t时刻长短时记忆单元中的遗忘门,输入门和输出门参数;
Figure BDA0001625928680000041
ct和ht分别为长短时记忆单元的输入,状态和输出;⊙和φ分别为点乘运算和激活函数;
(3)长短时记忆网络的反向传播(backward pass)计算公式如下:
Figure BDA0001625928680000042
Figure BDA0001625928680000043
Figure BDA0001625928680000044
其中,
Figure BDA0001625928680000045
是训练的损失函数,ε和δ为公式中定义的导数,反向传播的损失直接来源于分类的结果,使得训练过程能快速收敛。
在步骤3)中,所述使用基于相似性学习的匹配方法
Figure BDA0001625928680000046
对搜索区域(searchregion)进行预估计的具体方法可为:筛选高质量的候选目标状态进行分类,减少对密集采样中无关候选目标状态的计算,提高传统基于检测的跟踪(tracking-by-detection)框架的效率。
在步骤5)中,所述将步骤4)中所述N个候选目标状态
Figure BDA0001625928680000047
放入长短时记忆网络的具体方法可为:
(1)将这N个候选目标状态
Figure BDA0001625928680000048
放入卷积层提取高层语义特征,得到它们的特征向量,卷积层是在大规模图像数据集ILSVRC15上离线训练而得到的,规避对目标跟踪数据集过拟合的风险;
(2)将提取出的特征向量放入长短时记忆层,长短时记忆层将根据上一时刻的网络状态
Figure BDA0001625928680000049
对这些特征向量分类,输出候选目标状态成为正样本和负样本的概率;
(3)找出成为正样本概率最大的候选目标状态,作为最佳目标状态
Figure BDA00016259286800000411
完成当前帧的目标跟踪,确定最佳目标状态
Figure BDA00016259286800000412
的公式如下:
Figure BDA00016259286800000413
所述目标状态对应于搜索区域中的一个图像块(image patch)。
在步骤6)中,所述网络状态
Figure BDA00016259286800000414
记忆了目标的形态和动作变化并且随网络前向传播不断更新,由于长短时记忆网络本身的这种循环结构,在跟踪过程中能够利用视频图像序列的时间相关性,从而获得对目标形态变化的适应性和精确定位目标的能力。
在步骤7)中,所述从当前帧采取样本集St可用难分样本挖掘(hard negativemining)的方法从当前帧采取样本集St
所述用难分样本挖掘的方法是从当前帧采取样本集St来更新长短时记忆网络,具体方法可为:
(1)直接从置信图
Figure BDA0001625928680000051
中挑选高分的负样本作为难分样本,不需要重新采集或评估难分样本,提高了网络更新的速度。
(2)在所评估出的最佳目标状态
Figure BDA0001625928680000052
周围以高斯分布采取正样本,用正样本和难分负样本作为当前帧的样本集St更新长短时记忆网络。
本发明首先采用基于相似性学习的快速匹配方法对候选目标状态进行预估计,筛选出高质量的候选目标状态,然后将这些高质量的目标状态用长短时记忆网络进行分类。本发明所用的长短时记忆网络包括用于提取特征的卷积层和用于分类的长短时记忆层。卷积层在大规模图像数据集ILSVRC15上离线训练而得,规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得,充分利用了输入视频序列包含的时间相关性,具有良好的适应目标形态和动作变化的能力。
与传统的基于检测的深度学习跟踪方法相比,本发明速度显著提高,将一种可以适应目标变化的长短时记忆网络运用于目标跟踪。网络中的卷积层在大规模图像数据集ILSVRC15(O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein et al.,“Imagenet large scale visualrecognition challenge,”IJCV,vol.115,no.3,pp.211–252,2015.)上离线训练而得,规避了对目标跟踪数据集过拟合的风险。长短时记忆层通过在线学习而得,用于对卷积层所提取的图像特征进行分类,充分利用了输入视频序列包含的时间相关性和背景信息。由于长短时记忆层的递归结构,它能够记忆目标形态和动作的变化,忽略干扰信息。而且,递归参数也在网络前向传播过程中自动更新。
附图说明
图1为本发明实施例的跟踪框架示意图。
图2为本发明与其它几种目标跟踪方法在OTB-2013数据集上对比的精度图。在图2中,标记1为OA-LSTM(ours)[0.830],标记2为DLSSVM(2016)[0.829],标记3为SiamFC(2016)[0.809],标记4为CFNet(2017)[0.807],标记5为Staple(2016)[0.793],标记6为SAMF(2014)[0.785],标记7为KCF(2015)[0.740],标记8为DSST(2014)[0.740],标记9为CNT(2016)[0.723],标记10为Struck(2011)[0.656]。其中,OA-LSTM为本发明所提出的方法。
图3为本发明与其它几种目标跟踪方法在OTB-2015数据集上对比的精度图。在图3中,标记1为OA-LSTM(ours)[0.796],标记2为Staple(2016)[0.784],标记3为SiamFC(2016)[0.771],标记4为DLSSVM(2016)[0.763],标记5为SAMF(2014)[0.751],标记6为CFNet(2017)[0.748,标记7为KCF(2015)[0.696],标记8为DSST(2014)[0.680],标记9为Struck(2011)[0.640],标记10为CNT(2016)[0.572]。
图4为本发明与两种变形版本OA-FF(前馈型网络,不含长短时记忆层),OA-LSTM-PS(不含候选目标状态预估计策略)在OTB-2013数据集上对比的精度图。图例表示对应方法的速度(帧/秒)。在图4中,标记1为OA-LSTM(11.5fps)[0.830],标记2为OA-LSTM-PS(2.7fps)[0.794],标记3为OA-FF(13.2fps)[0.742]。
图5为本发明与两种变形版本OA-FF(前馈型网络,不含长短时记忆层),OA-LSTM-PS(不含候选目标状态预估计策略)在OTB-2015数据集上对比的精度图。图例表示对应方法的速度(帧/秒)。在图5中,标记1为OA-LSTM(11.5fps)[0.796],标记2为OA-LSTM-PS(2.7fps)[0.778],标记3为OA-FF(13.2fps)[0.699]。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1~5,本发明实施例包括以下步骤:
1)用第一帧的目标状态x1初始化长短时记忆(Long Short Term-Memory)网络。本发明所提出的网络结构由用于提取图像特征的卷积层(convolutional layers)和用于分类的长短时记忆层(LSTM layers)组成。在目标跟踪过程中,长短时记忆的网络状态记忆了目标形态和动作的变化,并在网络自身的前向传播(forward pass)过程中随目标变化而更新网络参数。
2)从输入视频的第一帧中采取样本集S1放入长短时记忆网络,用基于时间的反向传播(Back Propagation Trough Time)算法训练初始化后的长短时记忆网络。为了契合目标跟踪的任务,在第一帧训练网络和随后的更新网络过程中,用上一时刻的网络状态(对于第一帧来说,用初始化后的网络状态)和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络,网络输出2个数值,分别对应为所输入目标状态成为正样本的概率和成为负样本的概率。这样一来,网络每个时刻都输出当前帧跟踪的结果,反向传播的损失直接来源于分类的结果,使得训练过程能快速收敛。
3)对输入视频的第t帧,使用基于相似性学习的匹配方法
Figure BDA0001625928680000061
对搜索区域(searchregion)进行预估计,得到置信图
Figure BDA0001625928680000071
其中,搜索区域位于上一帧所估计的目标位置周围,置信图反映了搜索区域中每个目标候选状态与目标模板的相似性。本发明采用基于全卷积孪生网络(Fully-convolutional Siamese Network)的快速匹配方法作为
Figure BDA0001625928680000073
计算相似性,大大减少了对无关目标状态的冗余计算,提高了本发明的效率。
4)从置信图
Figure BDA0001625928680000074
中挑选N个高质量的候选目标状态
Figure BDA0001625928680000075
每个目标状态对应于搜索区域中的一个图像块(image patch)。
5)将这N个候选目标状态
Figure BDA0001625928680000076
放入长短时记忆网络,并根据上一时刻的网络状态
Figure BDA0001625928680000077
Figure BDA0001625928680000078
进行评估,得到这些候选目标状态作为正样本的概率
Figure BDA0001625928680000079
并找出概率最大的候选目标状态,作为最佳目标状态
Figure BDA00016259286800000710
完成当前帧的目标跟踪。确定最佳目标状态
Figure BDA00016259286800000711
的步骤可以写成如下公式:
Figure BDA00016259286800000712
6)将当前帧评估出的最佳目标状态所对应的网络状态作为当前时刻的最佳网络状态用于下一帧的目标跟踪。
7)如果最佳目标状态成为正样本的概率
Figure BDA00016259286800000715
大于预设的阈值参数θ,用难分样本挖掘(hard negative mining)的方法从当前帧采取样本集St,用St更新长短时记忆网络。重复上述3)~7)步骤,直至视频结束。
表1为本发明与其它几种目标跟踪方法在TC-128数据集上对比的精度,AUC(AreaUnder the Curve)和速度(帧/秒)。
表1
其中,*表示GPU速度,其它的表示CPU速度。

Claims (8)

1.基于长短时记忆网络的目标跟踪方法,其特征在于包括以下步骤:
1)用第一帧的目标状态x1初始化长短时记忆网络,所述网络的结构由用于提取图像特征的卷积层和用于分类的长短时记忆层组成;在目标跟踪过程中,长短时记忆的网络状态记忆了目标形态和动作的变化,并在网络自身的前向传播过程中随目标变化而更新网络参数;
2)从输入视频的第一帧中采取样本集S1放入长短时记忆网络,用基于时间的反向传播算法训练初始化后的长短时记忆网络;为了契合目标跟踪的任务,在第一帧训练网络和随后的更新网络过程中,用上一时刻的网络状态和当前帧采取到的正样本、负样本作为输入来训练长短时记忆网络,网络输出2个数值,分别对应为所输入目标状态成为正样本的概率和成为负样本的概率,网络每个时刻都输出当前帧跟踪的结果,反向传播的损失直接来源于分类的结果,使得训练过程收敛;
3)对输入视频的第t帧,使用基于相似性学习的匹配方法
Figure FDA0002184716530000011
对搜索区域进行预估计,得到置信图
Figure FDA0002184716530000012
其中,搜索区域位于上一帧所估计的目标位置周围,置信图
Figure FDA0002184716530000013
反映了搜索区域中每个目标候选状态与目标模板的相似性,采用基于全卷积孪生网络的快速匹配方法作为
Figure FDA0002184716530000014
计算相似性;
4)从置信图
Figure FDA0002184716530000015
中挑选N个候选目标状态
Figure FDA0002184716530000016
5)将步骤4)中所述N个候选目标状态
Figure FDA0002184716530000017
放入长短时记忆网络,并根据上一时刻的网络状态
Figure FDA0002184716530000019
进行评估,得到这些候选目标状态作为正样本的概率
Figure FDA00021847165300000110
并找出概率最大的候选目标状态,作为最佳目标状态
Figure FDA00021847165300000111
完成当前帧的目标跟踪,确定最佳目标状态
Figure FDA00021847165300000112
的步骤写成如下公式:
Figure FDA00021847165300000113
6)将当前帧评估出的最佳目标状态
Figure FDA00021847165300000114
所对应的网络状态作为当前时刻的最佳网络状态
Figure FDA00021847165300000115
用于下一帧的目标跟踪;
7)如果最佳目标状态成为正样本的概率
Figure FDA00021847165300000116
大于预设的阈值参数θ,从当前帧采取样本集St,用St更新长短时记忆网络,重复步骤3)~7),直至视频结束。
2.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤1)中,所述卷积层在大规模图像数据集上完成离线训练,起到提取图像高层语义特征的作用,网络的长短时记忆层则在目标跟踪的过程中在线学习,利用输入视频包含的信息。
3.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤2)中,所述从输入视频的第一帧中采取样本集S1放入长短时记忆网络的具体方法为:
(1)在第一帧标注的矩形框周围分别以高斯分布和均匀分布采取正样本和负样本,得到样本集S1
(2)将样本集S1放入长短时记忆网络采用基于时间的反向传播算法进行训练,长短时记忆网络的前向传播计算公式如下:
ht=ot⊙φ(ct)
其中,ft,it和ot分别为t时刻长短时记忆单元中的遗忘门,输入门和输出门参数;
Figure FDA0002184716530000022
ct和ht分别为t时刻长短时记忆单元的输入,状态和输出;⊙和φ分别为点乘运算和激活函数;
(3)长短时记忆网络的反向传播计算公式如下:
Figure FDA0002184716530000023
Figure FDA0002184716530000024
Figure FDA0002184716530000025
其中,
Figure FDA0002184716530000026
是训练的损失函数,∈和δ为公式中定义的导数,反向传播的损失直接来源于分类的结果,使得训练过程收敛。
4.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤3)中,所述使用基于相似性学习的匹配方法
Figure FDA0002184716530000027
对搜索区域进行预估计的具体方法为:筛选高质量的候选目标状态进行分类,减少对密集采样中无关候选目标状态的计算,提高传统基于检测的跟踪框架的效率。
5.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤5)中,所述将步骤4)中所述N个候选目标状态
Figure FDA0002184716530000028
放入长短时记忆网络的具体方法为:
(1)将这N个候选目标状态放入卷积层提取高层语义特征,得到它们的特征向量,卷积层是在大规模图像数据集ILSVRC15上离线训练而得到的,规避对目标跟踪数据集过拟合的风险;
(2)将提取出的特征向量放入长短时记忆层,长短时记忆层将根据上一时刻的网络状态
Figure FDA0002184716530000031
对这些特征向量分类,输出候选目标状态成为正样本和负样本的概率;
(3)找出成为正样本概率
Figure FDA0002184716530000032
最大的候选目标状态,作为最佳目标状态
Figure FDA0002184716530000033
完成当前帧的目标跟踪,确定最佳目标状态
Figure FDA0002184716530000034
的公式如下:
Figure FDA0002184716530000035
所述最佳目标状态对应于搜索区域中的一个图像块。
6.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤6)中,所述网络状态
Figure FDA0002184716530000036
记忆了目标的形态和动作变化并且随网络前向传播更新,由于长短时记忆网络本身的这种循环结构,在跟踪过程中能够利用视频图像序列的时间相关性,从而获得对目标形态变化的适应性和精确定位目标的能力。
7.如权利要求1所述基于长短时记忆网络的目标跟踪方法,其特征在于在步骤7)中,所述从当前帧采取样本集St是用难分样本挖掘的方法从当前帧采取样本集St
8.如权利要求7所述基于长短时记忆网络的目标跟踪方法,其特征在于所述用难分样本挖掘的方法是从当前帧采取样本集St来更新长短时记忆网络,具体方法为:
(1)直接从置信图
Figure FDA0002184716530000037
中挑选高分的负样本作为难分样本;
(2)在所评估出的最佳目标状态周围以高斯分布采取正样本,用正样本和难分样本作为当前帧的样本集St更新长短时记忆网络。
CN201810323668.8A 2018-04-12 2018-04-12 基于长短时记忆网络的目标跟踪方法 Active CN108520530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810323668.8A CN108520530B (zh) 2018-04-12 2018-04-12 基于长短时记忆网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810323668.8A CN108520530B (zh) 2018-04-12 2018-04-12 基于长短时记忆网络的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN108520530A CN108520530A (zh) 2018-09-11
CN108520530B true CN108520530B (zh) 2020-01-14

Family

ID=63432119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810323668.8A Active CN108520530B (zh) 2018-04-12 2018-04-12 基于长短时记忆网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN108520530B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200424B2 (en) * 2018-10-12 2021-12-14 Adobe Inc. Space-time memory network for locating target object in video content
CN109784155B (zh) * 2018-12-10 2022-04-29 西安电子科技大学 基于验证和纠错机制的视觉目标跟踪方法、智能机器人
CN109800689B (zh) * 2019-01-04 2022-03-29 西南交通大学 一种基于时空特征融合学习的目标跟踪方法
CN111738037B (zh) * 2019-03-25 2024-03-08 广州汽车集团股份有限公司 一种自动驾驶方法及其***、车辆
CN109993130A (zh) * 2019-04-04 2019-07-09 哈尔滨拓博科技有限公司 一种基于深度图像动态手语语义识别***及方法
CN109993770B (zh) * 2019-04-09 2022-07-15 西南交通大学 一种自适应时空学习与状态识别的目标跟踪方法
CN110837683A (zh) * 2019-05-20 2020-02-25 全球能源互联网研究院有限公司 电力***暂态稳定的预测模型的训练及预测方法、装置
CN110223324B (zh) * 2019-06-05 2023-06-16 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110221611B (zh) * 2019-06-11 2020-09-04 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆
CN110223316B (zh) * 2019-06-13 2021-01-29 哈尔滨工业大学 基于循环回归网络的快速目标跟踪方法
CN110390386B (zh) * 2019-06-28 2022-07-29 南京信息工程大学 基于输入变化微分的灵敏长短期记忆方法
CN110490299B (zh) * 2019-07-25 2022-07-29 南京信息工程大学 基于状态变化微分的灵敏长短期记忆方法
CN110443829A (zh) * 2019-08-05 2019-11-12 北京深醒科技有限公司 一种基于运动特征和相似度特征的抗遮挡跟踪算法
CN110490906A (zh) * 2019-08-20 2019-11-22 南京邮电大学 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法
CN110827320B (zh) * 2019-09-17 2022-05-20 北京邮电大学 基于时序预测的目标跟踪方法和装置
CN113538512A (zh) * 2021-07-02 2021-10-22 北京理工大学 基于多层旋转记忆模型的光电信息处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330920A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于深度学习的监控视频多目标追踪方法
CN107515856A (zh) * 2017-08-30 2017-12-26 哈尔滨工业大学 一种基于局部信息表示的细粒度情感元素抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
CN107818307B (zh) * 2017-10-31 2021-05-18 天津大学 一种基于lstm网络的多标签视频事件检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330920A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于深度学习的监控视频多目标追踪方法
CN107515856A (zh) * 2017-08-30 2017-12-26 哈尔滨工业大学 一种基于局部信息表示的细粒度情感元素抽取方法

Also Published As

Publication number Publication date
CN108520530A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108520530B (zh) 基于长短时记忆网络的目标跟踪方法
Chen et al. Once for all: a two-flow convolutional neural network for visual tracking
Molchanov et al. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network
CN109598684B (zh) 结合孪生网络的相关滤波跟踪方法
CN110197502B (zh) 一种基于身份再识别的多目标跟踪方法及***
CN104200237B (zh) 一种基于核化相关滤波高速自动多目标跟踪方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
Ridge et al. Self-supervised cross-modal online learning of basic object affordances for developmental robotic systems
KR102132722B1 (ko) 영상 내 다중 객체 추적 방법 및 시스템
Zulkifley Two streams multiple-model object tracker for thermal infrared video
Belgacem et al. Gesture sequence recognition with one shot learned CRF/HMM hybrid model
Gupta et al. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural networks
Huang et al. Deepfinger: A cascade convolutional neuron network approach to finger key point detection in egocentric vision with mobile camera
CN111127519B (zh) 一种双模型融合的目标跟踪控制***及其方法
Du et al. Object-adaptive LSTM network for real-time visual tracking with adversarial data augmentation
Li et al. Robust object tracking with discrete graph-based multiple experts
CN107657627B (zh) 基于人脑记忆机制的时空上下文目标跟踪方法
Deotale et al. HARTIV: Human Activity Recognition Using Temporal Information in Videos.
Zhang et al. Residual memory inference network for regression tracking with weighted gradient harmonized loss
CN109272036B (zh) 一种基于深度残差网络的随机蕨目标跟踪方法
DelRose et al. Evidence feed forward hidden Markov model: A new type of hidden Markov model
Mumuni et al. Robust appearance modeling for object detection and tracking: a survey of deep learning approaches
Maiettini et al. Weakly-supervised object detection learning through human-robot interaction
Du et al. Object-adaptive LSTM network for visual tracking
Zhang et al. Loop closure detection based on generative adversarial networks for simultaneous localization and mapping systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant