CN110120065B - 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及*** - Google Patents

一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及*** Download PDF

Info

Publication number
CN110120065B
CN110120065B CN201910410309.0A CN201910410309A CN110120065B CN 110120065 B CN110120065 B CN 110120065B CN 201910410309 A CN201910410309 A CN 201910410309A CN 110120065 B CN110120065 B CN 110120065B
Authority
CN
China
Prior art keywords
layer
target
convolution
frame
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910410309.0A
Other languages
English (en)
Other versions
CN110120065A (zh
Inventor
胡栋
张碧秋
庞雨薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910410309.0A priority Critical patent/CN110120065B/zh
Publication of CN110120065A publication Critical patent/CN110120065A/zh
Application granted granted Critical
Publication of CN110120065B publication Critical patent/CN110120065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***,该方法通过减少各卷积层的滤波器个数对VGG‑Net‑19网络进行结构调整,使用其中的1、4、5层提取的特征代替取代原相关滤波器框架中的HOG特征提取部分。然后分别以三个层次进行后续处理后进行加权融合,得到跟踪结果。然后利用边缘框算法检测出目标可能位置的候选框,基于完全包含在候选边界框中的轮廓来计算候选框得分,保留一定数量的得分较高的候选框并与相关滤波器作卷积操作,具有最大响应值的候选框大小即为目标大小,以此实现目标跟踪的尺度自适应。

Description

一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪 方法及***
技术领域
本发明涉及卷积神经网络和核相关滤波目标跟踪技术领域,具体涉及一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***。
背景技术
目标跟踪是视频分析的核心问题之一,在视频监控、人机交互、虚拟现实等领域有广泛的应用。虽然在过去几十年来该技术的研究取得了很大的进展,但由于应用中存在尺度变化、光照变化、快速运动、部分遮挡、背景复杂等多种因素,寻求快速稳定、适合对象变化的跟踪方法始终是一个挑战。
近年来,基于检测的跟踪(tracking-by-detection)是一种典型的目标跟踪模式。这种跟踪模式集在线学习与模板更新于一体,并从检测中获得新的位置信息。但这种模式需要在目标邻域内收集很多样本模板,而这些模板有很大一部分是重叠的,从而造成很高的冗余计算。为此,研究人员提出了基于循环核结构(CSK:Circulant Structure withKernels)的跟踪算法,有效提高了运算效率,并在此基础上进一步发展出核相关滤波(KCF:Kernel Correlation Filter)目标跟踪技术。典型的KCF用到了HOG特征,将单通道转换成了多通道,获得了目标跟踪鲁棒性和准确性提升,成为目前一类具有代表意义和应用前景的目标跟踪技术。
目前,对KCF目标跟踪的改进成为关注的热点之一,主要侧重于深度特征与KCF 的方法,以进一步提高精度和对目标尺度变化的适应性。例如,一种为基于分层卷积特征的视觉跟踪[Ma C,Huang J B,Yang X,etal.Hierarchical Convolutional Features forVisual Tracking[C].2015IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2015:111-121.],该方法是用预先训练的卷积神经网络提取卷积特征,然后使用相关滤波器确定最终的边界框,但是网络结构复杂,计算量大,导致跟踪速度低且尺度自适应受限。另一种为判别尺度空间跟踪[Danelljan M,Hager G,Khan F S,etal. Discriminative Scale Space Tracking[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,39(8):1561-1575.],该方法分为位置滤波器和尺度滤波器,位置滤波器用于确定目标在下一帧的位置,尺度滤波器用于确定尺度信息。该方法需要额外训练一个滤波器,每帧尺度检测需要采样33个图像块,且这33个尺度非常敏感,得到的尺度不够精确。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法,该方法可以解决现有技术中神经网络中网络结构复杂,计算量大,导致跟踪速度低以及KCF无法适应目标尺度变化的问题,另一方面,本发明还提供一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪***。
技术方案:本发明所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法,该方法包括:
第一阶段,对VGGNet19网络结构进行训练;
第二阶段,对VGGNet19网络每层卷积层的滤波器进行训练;具体包括:
(1)给定首帧图像的初始目标框、目标中心以及目标大小,以所述目标中心为中心截取第一图像块;
(2)利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征,并根据所述第一卷积层特征得到各层对应的相关滤波器;
(3)对第一图像块提取HOG特征,将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本,并得到用于尺度估计的滤波器;
(4)读取下一帧图像,以所述目标中心为中心截取第二图像块;对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征,并分别计算对应卷积层的响应得分;
(5)分别对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分;
(6)在以该帧图像的目标预测位置为中心,第二图像块上执行边缘框算法,得到按其得分排序的多个候选框,并对多个候选框进行过滤,进而得到候选目标中的最大响应值;
(7)根据最大响应得分和最大响应值更新目标大小;
(8)判断当前帧是否为最后一帧,若是,则结束,否则转步骤(4)。
进一步的,包括:
该方法还包括首先将所述将VGGNet19网络进行改进,将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。
进一步的,包括:
所述对VGGNet19网络进行训练具体包括:训练设置各项参数后,利用小批量梯度下降优化多项逻辑回归目标,有动量地进行的训练;所述参数包括批量大小、动量、丢失率以及学习率。
进一步的,包括:
所述步骤(5)中,对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分,具体包括:
(51)表示第p-1层中目标的最佳位置:
argmaxm,n fp-1(m,n)+γfp(m,n)
Figure BDA0002062607630000031
其中,m和n分别表示基样本横坐标和纵坐标移动的位数,
Figure BDA0002062607630000032
表示第p层上最大值的位置,fp(m,n)表示第p层卷积层对应的响应得分,fp-1(m,n)表示第p-1层卷积层对应的响应得分,约束表示在第p-1层相关响应图中仅搜索以
Figure BDA0002062607630000033
为中心,r为半径的区域,1<p≤3,γ为系数;
(52)将来自后一层的响应值加权作为正则化项,然后反向传播到前一层的最佳位置处,以这种方式逐层传递,直到最后一层的响应图中的最大值处就是目标的预测位置,并通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到最大的响应得分fp
一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪***,包括:
网络训练模块,用于对VGGNet19网络结构进行训练;
滤波器训练模块,用于对VGGNet19网络每层卷积层的滤波器进行训练,包括:
第一图像块截取单元,用于根据给定首帧图像的初始目标框、目标中心以及目标大小,以所述目标中心为中心截取第一图像块;
特征提取单元,用于利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征,并根据所述第一卷积层特征得到各层对应的相关滤波器;
滤波器训练单元,用于对第一图像块提取HOG特征,将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本,并得到用于尺度估计的滤波器;
响应得分计算单元,用于读取下一帧图像,以所述目标中心为中心截取第二图像块;对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征,并分别计算对应卷积层的响应得分;
最大响应得分计算单元,用于分别对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分;
最大响应值计算单元,用于在以该帧图像的目标预测位置为中心,第二图像块上执行边缘框算法,得到按其得分排序的多个候选框,并对多个候选框进行过滤,进而得到候选目标中的最大响应值;
目标更新单元,用于根据最大响应得分和最大响应值更新目标大小;
判断单元,用于判断当前帧是否为最后一帧,若是,则结束,否则转所述响应得分计算单元。
进一步的,包括:
所述网络训练模块还包括首先将所述将VGGNet19网络进行改进,将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。
进一步的,包括:
所述网络训练模块中,对VGGNet19网络进行训练具体包括:训练设置各项参数后,利用小批量梯度下降优化多项逻辑回归目标,有动量地进行的训练;所述参数包括批量大小、动量、丢失率以及学习率。
进一步的,包括:
所述最大响应得分计算单元中,对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分,具体包括:
(51)表示第p-1层中目标的最佳位置:
argmaxm,n fp-1(m,n)+γfp(m,n)
Figure BDA0002062607630000041
其中,m和n分别表示基样本横坐标和纵坐标移动的位数,
Figure BDA0002062607630000042
表示第p层上最大值的位置,fp(m,n)表示第p层卷积层对应的响应得分,fp-1(m,n)表示第p-1层卷积层对应的响应得分,约束表示在第p-1层相关响应图中仅搜索以
Figure BDA0002062607630000051
为中心,r为半径的区域,1<p≤3,γ为系数;
(52)将来自后一层的响应值加权作为正则化项,然后反向传播到前一层的最佳位置处,以这种方式逐层传递,直到最后一层的响应图中的最大值处就是目标的预测位置,并通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到最大的响应得分fp
有益效果:本发明与现有技术相比,其显著优点是:1、本发明通过减少各卷积层的滤波器个数对VGG-Net-19网络进行结构调整,利用预训练的网络提取Conv1-2、 Conv4-4、Conv5-4卷积层的特征用于核相关滤波目标跟踪中,该种结构对原来的卷积特征进行了降维,提高了追踪速度;2、本发明将利用边缘框(Edge Boxes)算法检测出目标可能位置的候选框,基于完全包含在候选边界框中的轮廓来计算候选框得分,保留一定数量的得分较高的候选框并与相关滤波器作卷积操作,具有最大响应值的候选框大小即为目标大小,并使用阻尼因子更新目标尺度。既能够精确跟踪目标,又能有效地提高跟踪速度,且能实现自适应目标尺度变化。
附图说明
图1为本发明实施例所述的方法流程图;
图2为本发明所用卷积神经网络结构图;
图3a- 图 3b 为各层特征跟踪性能对比图;
图4a- 图 4d 为跟踪性能对比图;
图5a- 图 5d 为部分跟踪结果效果图;
图6 a- 图 6d 为部分跟踪结果效果图;
图7为本发明实施例中电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于分层卷积特征和尺度自适应核相关滤波(HierarchicalConvolution Feature and Scale-adaptive Kernel Correlation Filter)的目标跟踪方法,本方法将跟踪过程分为目标位置估计和目标尺度估计两个部分。VGG网络减少卷积层滤波器数目,用此VGG网络进行特征提取,使用其中的1、4、5层提取的特征代替取代原相关滤波器框架中的HOG特征提取部分。然后分别以三个层次进行后续处理后进行加权融合,得到跟踪结果。然后利用边缘框(Edge Boxes)算法检测出目标可能位置的候选框,基于完全包含在候选边界框中的轮廓来计算候选框得分,保留一定数量的得分较高的候选框并与相关滤波器作卷积操作,具有最大响应值的候选框大小即为目标大小,以此实现目标跟踪的尺度自适应。
参阅图1所示,为本发明实施例中一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法,包括:
步骤1、调整VGGNet19网络结构并训练:
结构调整:相比于原始结构,将每层卷积层滤波器的数目减少为原来的一半,则卷积层提取出的特征通道数目相应减少二倍,特征的尺度保持不变。这种结构调整,相当于对原来的卷积特征进行降维,降低卷积特征的深度。
训练过程:训练是利用小批量梯度下降(基于反向传播)优化多项逻辑回归目标,并利用traingdm函数有动量地进行的,批量大小设置为256,动量为0.9,训练正则项所乘的参数设置为5×10-4,丢失率设为0.5,学习率设为10-2
步骤2、读取首帧图像,并进行初始训练,具体步骤如下:
(a)给定首帧图像的初始目标框(μ,ν,w,h),其中,目标中心为pos1(μ,ν)和目标大小为target_sz(w,h),以pos1(μ,ν)为中心截取W×H大小的第一图像块patch1。
(b)对第一图像块patch1利用预训练的网络提取Conv1-2、Conv4-4、Conv5-4卷积层特征,每一个卷积层都能提取出多通道的高维特征X,设X是第l层的大小为M× N×D的特征向量,其中M,N和D分别表示宽度,高度和特征维度。这里简洁地将x(l)表示为x并忽略层索引l上的M,N和D。将特征X的所有循环移位得到的虚拟样本作为训练样本,代入式(1)
Figure BDA0002062607630000061
并进行傅里叶变换得到各层对应的相关滤波器wl,式(1)中W为相关滤波器,X 为训练样本,y为训练样本对应的高斯分布标签。
(c)对第一图像块patch1提取HOG特征H,将特征H的所有循环移位得到的虚拟样本作为训练样本,代入式(1)并进行傅里叶变换得到用于尺度估计的滤波器wd
步骤3、读取下一帧,以目标中心pos1(μ,ν)为中心截取W×H大小的第二图像块patch2,对第二图像块patch2用式(2)进行特征提取:
Figure RE-GDA0002102484960000071
上式中,插值权值αik分别取决于i和k个相邻特征向量的位置,此插值发生在空间域,通过空间插值提取Conv1-2、Conv4-4、Conv5-4卷积层特征,对于每个层l,用wl和式(4)计算响应得分fl
步骤4、用式(3)对三个响应得分进行加权融合,融合后最大得分所在位置便是目标预测位置pos2(μ′,ν′),通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到的最大响应得分记为fp
Figure RE-GDA0002102484960000072
约束表示在第(l-1)相关响应图中仅搜索以
Figure BDA0002062607630000073
为中心,r为半径的区域。
步骤5、然后在以目标预测位置pos2(μ′,ν′)为中心,大小为sew×seh的第二图像块patch2上执行边缘框算法,se为缩放因子且se>1。边缘框算法的输出可以是按其分数排序的多个边界框,只采取了分数最高的前200个候选框,并进一步对这些候选框过滤,过滤方法为:对于每一个候选框,如果它与当前检测到的目标(以pos2(μ′,ν′)为中心,大小为wi-1×hi-1的边框)之间的IoU大于0.9或者小于0.6,则过滤掉该候选框,高于上阈值0.9的候选框与当前检测到的目标几乎相同,而低于下阈值0.6的候选框中很可能是错误的目标或包含除了目标之外的其他目标。
步骤6、目标就包含在余下的候选框中,对于这些候选框与wd作卷积操作,得到响应图,候选目标中的最大响应值fmax=max(fmax,1,fmax,2,...,fmax,n),目标大小即为最大响应值对应的目标候选框大小,记为
Figure BDA0002062607630000081
步骤7、尺度更新,即:
Figure BDA0002062607630000082
步骤8、判断当前帧是否为最后一帧,若是,则结束,否则转步骤3。
为使本发明的目的、实现方案和优点更为清晰,下面以公开测试集OTB Benchmark中的序列Singer1为例,对本发明的具体实施结合附图说明作进一步的详细描述,具体阐述如下:
调整VGG网络的训练函数的卷积层滤波器参数,减少为原来的一半,并利用ImageNet数据集进行训练,得到改进的网络模型参数,改进后的网络结构如图2所示。
用改进的网络分别提取分别各层特征并用于相关滤波目标跟踪中,C1、C2、C3、C4、C5为VGG网络提取的1至5层单层特征用于KCF的跟踪方法,将这些方法在OTB Benchmark2013中与其他流行算法进行比较,得到平均OPE(One-Pass Evaluation)精度图如图3a,以及在低分辨率的视频序列中的OPE精度图如图3b所示,横坐标为位置误差阈值,纵坐标为准确度。比较分析后,选取Conv1-2、Conv4-4、Conv5-4层卷积特征。
在Singer1的第一帧给定初始目标框,设为:(48,98,40,142),其中初始目标中心为pos1(48,98)且目标大小target_sz为40×142,目标中心搜索区域window_sz为 40×142。
对于训练模块,从第1帧图像中以pos1为中心截取window_sz大小的图像块patch1(40×142)。对patch1利用预训练的网络提取Conv1-2、Conv4-4、Conv5-4卷积层特征,将各层特征的所有循环移位得到的虚拟样本作为训练样本,代入式(1)并进行傅里叶变换得到各层对应的相关滤波器wl
对patch1提取HOG特征H,将特征H的所有循环移位得到的虚拟样本作为训练样本,代入式(1)并进行傅里叶变换得到用于尺度估计的滤波器wd
读取下一帧,pos1(48,98)为中心截取window_sz大小(40×142)的第二图像块patch2(110×357),对第二图像块patch2用式(2)通过空间插值提取Conv1-2、Conv4-4、Conv5-4卷积层特征,对于每层卷积层,用wl和式(4)计算响应得分fl
Figure RE-GDA0002102484960000091
其中,⊙为Hadamard积,即元素相乘;Wd表示第d个信道上的滤波器,Zd表示第d个信道上的特征向量,D为信道总数,d∈{1,...,D}。
由粗到精的位置估计:得到三组相关响应图,分层地推断每一层的目标位置,即后一层中最大值的位置用作正则化来搜索较前层的最大值。
Figure BDA0002062607630000092
表示第l层上最大值的位置,m和n分别表示基样本横坐标和纵坐标移动的位数,则第p-1层中目标的最佳位置表示为:
argmaxm,n fp-1(m,n)+γfp(m,n)
Figure BDA0002062607630000093
约束表示在第p-1层相关响应图中仅搜索以
Figure BDA0002062607630000094
为中心,r为半径的区域, 1<p≤3,γ为系数,fp(m,n)表示第p层卷积层对应的响应得分,fp-1(m,n)表示第p-1 层卷积层对应的响应得分。
来自后一层的响应值加权作为正则化项,然后反向传播到前一层的响应图中。以这种方式逐层传递,直到最后一层的响应图中的最大值处就是目标的预测位置。
在实验中,观察到跟踪结果对邻域搜索约束的参数r不敏感,这相当于计算来自多个层的响应图的加权平均值,以推断目标预测位置,如下所示:
Figure BDA0002062607630000095
融合后最大得分所在位置便是目标预测位置pos2(48,98),最大响应得分 fp=0.87。
然后在以pos2(48,98)为中心,大小为60×213的图像块patch2上执行Edge Boxes算法。首先基于结构化边缘检测算法计算图像中每个像素的边缘响应,然后用非极大值抑制(Non-Maximum Suppression,简称NMS)进一步处理得到一个相对稀疏的边缘图像,每个像素p具有边缘幅度mp和方向θp,边缘被定义为具有mp>0.1的像素,轮廓被定义为一组形成连贯边界、曲线或直线的边,该算法由边界框完全包围的边数表示包含目标的框的可能性。使用高效的数据结构和智能搜索策略,可以快速找到目标大概可能的位置。
Edge Boxes算法的输出可以是按其分数排序的多个边界框,只采取了分数最高的前 200个候选框,并进一步对这些候选框过滤,过滤方法为:对于每一个候选框,如果它与当前检测到的目标,即以pos2(48,98)为中心,大小为40×142的边框之间的IoU大于 0.9或者小于0.6,则过滤掉该候选框,高于上阈值0.9的候选框与当前检测到的目标几乎相同,而低于下阈值0.6的候选框中很可能是错误的目标或包含除了目标之外的其他目标。
目标就包含在余下的候选框中,对于这些候选框与用于尺度估计的滤波器wd作卷积操作,得到响应图,候选目标中的最大响应值fmax=max(fmax,1,fmax,2,...,fmax,n)=0.91,目标大小即为最大响应值对应的目标候选框大小(39.8247×141.6958)。
由于fmax大于fp,使用阻尼因子γ=0.5更新位置和大小,更新后的目标大小为(39.91235×141.8479)。
为验证本发明方法的效果,进行了以下验证实验:
本发明采用OTB(Online Tracking Benchmark)平台上的50个公认的、已标注的视频序列来进行测试,它们模拟真实场景中的各种情况,包含光照变化、尺度变换、部分或严重遮挡、形变等。表1为本发明实验的硬件及软件仿真环境。
表1实验的硬件及软件仿真环境
Figure BDA0002062607630000101
Figure BDA0002062607630000111
在OTB测试平台上,主要有两种评价标准:精确度(Precision Plot)和成功率(Success Plot)。
在跟踪过程中,算法估计的目标位置称之为预测值,人工标注的目标位置称之为真实值,两者之间差值小于给定阈值的帧数占总帧的百分比,称之为精确度,一般来说阈值设定为20个像素。给定的阈值不同,通常得到的精确度也不一样,将所有情况的精确度结合起来便可以拟合成一条曲线。
为了方便起见,将算法跟踪结果记为BT,真实目标框记为BG,面积统计函数记为Area(),那么跟踪覆盖率为:
Figure BDA0002062607630000112
在视频帧中,如果覆盖率大于给定阈值,则目标被成功跟踪,而成功跟踪帧占总帧的百分比,称之为成功率,一般来说阈值设定为0.5。给定的阈值不同,通常得到的成功率也不一样,将所有情况的成功率结合起来便可以绘制成一条曲线。
综上所述,精确度和成功率越高,目标跟踪的性能越好。
而评价跟踪效率的标准采用每秒的处理帧数(帧/秒),算法每秒处理的帧数越多,说明跟踪实时性越好。
如图4a- 图 4d 所示,是对OTB中的根据50个视频序列的运行结果显示,横坐标为位置误差阈值(Location error threshold),纵坐标为准确度(Precision)。除了本发明算法外,还有4个比较算法,它们均由OTB平台提供。实验结果表明,本发明方法在平均准确度和平均成功率都取得了很好的效果,如(a)、(b)所示。具体来说,平均准确性达到了83.8%,相比于HCF提高了2.9%,平均成功率达到了60.9%,相比于HCF提高了 1.2%,说明本文算法鲁棒性更好。由(c)、(d)可知,本文算法在28个尺度变化视频序列中相比于其他算法,得到了较好的跟踪结果,其平均准确性提升了6.7%,平均成功率提升了8.1%,说明本文算法能更好地适应目标尺度的变化。同时在运行效率上,本发明方法可以达到15.1帧/秒的平均速度,相比于HCF算法提高了4.7帧/秒。
图 5a- 图 5d 和图 6a- 图 6d 为本发明针对不同视频序列运行结果的部分跟踪效果图。图 5a- 图 5d 和图 6a- 图 6d 中,区域A为本发明算法的跟踪框,区域B为原始HCF算法的跟踪框,区域C为Stuck 算法的跟踪框,区域D为KCF算法的跟踪框,区域E为CT算法的跟踪框。由图可知,三个视频序列都存在明显的尺度变化,CarScale序列中,目标逐渐靠近摄像头,尺度越来越大,第244帧,HCF、CT、Stuck和KCF都只跟踪到目标的一小部分,本文算法能较好的实现目标尺度变化自适应。
基于上述实施例,本发明实施例中,基于分层卷积特征和尺度自适应核相关滤波的目标跟踪***,包括:
网络训练模块,用于对VGGNet19网络结构进行训练;
滤波器训练模块,用于对VGGNet19网络每层卷积层的滤波器进行训练,包括:
第一图像块截取单元,用于根据给定首帧图像的初始目标框、目标中心以及目标大小,以所述目标中心为中心截取第一图像块;
特征提取单元,用于利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征,并根据所述第一卷积层特征得到各层对应的相关滤波器;
滤波器训练单元,用于对第一图像块提取HOG特征,将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本,并得到用于尺度估计的滤波器;
响应得分计算单元,用于读取下一帧图像,以所述目标中心为中心截取第二图像块;对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征,并分别计算对应卷积层的响应得分;
最大响应得分计算单元,用于分别对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分;
最大响应值计算单元,用于在以该帧图像的目标预测位置为中心,第二图像块上执行边缘框算法,得到按其得分排序的多个候选框,并对多个候选框进行过滤,进而得到候选目标中的最大响应值;
目标更新单元,用于根据最大响应得分和最大响应值更新目标大小;
判断单元,用于判断当前帧是否为最后一帧,若是,则结束,否则转所述响应得分计算单元。
进一步的,包括:
所述网络训练模块还包括首先将所述将VGGNet19网络进行改进,将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半。
进一步的,包括:
所述网络训练模块中,对VGGNet19网络进行训练具体包括:训练设置各项参数后,利用小批量梯度下降优化多项逻辑回归目标,有动量地进行的训练;所述参数包括批量大小、动量、丢失率以及学习率。
进一步的,包括:
所述最大响应得分计算单元中,对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分,具体包括:
(51)表示第p-1层中目标的最佳位置:
argmaxm,n fp-1(m,n)+γfp(m,n)
Figure BDA0002062607630000131
其中,m和n分别表示基样本横坐标和纵坐标移动的位数,
Figure BDA0002062607630000132
表示第p层上最大值的位置,fp(m,n)表示第p层卷积层对应的响应得分,fp-1(m,n)表示第p-1层卷积层对应的响应得分,约束表示在第p-1层相关响应图中仅搜索以
Figure BDA0002062607630000133
为中心,r为半径的区域,1<p≤3,γ为系数;
(52)将来自后一层的响应值加权作为正则化项,然后反向传播到前一层的最佳位置处,以这种方式逐层传递,直到最后一层的响应图中的最大值处就是目标的预测位置,并通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到最大的响应得分fp
参阅图7所示,本发明实施例中,一种电子设备结构示意图。
本发明实施例提供了一种电子设备,该电子设备可以包括处理器310(CenterProcessing Unit,CPU)、存储器320、输入设备330和输出设备340等,输入设备330 可以包括键盘、鼠标、触摸屏等,输出设备340可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器320可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器310提供存储器320中存储的程序指令和数据。在本发明实施例中,存储器320可以用于存储上述基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法的程序。
处理器310通过调用存储器320存储的程序指令,处理器310用于按照获得的程序指令执行上述任一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法的步骤。
基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法,其特征在于,该方法包括:
第一阶段,对VGGNet19网络结构进行训练;
第二阶段,对VGGNet19网络每层卷积层的滤波器进行训练;具体包括:
(1)给定首帧图像的初始目标框、目标中心以及目标大小,以所述目标中心为中心截取第一图像块;
(2)利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征,并根据所述第一卷积层特征得到各层对应的相关滤波器,改进VGGNet19网络为:将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半;
(3)对第一图像块提取HOG特征,将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本,并得到用于尺度估计的滤波器;
(4)读取下一帧图像,以所述目标中心为中心截取第二图像块;对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征,并分别计算对应卷积层的响应得分;
(5)分别对三层卷积层得到的响应得分进行加权融合,得到最大响应得分;
(6)在以该帧图像的目标预测位置为中心,第二图像块上执行边缘框算法,得到按其得分排序的多个候选框,并对多个候选框进行过滤,进而得到候选目标中的最大响应值;
(7)根据最大响应得分和最大响应值更新目标大小;
(8)判断当前帧是否为最后一帧,若是,则结束,否则转步骤(4)。
2.根据权利要求1所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法,其特征在于,所述对VGGNet19网络进行训练具体包括:训练设置各项参数后,利用小批量梯度下降优化多项逻辑回归目标,有动量地进行的训练;所述参数包括批量大小、动量、丢失率以及学习率。
3.根据权利要求1所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法,其特征在于,步骤(5)中,对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分,具体包括:
(51)表示第p-1层中目标的最佳位置:
arg maxm,nfp-1(m,n)+γfp(m,n)
Figure FDA0003685078770000021
其中,m和n分别表示基样本横坐标和纵坐标移动的位数,
Figure FDA0003685078770000022
表示第p层上最大值的位置,fp(m,n)表示第p层卷积层对应的响应得分,fp-1(m,n)表示第p-1层卷积层对应的响应得分,约束表示在第p-1层相关响应图中仅搜索以
Figure FDA0003685078770000023
为中心,r为半径的区域,1<p≤3,γ为系数;
(52)将来自后一层的响应值加权作为正则化项,然后反向传播到前一层的最佳位置处,以这种方式逐层传递,直到最后一层的响应图中的最大值处就是目标的预测位置,并通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到最大的响应得分fp
4.一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪***,其特征在于,包括:
网络训练模块,用于对VGGNet19网络结构进行训练;
滤波器训练模块,用于对VGGNet19网络每层卷积层的滤波器进行训练,包括:
第一图像块截取单元,用于根据给定首帧图像的初始目标框、目标中心以及目标大小,以所述目标中心为中心截取第一图像块;
特征提取单元,用于利用训练后的改进VGGNet19网络对第一图像块分别提取第一层卷积层、第四层卷积层以及第五层卷积层中的第一卷积层特征,并根据所述第一卷积层特征得到各层对应的相关滤波器,改进VGGNet19网络为:将所述VGGNet19网络的每层卷积层滤波器的数目减少为原来的一半;
滤波器训练单元,用于对第一图像块提取HOG特征,将所述HOG特征的所有循环移位得到的虚拟样本作为训练样本,并得到用于尺度估计的滤波器;
响应得分计算单元,用于读取下一帧图像,以所述目标中心为中心截取第二图像块;对所述第二图像块通过空间插值提取第一层卷积层、第四层卷积层以及第五层卷积层中的第二卷积层特征,并分别计算对应卷积层的响应得分;
最大响应得分计算单元,用于分别对三层卷积层得到的响应得分进行加权融合,得到最大响应得分;
最大响应值计算单元,用于在以该帧图像的目标预测位置为中心,第二图像块上执行边缘框算法,得到按其得分排序的多个候选框,并对多个候选框进行过滤,进而得到候选目标中的最大响应值;
目标更新单元,用于根据最大响应得分和最大响应值更新目标大小;
判断单元,用于判断当前帧是否为最后一帧,若是,则结束,否则转所述响应得分计算单元。
5.根据权利要求4所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪***,其特征在于,所述网络训练模块中,对VGGNet19网络进行训练具体包括:训练设置各项参数后,利用小批量梯度下降优化多项逻辑回归目标,有动量地进行的训练;所述参数包括批量大小、动量、丢失率以及学习率。
6.根据权利要求4所述的基于分层卷积特征和尺度自适应核相关滤波的目标跟踪***,其特征在于,所述最大响应得分计算单元中,对所述三层卷积层得到的响应得分进行加权融合,得到最大响应得分,具体包括:
(51)表示第p-1层中目标的最佳位置:
arg maxm,nfp-1(m,n)+γfp(m,n)
Figure FDA0003685078770000031
其中,m和n分别表示基样本横坐标和纵坐标移动的位数,
Figure FDA0003685078770000032
表示第p层上最大值的位置,fp(m,n)表示第p层卷积层对应的响应得分,fp-1(m,n)表示第p-1层卷积层对应的响应得分,约束表示在第p-1层相关响应图中仅搜索以
Figure FDA0003685078770000033
为中心,r为半径的区域,1<p≤3,γ为系数;
(52)将来自后一层的响应值加权作为正则化项,然后反向传播到前一层的最佳位置处,以这种方式逐层传递,直到最后一层的响应图中的最大值处就是目标的预测位置,并通过将该层的特征向量与学习的线性相关滤波器w(i)进行卷积计算得到最大的响应得分fp
CN201910410309.0A 2019-05-17 2019-05-17 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及*** Active CN110120065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910410309.0A CN110120065B (zh) 2019-05-17 2019-05-17 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910410309.0A CN110120065B (zh) 2019-05-17 2019-05-17 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***

Publications (2)

Publication Number Publication Date
CN110120065A CN110120065A (zh) 2019-08-13
CN110120065B true CN110120065B (zh) 2022-08-26

Family

ID=67522587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910410309.0A Active CN110120065B (zh) 2019-05-17 2019-05-17 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***

Country Status (1)

Country Link
CN (1) CN110120065B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689557A (zh) * 2019-09-21 2020-01-14 天津大学 一种基于kcf的改进型抗遮挡目标跟踪方法
CN110661977B (zh) * 2019-10-29 2021-08-03 Oppo广东移动通信有限公司 主体检测方法和装置、电子设备、计算机可读存储介质
CN111354022B (zh) * 2020-02-20 2023-08-22 中科星图股份有限公司 基于核相关滤波的目标跟踪方法及***
CN112348847B (zh) * 2020-10-26 2023-08-15 南京邮电大学 一种目标尺度自适应跟踪方法
CN112762841A (zh) * 2020-12-30 2021-05-07 天津大学 一种基于多分辨率深度特征的桥梁动位移监测***及方法
CN113298142B (zh) * 2021-05-24 2023-11-17 南京邮电大学 一种基于深度时空孪生网络的目标跟踪方法
CN113658217B (zh) * 2021-07-14 2024-02-23 南京邮电大学 一种自适应目标跟踪方法、装置及存储介质
CN114708300A (zh) * 2022-03-02 2022-07-05 北京理工大学 一种可抗遮挡的自适应目标跟踪方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818575A (zh) * 2017-10-27 2018-03-20 深圳市唯特视科技有限公司 一种基于分层卷积的视觉对象跟踪方法
US20190073553A1 (en) * 2016-02-17 2019-03-07 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
CN109741366A (zh) * 2018-11-27 2019-05-10 昆明理工大学 一种融合多层卷积特征的相关滤波目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190073553A1 (en) * 2016-02-17 2019-03-07 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
CN107818575A (zh) * 2017-10-27 2018-03-20 深圳市唯特视科技有限公司 一种基于分层卷积的视觉对象跟踪方法
CN109741366A (zh) * 2018-11-27 2019-05-10 昆明理工大学 一种融合多层卷积特征的相关滤波目标跟踪方法

Also Published As

Publication number Publication date
CN110120065A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110120065B (zh) 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及***
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN110084836B (zh) 基于深度卷积特征分层响应融合的目标跟踪方法
CN107424177A (zh) 基于连续相关滤波器的定位修正长程跟踪算法
CN110490073A (zh) 目标检测方法、装置、设备及存储介质
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN113052873B (zh) 一种在线自监督学习场景适应的单目标跟踪方法
CN110956126A (zh) 一种联合超分辨率重建的小目标检测方法
CN112348849A (zh) 一种孪生网络视频目标跟踪方法及装置
CN111091101B (zh) 基于一步法的高精度行人检测方法、***、装置
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及***
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及***
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN115239760B (zh) 一种目标跟踪方法、***、设备及存储介质
CN112149665A (zh) 一种基于深度学习的高性能多尺度目标检测方法
CN112258557A (zh) 一种基于空间注意力特征聚合的视觉跟踪方法
CN112164093A (zh) 一种基于边缘特征和相关滤波的人物自动跟踪方法
CN117495735A (zh) 一种基于结构引导的建筑物立面纹理自动修复方法及***
CN108154513A (zh) 基于双光子成像数据的细胞自动探测和分割方法
CN110827327B (zh) 一种基于融合的长期目标跟踪方法
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
CN109858326A (zh) 基于类别语义弱监督的在线视觉跟踪方法及***
CN111027551B (zh) 图像处理方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant