CN111145221A

CN111145221A - 一种基于多层深度特征提取的目标跟踪算法

Info

Publication number: CN111145221A
Application number: CN201911419269.2A
Authority: CN
Inventors: 许廷发; 吴零越; 吴凡; 张语珊
Original assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Current assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本发明公开了一种基于多层深度特征提取的目标跟踪算法，涉及图像处理技术领域，包括如下步骤，S1：图像输入；S2：提取特征图；S3：获取最佳匹配模板；S4：更新最佳匹配模板；S5：重复步骤S4，直到完成当前视频的目标跟踪；所述S2具体为，根据第一帧图像中目标的位置和尺寸信息，利用深度神经网络提取多层样本特征图，本发明利用深度神经网络提取多层深度特征作为样本的外观表达，来进行目标跟踪，以获取目标多层深度特征，减少了参数数量，提高了目标跟踪过程的准确性和鲁棒性。

Description

一种基于多层深度特征提取的目标跟踪算法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多层深度特征提取的目标跟踪算法。

背景技术

目标跟踪技术是近年来计算机视觉领域中的主要研究方向之一，广泛应用于自动驾驶、智能监控和人机交互等方面。目标跟踪主要是指根据视频第一帧给出的目标位置信息，在之后每一帧中找出该目标位置。

近年来，随着深度学习在计算机视觉方面的研究持续加深，利用深度神经网络与目标跟踪算法结合的目标跟踪算法研究也越来越多。

很多基于深度特征提取的算法，并没有从更深层的深度神经网络中取得优势，提取到的特征参数数量过大，更加大了过拟合的风险，从而降低了目标跟踪算法的跟踪准确率。

发明内容

本发明所要解决的技术问题是：如何减少参数数量，提高目标跟踪过程的准确性和鲁棒性。

针对上述技术问题本发明提供了一种基于多层深度特征提取的目标跟踪算法，包括如下步骤，

S1：图像输入；

S2：提取特征图；

S3：获取最佳匹配模板；

S4：更新最佳匹配模板；

S5：重复步骤S4，直到完成当前视频的目标跟踪；

所述S2具体为，根据第一帧图像中目标的位置和尺寸信息，利用深度神经网络提取多层样本特征图，通过深度神经网络的优势，获得了更精确的跟踪效果。

更进一步的，所述S1具体为，

输入需要进行跟踪的视频序列；

在第一帧图像中初始化目标的位置和尺寸信息。

更进一步的，所述S2还包括，对特征图进行自适应PCA处理，通过采取自适应的PCA算法来减少特征参数，能根据不同视频序列自适应地选取合适的特征维数，PCA选取有效的特征维数，能够减少参数，从而降低算法过拟合的风险，提高鲁棒性。

更进一步的，所述S3具体为，

以特征图目标中心为高斯标签峰值；

通过ADMM算法得到最佳匹配模板。

更进一步的，所述S4具体为，

S41：输入下一帧图像；

S42：获得多尺寸多层深度特征图；

S43：与最佳模板匹配，得到图像的目标位置和目标尺度；

S44：更新最佳匹配模板。

更进一步的，所述S42具体为，

以上一帧图像目标中心位置为中心，提取不同尺寸图像的样本特征图；

对特征图进行自适应PCA处理。

更进一步的，所述S43具体为，

将多尺寸特征图与最佳匹配模板进行相关匹配，得到多尺度的置信分数图；

选出置信分数最高的尺度对应的置信分数图；

以分数最高的置信分数图分数最高的点作为这一帧跟踪到的目标中心位置；

根据置信分数图对应的尺度因子得到这一帧目标的尺寸大小。

更进一步的，所述S44具体为，

根据这一帧获得的目标特征图，以目标中心为高斯标签峰值，利用上一帧的匹配模板进行在线被动攻击学习；通过利用上一帧的匹配模板进行在线被动攻击学习，能够在更新模板的同时保证本帧模板和上一帧模板的相似性，有效减少模板的漂移；

并通过ADMM算法更新最佳匹配模板，使得能快速高效地进行最佳模板的优化过程。

通过采用以上的技术方案，本发明的有益效果是：利用深度神经网络提取多层深度特征作为样本的外观表达，来进行目标跟踪，以获取目标多层深度特征，减少参数数量，提高目标跟踪过程的准确性和鲁棒性。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明基于多层深度特征提取的目标跟踪算法的流程图。

具体实施方式

为了更清楚地表明本发明的目的、技术方案及优点，以下结合附图及实施例，对本发明进行进一步详细说明，以便于本技术领域的技术人员理解本发明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，为本发明一种基于多层深度特征提取的目标跟踪算法的流程图，包括步骤如下：

S1、图像输入：输入需要进行跟踪的视频序列，在第一帧图像中初始化目标的位置、尺寸信息。

S2、提取特征：根据第一帧图像中目标的位置、尺寸信息，利用深度神经网络提取出多层样本特征，对特征图进行自适应PCA处理，减少参数。

S3、获取模板：根据经过处理的目标特征图，以目标中心为高斯标签峰值，通过ADMM算法优化计算得到最佳匹配模板。

S4、输入下一帧图像，以上一帧图像目标中心位置为中心，提取不同尺寸图像的样本特征图，对特征图进行自适应PCA处理。

S5、将匹配模板与多尺寸特征图进行相关匹配，得到多尺度的置信分数图，选出置信分数最高的尺度对应的置信分数图。

S6、S5中获得的置信分数图中，分数最高的点即为这一帧跟踪到的目标中心位置，根据置信分数图对应的尺度因子可以计算得到这一帧目标的尺寸大小。

S7、根据这一帧获得的目标特征图，以目标中心为高斯标签峰值，利用上一帧的匹配模板进行在线被动攻击学习，通过ADMM算法优化计算更新最佳匹配模板。

S8、重复S4到S7直到视频结束，完成当前视频的目标跟踪。

进一步地，所述S1中在需要进行跟踪的视频序列中，在第一帧图像中初始化需要跟踪目标的具体步骤如下：

输入视频的第一帧图像，输入目标位置，并且用矩形框显示。

进一步地，所述S2中的具体过程为：

利用深度神经网络，获得长和宽分别为M和N的D维目标样本的多层特征图x。利用D×C大小的矩阵P＝(p_d,c)将特征x转化为C维的P^Tx。

进一步地，所述S3中的具体过程为：

以目标中心为高斯标签峰值得到高斯标签y，通过ADMM算法优化下式计算得到最佳匹配模板f：

其中w为空间权重矩阵。

进一步地，所述S5中的具体过程为：

将经过PCA处理的特征图x与模板f进行相关匹配操作，得到置信分数图S_f(x)：

S_f(x)＝P^Tx*f

置信分数图S_f(x)中，分数最高的点即为这一帧跟踪到的目标中心位置，根据置信分数图对应的尺度因子可以计算得到这一帧目标的尺寸大小。

进一步地，所述S7中的具体过程为：

根据这一帧获得的目标特征图P^Tx，以目标中心为高斯标签峰值得到高斯标签y，利用上一帧的匹配模板f_t-1进行在线被动攻击学习，引入时间正则项，μ为时间正则参数，通过ADMM算法优化下式，更新最佳匹配模板f：

为了解上式，通过引入辅助变量g，将其转化为等约束优化形式：

s.t.f＝g

上式可以利用ADMM算法来进行迭代优化。将上式转化为增广拉格朗日形式：

其中h和γ分别是拉格朗日乘子和步长参数。上式可以转化为：

上式的封闭解可以通过迭代求解下面三个子问题来获得：

每个子问题的详细求解过程如下所示：

(1)子问题f的求解

根据Parseval定理，第一个子问题可以在频域中表示为：

考虑到在全通道的每个像素上的求解过程，可以将上式分解为MN个子问题，每一个可以定义成：

通过将上式对

的导数置零，可以解得

的封闭形式解：

由于

是秩1矩阵，则可以根据Sherman-Morrison公式所描述的

来快速计算

由此得到：

(2)子问题g的求解

根据第二个子问题g，可以解得g的封闭解：

g＝(W^TW+γI)^-1(γf+h)

其中W＝diag(w)表示对角矩阵。

(3)拉格朗日乘子更新

通过下式来更新拉格朗日乘子：

h⁽ⁱ⁺¹⁾＝h⁽ⁱ⁾+γ(f⁽ⁱ⁺¹⁾-g⁽ⁱ⁺¹⁾)

其中f⁽ⁱ⁺¹⁾和g⁽ⁱ⁺¹⁾都是目前第(i+1)次迭代中上述两个子问题获得的解。

步长参数更新方式如下：

γ⁽ⁱ⁺¹⁾＝min(γ_max,ργ⁽ⁱ⁾)

其中γ_max和ρ分别表示最大值和尺度参数。

本发明的跟踪模型是凸函数，满足Eckstein-Bertsekas条件。因此，它可以收敛到全局最优，并具有封闭形式的解。

进一步地，所述S8中的具体过程为：

对视频中的所有帧依次使用S2到S8进行处理，直至视频中的所有帧都完成了处理，既完成对本视频中目标的跟踪。

本发明的实验硬件环境为Intel i5 4570 CPU、16GB内存和NVIDIA GTX 1080GPU。软件环境为Windows7x64操作***和MATLAB2014b，使用MatConvNet和AutoNN工具箱。本发明和其他算法一起进行了测试。在本次测试中共使用了2个公开的计算机视觉测试视频来对算法进行验证。使用的公开视频主要信息如下表所示：

五种不同的跟踪算法对CarScale视频序列的跟踪结果表明，随着目标汽车的尺度不断变大，其他算法不能很好地适应目标尺度变化，而本发明的跟踪效果较好。

五种不同的跟踪算法对Skating2视频序列的跟踪结果表明，在目标不断快速运动、变形的过程中，其他算法不能准确地跟踪目标，而本发明能极好地适应目标形变，跟踪效果更好。

本发明利用深度神经网络提取出多层样本特征，充分利用了深度神经网络的优势；对特征图进行自适应PCA处理，减少参数，能根据不同视频序列自适应地选取合适的特征维数，从而降低算法过拟合的风险，提高鲁棒性，获得更精确的跟踪效果；利用上一帧的匹配模板进行在线被动攻击学习，能够在更新模板的同时保证本帧模板和上一帧模板的相似性，有效减少模板的漂移，最佳模板的优化过程采用ADMM算法快速高效地进行，提升了目标跟踪的准确性和鲁棒性。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于多层深度特征提取的目标跟踪算法，其特征在于：包括如下步骤，

S1：图像输入；

S2：提取特征图；

S3：获取最佳匹配模板；

S4：更新最佳匹配模板；

S5：重复步骤S4，直到完成当前视频的目标跟踪；

所述S2具体为，根据第一帧图像中目标的位置和尺寸信息，利用深度神经网络提取多层样本特征图。

2.根据权利要求1所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S1具体为，

输入需要进行跟踪的视频序列；

在第一帧图像中初始化目标的位置和尺寸信息。

3.根据权利要求1所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S2还包括，

对特征图进行自适应PCA处理。

4.根据权利要求1所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S3具体为，

以特征图目标中心为高斯标签峰值；

通过ADMM算法得到最佳匹配模板。

5.根据权利要求1所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S4具体为，

S41：输入下一帧图像；

S42：获得多尺寸多层深度特征图；

S43：与最佳匹配模板匹配，得到图像的目标位置和目标尺度；

S44：更新最佳匹配模板。

6.根据权利要求5所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S42具体为，

对特征图进行自适应PCA处理。

7.根据权利要求5所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S43具体为，

选出置信分数最高的尺度对应的置信分数图；

8.根据权利要求5所述的基于多层深度特征提取的目标跟踪算法，其特征在于：所述S44具体为，

根据这一帧获得的目标特征图，以目标中心为高斯标签峰值，利用上一帧的匹配模板进行在线被动攻击学习；

通过ADMM算法更新最佳匹配模板。