CN110569706A

CN110569706A - 一种基于时间和空间网络的深度集成目标跟踪算法

Info

Publication number: CN110569706A
Application number: CN201910546908.5A
Authority: CN
Inventors: 胡昭华; 陈胡欣; 李高飞
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-12-13

Abstract

本发明公开了一种基于时间和空间网络的深度集成目标跟踪算法，利用VGG‑16网络提取深度特征并得到特征映射图，构建由相关滤波网络、时间网络以及空间网络构成的深度网络，将特征映射图送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练模型，直到收敛为止，以前一帧预测的目标位置为中心在当前帧的图片中提取搜索块，用VGG‑16网络提取搜索块的特征送入与之对应训练好的模型中来生成响应映射，利用自适应权重的集成学习算法融合所有弱***得到最终的目标位置，采用尺度估计算法对目标大小进行预测，利用当前帧的搜索块和预测值组成训练对，输入到模型中进行在线更新。可以进一步提高算法的精确度。

Description

一种基于时间和空间网络的深度集成目标跟踪算法

技术领域

本发明图像处理和计算机视觉领域，尤其一种基于时间和空间网络的深度集成目标跟踪算法。

背景技术

视觉目标跟踪是计算机视觉领域中的一项基本问题，可广泛应用于车辆导航、视频监控、人机交互等许多实际***中。该问题的核心是如何利用极其有限的训练数据(通常是第一帧中的边界框)来开发出一个鲁棒的外观模型。在过去几十年里视觉目标跟踪技术取得了长足的进步，主要有基于相关滤波的跟踪算法和基于深度学习的跟踪算法。

基于视觉识别任务，深度学习模型需要大量标记的训练样本，而在目标跟踪问题中，唯一标记的样本只有第一帧标注的目标位置，所以直接将深度学习模型应用于在线跟踪算法是不可行的。以往基于深度学习的跟踪算法通过大量标记视频，离线学习通用特征表示。例如，Nam等人(Nam H，Han B.Learning multi-domain convolutional neuralnetworks for visual tracking[C]//Computer Vision and Pattem Recognition(CVPR)，2016IEEE Conference on.IEEE，2016：4293-4302.)提出MDNet跟踪算法，该算法利用类似于跟踪基准中的视频序列来离线学习深度模型，并使用目标基准测试序列对离线学习的模型进行在线微调，这种方法不仅容易产生过拟合，而且离线训练耗时过长。此外在视觉识别算法中使用神经网络作为在线分类器，通过最后一个卷积层的输出来表示目标。由于最后一层的特征有较高的语义信息，容易推断出物体的类别，所以使用最后一层的特征对于视觉识别任务是非常有效的。但是对于目标跟踪任务，仅仅使用最后一层的特征来表示目标是不够的，因为它还需要对目标进行精准定位。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于时间和空间网络的深度集成目标跟踪算法。

为实现上述技术目的，本发明采取的技术方案为：

一种基于时间和空间网络的深度集成目标跟踪算法，包括以下步骤：

S1：利用VGG-16网络提取深度特征并得到特征映射图；

S2：构建由相关滤波网络、时间网络以及空间网络构成的深度网络；

S3：将特征映射图送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练模型，直到收敛为止；

S4：以前一帧预测的目标位置为中心在当前帧的图片中提取搜索块p1，以前一帧预测的目标位置为中心在前一帧的图片中提取搜索块p2，用VGG-16网络提取搜索块p1和搜索块p2的特征送入与之对应训练好的模型中来生成响应映射，每个模型视为弱***，利用自适应权重的集成学习算法融合所有弱***得到最终的目标位置，采用尺度估计算法对目标大小进行预测；

S5：利用搜索块p1、搜索块p2和预测值组成训练对，输入到模型中进行在线更新；

为优化上述技术方案，采取的具体措施还包括：

上述的步骤S1具体为：

S11：VGGNet网络构筑16～19层深的卷积神经网络；

S12：去除第三层和第五层的池化层以及全连接层，分别从第三、四、五层提取特征映射图；

S13：通过主成分分析算法将提取到的特征进行降维，使卷积层通道数降至64维。

上述的步骤S2具体为：

S21：构建相关滤波网络，根据相关滤波算法的跟踪原理得到相关滤波器Ω的最小化目标函数Ω′：

其中X表示输入样本，Y表示对应的高斯函数标签，*表示卷积，λ表示正则化参数，Ω表示相关滤波器，Ω′表示相关滤波器的最小化目标函数；

将相关滤波跟踪算法的学习过程重新定义为卷积神经网络的代价函数最小化问题，则代价函数的一般形式为：

其中Θ表示卷积滤波器，J(Θ)表示卷积滤波器的代价函数，M是样本的数量，X⁽ⁱ⁾表示第i个输入样本，Y⁽ⁱ⁾表示第i个样本所对应的高斯标签，L()代表样本的损失函数，F()是样本的网络输出即预测值，P()是正则化函数，令M＝1，采用l₂损失函数，将l₂范数作为正则化函数，公式(2)改写为如下形式：

J(Θ)＝||F(X；Θ)-Y||²+λ||Θ||² (3)

公式(3)中当输入样本X通过一个卷积层时，其网络输出F(X；Θ)＝Θ*X，其中的卷积滤波器Θ等价于公式(1)中的相关滤波器Ω′，相关滤波算法中的目标函数也等价于网络中的代价函数，将相关滤波算法表示成一层卷积神经网络，该网络为相关滤波网络；

S22：在相关滤波网络的基础上通过Conv_21、Conv_22和Conv_23三层卷积神经网络框架构成空间网络，Conv_21和Conv_22对空间信息进行整合，Conv_23对前一个卷积层通道数降维至与相关滤波网络的输出维数保持一致；

S23：在相关滤波网络的基础上通过Conv_31卷积神经网络构成时间网络；

S24：深度网络最终得到的响应映射为：

F(X_t)＝F_spatial(X_t)+F_CF(X_t)+F_temporal(X_t-1) (4)

其中X_t代表当前帧的特征映射图，X_t-1代表前一帧的特征映射图，F_spatial()代表空间网络的输出，F_CF()代表相关滤波网络的输出，F_temporal()表示时间网络的输出，F(·)表示深度网络最终响应映射。

上述的步骤S3具体为：

S31：给定一个带有目标位置的第一帧，采用VGG-16网络提取以目标位置为中心的训练块，将其放入网络框架中用于特征提取和响应映射；

S32：相关滤波网络、时间网络以及空间网络的参数都初始化为零均值高斯分布；

S33：将第一帧的训练块经过VGG-16网络得到第三、四、五层的特征映射图分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练三个模型，直到收敛为止。

上述的步骤S4具体为：

自适应权重的集成学习算法，在视觉跟踪问题中，将弱***视为专家，第l个专家的响应映射为：

其中k＝3，4，5代表VGG-16网络的第三、四、五层，表示第k层特征映射图，表示第k-1层特征映射图，表示第l个专家的响应映射，

第l个专家的目标位置为：

最终预测的目标位置是多个专家加权的结果即：

其中是第l个专家的权重，L表示总共的专家数量；

每个专家的决策损失：

每个专家的后悔值：

其中，表示所有专家决策损失的平均值，表示每个专家的决策损失值，表示每个专家的后悔值；

其中，表示第l个专家的稳定性，表示第l个专家的决策损失的均值，表示第l个专家的决策损失的标准差，表示每个专家的决策损失值，Δt表示时间，Δt＝5，当较小时，说明专家趋于稳定，相反如果的值较大，说明专家性能差；

求解累积的后悔值

ζ＝10，H＝0.97

其中表示历史后悔值，是权重因子，ζ表示比例因子控制指数函数的形状，H表示当前帧后悔值的最大权重，用以避免没有历史后悔值；

计算下一帧的权重分布：

其中表示下一帧的权重分布，L表示总共的专家数量，表示σ_t表示比例因子。

上述的步骤S5具体为：

S51：短时更新：当值小时，说明专家稳定，该专家对应的模型不需要进行更新；相反当值大时，根据公式(12)可以推算出此时值较小，当小于阈值D＝0.12时，说明专家性能差，此时需要对其所对应的模型进行更新。

S52：长时更新：利用在线检测期间持续生成的搜索块和预测的真值响应图得到的训练数据，每S＝10帧对三个模型均进行一次更新。

本发明的有益效果：

1.通过将相关滤波算法重新定义为一层卷积神经网络，也即相关滤波网络，直接生成响应映射作为连续帧之间的空间相关性，可以消除循环移位样本导致的边界效应问题。

2.采用跳跃式连接方式将相关滤波网络、时间网络以及空间网络组合成新的深度网络，该网络是完全可微的，它允许使用反向传播算法更新卷积滤波器。

3.通过VGG-16网络所生成的特征映射送入新的深度网络中用以构造弱***，使用自适应权重的集成学习算法将所有弱***融合成强***，从而得到目标位置，并且利用短时更新和长时更新相结合的方式对跟踪模型进行更新，新的更新方式进一步提高算法的精确度。

附图说明

图1为本发明提出的基于时间和空间网络的深度集成目标跟踪算法的整体框架图；

图2为本发明可视化VGG-16网络的卷积层示意图；

图3为本发明提出的深度网络结构图；

图4为本发明提出的模型更新策略流程图；

图5为本发明对10个测试视频跟踪结果抽样帧；

图6为本发明在OPE评估方式下与8种***的综合跟踪性能比较图；

图7为本发明在六种挑战因子的OPE评估方式下与8种***的综合跟踪性能比较图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明提供了一种基于时间和空间网络的深度集成目标跟踪算法，

本发明使用MatConvNet工具箱，硬件平台采用Intel i7-8700 3.2GHz CPU，8GBRAM，NIVIDIA GTX 1060 GPU。本发明提出的基于时间和空间网络的深度集成目标跟踪算法的整体框架图如图1所示，具体包括以下操作步骤：

(1)步骤一：提取深度特征，采用VGG-16网络提取深度特征，VGGNet相比于AlexNet有更深的网络结构，它成功地构筑了16～19层深的卷积神经网络，并且该网络有很好的拓展性，迁移到目标跟踪任务上的泛化能力强。此外VGGNet使用130万张imageNet数据集上的图片进行训练，它在图像分类任务上取得了鲁棒的效果。如图2所示，在(b)(c)两组图中能够比较清晰的看到目标轮廓，因此第三层和第四层的特征有较高的分辨率能精确定位到目标。同时在(d)组图中已经很难看出目标细节，但是在背景变化剧烈的情况下第五层的特征能有效区分目标和背景。换句话说，浅层的深度特征提供目标的位置信息，深层的深度特征包含更多的语义信息可以用来处理目标形变和防止***漂移。算法的特征提取网络来自于VGG-16网络，且去除了第三层和第五层的池化层以及全连接层。本发明分别从第三、四、五层提取特征映射图，然后通过主成分分析算法将提取到的特征进行降维，使通道数降至64维。

(2)步骤二：构建深度网络，此深度网络由相关滤波网络、时间网络以及空间网络构成，深度网络的结构图如图3所示，根据相关滤波算法的跟踪原理得出，学习相关滤波器Ω就是解决下面最小化目标函数Ω′问题：

其中X表示输入样本，Y表示对应的高斯函数标签，*代表卷积，λ是正则化参数，Ω表示相关滤波器，Ω′表示相关滤波器的最小化目标函数；

将相关滤波跟踪算法的学习过程重新定义为卷积神经网络的代价函数最小化问题，代价函数的一般形式为：

其中Θ表示卷积滤波器，J(Θ)表示卷积滤波器的代价函数，M是样本的数量，X⁽ⁱ⁾表示第i个输入样本，Y⁽ⁱ⁾表示第i个样本所对应的高斯标签，L()代表第i个样本的损失函数，F()是第i个样本的网络输出即预测值，P()是正则化函数。本发明令M＝1，采用l₂损失函数，将l₂范数作为正则化函数，公式改写为如下形式：

J(Θ)＝||F(X；Θ)-Y||²+λ||Θ||² (3)

当输入样本X通过一个卷积层时，其网络输出F(X；Θ)＝Θ*X，其中的卷积滤波器Θ等价于公式(1)中的相关滤波器Ω′，相关滤波算法中的目标函数也等价于网络中的代价函数。如公式(3)所述，本发明将相关滤波算法表示成一层卷积神经网络，该网络为相关滤波网络Conv_11，相关滤波网络的滤波器大小需要覆盖目标，用梯度下降算法和反向传播算法代替原来的闭式解去训练参数。

在相关滤波网络的基础上提出空间网络；由于特征提取网络的加深，空间信息变得越来越弱，为了解决这个问题，采用三层卷积神经网络框架构成空间网络如图3所示，前两个卷积层Conv_21和Conv_22是对空间信息进行整合，最后一个卷积层Conv_23是对前一个卷积层通道数的降维，目的是为了使空间网络的输出和相关滤波网络的输出维数保持一致。空间网络的具体细节见表格1。

此外，空间网络只能捕捉当前帧的空间信息，当目标变化剧烈时，只靠空间信息学习到的模型是不稳定的。因此本发明又设计了一种与空间网络结构相似的时间网络如图3所示，用以捕获时间历史信息。时间网络Conv_31是由一层卷积神经网络构成，目的是为了提取前一帧的历史信息。时间网络的具体细节见表格1。

深度网络最终得到的响应映射为：

F(X_t)＝F_spatial(X_t)+F_CF(X_t)+F_temporal(X_t-1) (4)

表格1.卷积层嵌入函数的体系结构

(3)步骤三：训练网络，给定一个带有目标位置的输入帧即第一帧，提取以目标位置为中心的训练块，将其放入网络框架中用于特征提取和响应映射，第一帧得到的训练块大小是目标宽度和高度最大值的5倍。采用VGG-16网络进行特征提取，与此同时相关滤波网络、时间网络以及空间网络的参数都初始化为零均值高斯分布，此外上述三个网络不需要单独进行训练。第一帧的训练块经过VGG-16网络得到第三、四、五层的特征映射图，然后将这三层的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中，同时训练三个模型，直到收敛为止。训练阶段的学习率为5e-8，迭代次数为1000次，优化器采用Adam算法。

(4)步骤四：在线检测，以前一帧预测的目标位置为中心在当前帧的图片中提取搜索块p1。与此同时，还是以前一帧预测的目标位置为中心在前一帧的图片中提取搜索块p2，搜索块p1、p2的大小与训练块的大小一致。用VGG-16网络提取两个搜索块的特征送入与之对应训练好的三个模型中来生成响应映射，每个模型视为弱***，利用自适应权重的集成学习算法融合所有弱***得到最终的目标位置。在预测目标位置后，采用尺度估计算法对目标大小进行预测。本发明提取三个不同尺度的候选目标，尺度因子被设置为(1，0.95，1.05)，调整所有候选块的大小使其与训练块的大小相同，将这些候选块送入第三层特征对应的模型以生成响应图。一旦有了响应图，通过搜索最大响应值来预测目标大小。

采用自适应权重的集成学习算法，用于解决多专家决策理论的在线学习问题。在视觉跟踪问题中，将弱***视为专家。第l个专家的响应映射为：

其中k＝3，4，5代表VGG-16网络的第三、四、五层，表示第k层特征映射图，表示第k-1层特征映射图，表示第l个专家的响应映射；

第l个专家的目标位置为：

最终预测的目标位置是多个专家加权的结果，即：

其中是第l个专家的权重，L是总共的专家数量；

每个专家决策损失：

每个专家的后悔值：

其中，表示所有专家决策损失的平均值，表示每个专家的决策损失值，表示每个专家的后悔值；通过引入决策分析中常用的后悔值准则，后悔值准则被定义为所有专家决策损失的平均值减去每个专家的决策损失；

其中，表示第l个专家的稳定性，表示第l个专家的决策损失的均值，表示第l个专家的决策损失的标准差，表示每个专家的决策损失值，Δt表示时间，Δt＝5，当较小时，说明专家趋于稳定，相反如果的值较大，说明专家性能差。

求解累积的后悔值

ζ＝10，H＝0.97

计算下一帧的权重分布：

其中表示下一帧的权重分布，L是总共的专家数量，表示σ_t表示比例因子。

步骤五：模型更新，如图4所示，通过短时更新与长时更新相结合。短时更新求解模型可靠性，方法与集成学习中计算专家稳定性一样。当值小时，说明专家稳定，该专家对应的模型不需要进行更新。相反当值大时，此时值较小，当小于阈值D＝0.12时，说明专家性能差，此时需要对其所对应的模型进行更新，本发明利用当前帧的搜索块和预测值组成训练对，输入到模型中进行在线更新。除此之外，还加入了长时更新，即每S＝10帧对三个模型均进行一次更新，用到的训练数据是在线检测期间持续生成的搜索块和预测的真值响应图。更新阶段的学习率为2e-9，迭代次数2次，优化器采用Adam算法。

通过一次性评估(OPE)准则以及精确度和成功率度量来衡量***的性能。选取90个不同属性的视频序列测试本发明的目标跟踪算法，并与其它***(TRACA、ACFN、CFNet、SiamFC、SCT、Staple、SRDCF、CNN-SVM等8种***)在不同的挑战因素(如快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮挡等情况)下进行对比。图5是本发明与8种***对10个测试视频((a)Bolt2、(b)Box、(c)DragonBaby、(d)Girl2、(e)Human9、(f)Ironman、(g)KiteSurf、(h)Matrix、(i)Skating1、(j)Skiing)跟踪结果抽样帧，图6从精确度(precision)和成功率(Success rate)两个方面给出了本发明与其他8种***的性能对比图。图7是本发明在快速运动、运动模糊、光照变化、平面外旋转、目标形变、遮挡六种挑战因子的OPE评估方式下与8种***的综合跟踪性能比较图。正如图5所示，本发明的算法可以准确的跟踪到图例中大多数挑战性序列。总的来说，本发明的跟踪算法比最近几年的跟踪算法更加精确和鲁棒，特别是在具有挑战性的场景中。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于时间和空间网络的深度集成目标跟踪算法，其特征在于，包括以下步骤：

S1：利用VGG-16网络提取深度特征并得到特征映射图；

S5：利用搜索块p1、搜索块p2和预测值组成训练对，输入到模型中进行在线更新。

2.根据权利要求1所述的一种基于时间和空间网络的深度集成目标跟踪算法，其特征在于：步骤S1具体为：

S11：VGGNet网络构筑16～19层深的卷积神经网络；

3.根据权利要求1所述的一种基于时间和空间网络的深度集成目标跟踪算法，其特征在于：步骤S2具体为：

J(Θ)＝||F(X；Θ)-Y||²+λ||Θ||² (3)

S24：深度网络最终得到的响应映射为：

F(X_t)＝F_spatial(X_t)+F_CF(X_t)+F_temporal(X_t-1) (4)

4.根据权利要求1所述的一种基于时间和空间网络的深度集成目标跟踪算法，其特征在Ω于：步骤S3具体为：

5.根据权利要求1所述的一种基于时间和空间网络的深度集成目标跟踪算法，其特征在Ω于：步骤S4具体为：

第l个专家的目标位置为：

其中(x_t，y_t)表示使得目标函数最大的值；

最终预测的目标位置是多个专家加权的结果，即：

其中是第l个专家的权重，L是总共的专家数量；

每个专家的决策损失：

每个专家的后悔值：

其中表示所有专家决策损失的平均值，表示每个专家的决策损失值，表示每个专家的后悔值；

其中，表示第l个专家的稳定性，表示第l个专家的决策损失的均值，表示第l个专家的决策损失的标准差，表示每个专家的决策损失值，Δt表示时间，Δt＝5，如公式(10)所述，当较小时，说明专家趋于稳定，相反如果的值较大，说明专家性能差。

求解累积的后悔值

ζ＝10，H＝0.97

计算下一帧的权重分布：

6.根据权利要求1所述的一种基于时间和空间网络的深度集成目标跟踪算法，其特征在Ω于：步骤S5具体为：

S51：短时更新：当值小时，说明专家稳定，该专家对应的模型不需要进行更新；相反当值大时，根据公式(14)可以推算出此时直较小，当小于阈值D＝0.12时，说明专家性能差，此时需要对其所对应的模型进行更新。