CN109493370A

CN109493370A - 一种基于空间偏移学习的目标跟踪方法

Info

Publication number: CN109493370A
Application number: CN201811186951.7A
Authority: CN
Inventors: 权伟; 李天瑞; 高仕斌; 赵丽平; 陈金强; 陈锦雄; 刘跃平; 卢学民; 王晔
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-03-19
Anticipated expiration: 2038-10-12
Also published as: CN109493370B

Abstract

本发明提供了一种基于空间偏移学习的目标跟踪方法，涉及计算机视觉技术领域。选择并确定要跟踪的目标对象，目标选取过程通过运动目标检测方法自动提取或者人工指定；空间偏移学习网络包含图像数据提取、深度神经网络、多层感知机MLP和空间偏移输出四个部分：在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已采集的视频文件分解为多个帧组成的图像序列；短时跟踪采用粒子滤波方法，粒子滤波中的一个粒子代表一个可能的目标图像块，以对应的目标关注区域ROI作为空间偏移学习网络的在线训练集，采用随机梯度下降法SGD对空间偏移学习网络进行在线训练，更新网络参数；目标定位与更新。

Description

一种基于空间偏移学习的目标跟踪方法

技术领域

本发明涉及计算机视觉、图形图像、模式识别、机器学习技术领域。

背景技术

视觉目标跟踪是计算机视觉领域的重要研究课题，其主要任务是获取目标连续的位置、外观和运动等信息，进而为进一步的语义层分析(如行为识别、场景理解等)提供基础。目标跟踪研究被广泛应用于智能监控、人机交互、自动控制***等领域，具有很强的实用价值。目前，目标跟踪方法主要包括经典目标跟踪方法和深度学习目标跟踪方法。

经典的目标跟踪方法主要分为生成式方法(Generative Methods)和判别式方法(Discriminative Methods)两类。生成式方法假设目标可以通过某种生成过程或者模型进行表达，如主成分分析(PCA)，稀疏编码(Sparse Coding)等，然后将跟踪问题视为在感兴趣的区域中寻找最可能的候选项。这些方法旨在设计一种利于鲁棒目标跟踪的图像表示方法。而在运动建模方面，通常是基于某种假设和校验进行，典型的方法如卡尔曼滤波、均值漂移、粒子滤波(PF，Particle Filter)等，其中粒子滤波技术为非线性非高斯问题的求解提供了一种非常有效手段，它对部分遮挡和背景干扰具有很好的鲁棒性。不同于生成式方法，判别式方法将跟踪视为一个分类或者一种连续的对象检测问题，其任务是将目标从图像背景中分辨出来。这类方法同时利用目标和背景信息，是目前主要研究的一类方法。判别式方法通常包含两个主要的步骤，第一步是通过选择能够辨别目标和背景的视觉特征训练得到一个分类器及其决策规则，第二步是在跟踪过程中将该分类器用于对视场内的每一个位置进行评价并确定最有可能的目标位置。随后将目标框移动到该位置并重复这样的过程，进而实现跟踪，该框架被用于设计出各种形式的跟踪算法。总体来看，经典跟踪方法的主要优势在于运行速度和对辅助数据较少的依赖，同时它们也需要在跟踪的准确性与实时性之间做出权衡。

深度学习(Deep Learning)是近年来机器学习研究的热点，由于其强大的特征表达能力和不断发展的数据集和硬件支持，深度学习已在许多方面取得了惊人的成功，例如语音识别、图像识别、目标检测、视频分类等。深度学习目标跟踪研究发展也十分迅速，但由于目标跟踪中先验知识的缺乏和实时性的要求，使得需要大量训练数据和参数计算为基础的深度学习技术在这方面难以得到充分的施展，具有很大的探索空间。从目前的研究成果来看，深度学习跟踪方法主要应用了自编码器网络和卷积神经网络，其研究主要有两种思路，一种是对网络进行迁移学习再进行在线微调，另一种是改造深度网络的结构以适应跟踪的要求。自编码器网络(AE)是典型的非监督深度学习网络,因其特征学习能力和抗噪声性能被首先应用到目标跟踪中。综合来看,自编码器网络比较直观且体量适中，是一种优秀的非监督深度学习模型，在跟踪中最先得以应用并取得了较好的效果。与自编码器网络不同，卷积神经网络(CNN)是一种监督型的前馈神经网络，它包含多个循环交替进行的卷积、非线性变换和降采样操作，在模式识别特别是计算机视觉任务中体现出非常强大的性能。总体来看，深度学习相比于经典方法具有更强大的特征表达能力，其跟踪方法中有关训练集的选取，网络的选择与结构的改进，算法的实时性，以及应用递归神经网络等方面仍需要进一步的研究。

因此，鉴于粒子滤波PF的高鲁棒性和深度神经网络强大的特征表达能力，本发明提出一种基于空间偏移学习的目标跟踪方法。该方法采用深度神经网络GoogleNet的152层对输入图像进行特征表达，将帧图像中目标关注区域ROI及其在该区域内选择的图像块作为空间偏移学习网络的输入数据，然后经多层感知机MLP学习输出所选图像块与目标的空间偏移值，跟踪过程中将粒子滤波中的粒子作为目标关注区域ROI内选择得到的图像块，连同目标关注区域ROI，经网络正向处理后可得到每个粒子对应的空间偏移值，进而计算得到其对应的预测目标位置，最后把具有预测最多次的位置作为新的目标位置实现对目标的定位，进而实现跟踪。由于该方法一方面采用了深度神经网络进行特征表达，另一方面同时将目标和背景的图像数据作为网络输入，且学习空间偏移值，使得目标定位过程更加准确，而在跟踪过程中通过与粒子滤波的有效结合，充分利用了粒子滤波的高鲁棒性并简化了网络的学习过程，进而能够实现长时间实时稳定的目标跟踪。此外，本发明方法不仅可以用于单目标跟踪，通过增加和调整样例标记，还可以扩展用于多目标的跟踪。

发明内容

本发明的目的是提供一种基于空间偏移学习的目标跟踪方法，它能有效地解决在无约束环境下对一般性目标对象进行长时间实时稳定的跟踪的技术问题。

本发明的目的是通过以下技术方案来实现的：一种基于空间偏移学习的目标跟踪方法，包括如下步骤：

步骤一、目标选取：

从初始图像中选择并确定要跟踪的目标对象，目标选取过程通过运动目标检测方法自动提取，或者通过人机交互方法人工指定；

步骤二、空间偏移学习网络构建与初始化：

空间偏移学习网络包含图像数据提取、深度神经网络、多层感知机MLP和空间偏移输出四个部分：

图像数据提取部分，对原始图像提取出两种图像块，一种是目标的关注区域ROI，即以目标为中心的，且9倍于目标大小的图像块，另一种是在该目标的关注区域ROI内随机选择的与目标具有相同大小的图像块；对于深度神经网络部分，采用可公开获得的预训练网络GoogleNet对图像进行特征表达，该网络共有154层，是在包含上百万个训练图像的大规模数据集ImageNet上训练获得的深度神经网络，输入图像经过224×224像素大小的尺度归一化后作为GoogleNet网络的输入数据；将GoogleNet的152层作为特征表达层，它有1024个值输出；将目标关注区域ROI和该区域内选择的一个图像块分别作为GoogleNet的图像输入，经GoogleNet正向处理后，输出两个特征值，每个特征值包含1024个值，将这两个特征值连接合并后作为多层感知机MLP部分的数据输入；多层感知机MLP包含三个全连接层，第一层节点数为2048个，第二层节点数为1024个，第三层节点数为512个，多层感知机MLP的最后一层连接空间偏移输出部分；空间偏移输出部分包含4个值，这4个值分别为所选图像块左上角横坐标与目标左上角横坐标的差值Dx^l，所选图像块左上角纵坐标与目标左上角纵坐标的差值Dy^l，所选图像块右下角横坐标与目标右下角横坐标的差值Dx^r，所选图像块右下角纵坐标与目标右下角纵坐标的差值Dy^r；

目标关注区域ROI和该区域内选择的一个图像块是成对输入空间偏移学习网络的，对于同一帧图像，目标关注区域ROI不变，而该区域内选择的图像块有多个；在目标关注区域ROI内随机选择1000个图像块，并记录每个所选的图像块与目标的空间偏移值，即所选图像块与目标的坐标差值Dx^l，Dy^l，Dx^r，Dy^r，通过以步骤一中确定的目标图像块为中心获得的目标关注区域ROI和该区域中选择的图像块生成初始训练集，采用随机梯度下降法SGD对空间偏移学习网络进行离线训练，从而确定多层感知机的参数，进而完成空间偏移学习网络的初始化；

步骤三、图像输入：

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已采集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像；如果输入图像为空，则整个流程中止；

步骤四、短时跟踪：

短时跟踪采用粒子滤波方法(PF，Particle Filter)，粒子滤波中的一个粒子代表一个可能的目标图像块，粒子滤波包含1000个粒子，每个粒子是在目标关注区域ROI内随机选择得到，该目标关注区域ROI是以上一次确定的目标为中心的，且9倍于目标大小的区域；将粒子滤波输出的预测目标图像块与目标图像块的相似度值计算为这两个图像块之间的规则化交叉互相关值NCC(Normalized Cross-Correlation)，则跟踪过程中如果该值>0.9，则表示短时跟踪输出的目标可信，目标定位完成，记录每个粒子与新定位目标的空间偏移值，即粒子与目标的坐标差值Dx^l，Dy^l，Dx^r，Dy^r，跳转到步骤五，否则表示目标不可信，跳转到步骤六；

步骤五、网络在线训练：

以步骤四中粒子滤波的粒子及其对应的目标关注区域ROI作为空间偏移学习网络的在线训练集，采用随机梯度下降法SGD对空间偏移学习网络进行在线训练，更新网络参数；

步骤六、目标定位与更新：

将当前目标关注区域ROI和步骤四中粒子滤波的每个粒子分别输入到空间偏移学习网络，经网络正向处理后，输出每个粒子对应的空间偏移值，根据粒子所在的位置和该粒子对应的空间偏移值，计算得到该粒子预测的目标位置；统计所有粒子预测的目标位置，把具有预测最多次的位置作为新的目标位置，目标定位完成；计算新定位的目标图像块与粒子滤波短时跟踪的目标图像块之间的相似度值，即它们的规则化交叉互相关值NCC，如果该值>0.9，则用新定位的目标图像块更新粒子滤波短时跟踪的目标图像块；跳转到步骤三。

在跟踪过程中，当粒子滤波短时跟踪输出的目标结果可信时，短时跟踪可进行实时目标跟踪，同时对空间偏移学习网络进行在线训练，而当其输出的目标结果不可信时，则由空间偏移学习网络对目标进行定位，同时根据该网络确定的目标来更新粒子滤波短时跟踪的目标图像块。由于该方法一方面采用了深度神经网络进行特征表达，另一方面同时将目标和背景的图像数据作为网络输入，且学习空间偏移值，使得目标定位过程更加准确，而在跟踪过程中通过与粒子滤波的有效结合，充分利用了粒子滤波的高鲁棒性并简化了网络的学习过程，进而能够实现长时间实时稳定的目标跟踪。

与现有技术相比的优点和积极效果：本发明提出一种基于空间偏移学习的目标跟踪方法。该方法采用深度神经网络GoogleNet的152层对输入图像进行特征表达，将帧图像中目标关注区域ROI及其在该区域内选择的图像块作为空间偏移学习网络输入，然后经多层感知机MLP学习输出所选图像块与目标的空间偏移值，跟踪过程中将粒子滤波中的粒子作为目标关注区域ROI内选择得到的图像块，连同目标关注区域ROI，经网络正向处理后可得到每个粒子对应的空间偏移值，进而计算得到其对应的预测目标位置，最后把具有预测最多次的位置作为新的目标位置可实现对目标的定位，进而实现跟踪。由于该方法一方面采用了深度神经网络进行特征表达，另一方面同时将目标和背景的图像数据作为网络输入，且学习空间偏移值，使得目标定位过程更加准确，而在跟踪过程中通过与粒子滤波的有效结合，充分利用了粒子滤波的高鲁棒性并简化了网络的学习过程，进而能够实现长时间实时稳定的目标跟踪。此外，本发明方法不仅可以用于单目标跟踪，通过增加和调整样例标记，还可以扩展用于多目标的跟踪。

附图说明

图1为本发明空间偏移学习网络结构组成示意图

图2为本发明目标跟踪方法流程图

具体实施方式

实施例：

本发明的方法可用于目标对象跟踪的各种场合，如智能视频分析，自动人机交互，通视频监控，无人车辆驾驶，生物群体分析，以及流体表面测速等。

以智能视频分析为例：智能视频分析包含许多重要的自动分析任务，如对象行为分析，视频压缩等，而这些工作的基础则是能够进行长时间稳定的目标跟踪。可以采用本发明提出的跟踪方法实现，具体来说，首先根据目标选择所在图像构建空间偏移学习网络并完成初始化训练，如图1的空间偏移学习网络结构组成所示；然后在跟踪过程中采用粒子滤波方法PF进行短时跟踪，当粒子滤波短时跟踪确定的目标可信时，按照短时跟踪所确定的目标位置，提取目标关注区域ROI，连同粒子滤波的粒子构成在线训练集并训练空间偏移学习网络，而当粒子滤波短时跟踪确定的目标不可信时，则由空间偏移学习网络对目标进行定位，同时根据该网络确定的目标来更新粒子滤波的目标图像块。由于该方法一方面采用了深度神经网络进行特征表达，另一方面同时将目标和背景的图像数据作为网络输入，且学习空间偏移值，使得目标定位过程更加准确，而在跟踪过程中通过与粒子滤波的有效结合，充分利用了粒子滤波的高鲁棒性并简化了网络的学习过程，进而能够实现长时间实时稳定的目标跟踪。

本发明方法可通过任何计算机程序设计语言(如C语言)编程实现，基于本方法的跟踪***软件可在任何PC或者嵌入式***中实现实时目标跟踪应用。

Claims

1.一种基于空间偏移学习的目标跟踪方法，包括如下步骤：