CN106651915B

CN106651915B - 基于卷积神经网络的多尺度表达的目标跟踪方法

Info

Publication number: CN106651915B
Application number: CN201611201895.0A
Authority: CN
Inventors: 唐爽硕; 王凡; 胡小鹏
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2019-08-09
Anticipated expiration: 2036-12-23
Also published as: CN106651915A

Abstract

本发明属于图像处理技术领域，提供基于卷积神经网络的多尺度表达的目标跟踪方法，包括：多尺度卷积神经网络结构预训练；利用多尺度特征表达构建多示例分类器；改进多示例在线跟踪；多步差模型更新。该算法利用卷积神经网络的自动学习深层特征的能力，可以获取涉及语义信息的深层图像表达，同时利用拉普拉斯金字塔构建图像的多尺度表达，训练多尺度的卷积神经网络结构。结合改进的多示例学习算法，构建在线***，实现目标的稳定跟踪。

Description

基于卷积神经网络的多尺度表达的目标跟踪方法

技术领域

本发明涉及基于卷积神经网络的多尺度表达的目标跟踪方法，属于图像处理技术领域。

背景技术

近些年来，随着大量目标跟踪算法的提出，目标跟踪技术得到了快速地发展，但是由于在实际跟踪中，目标跟踪任务存在很多现实困难，例如物体遮挡、视角变化、目标形变、周围光照变化以及难以预料的复杂的背景情况，造成了现有算法的很多问题。在基于判别模型的目标跟踪算法中，通常利用目标和背景的差异构建外观模型，训练二分类器，从而把目标从背景中分离出来。现有的大多数跟踪算法依赖手工设计的特征构建目标的外观模型，不能有效表达目标的本质信息，尤其在复杂条件下，对目标的外观模型的表达能力有限，造成目标模型的失效。在跟踪过程中，由于目标的错误跟踪引入的误差，逐渐累积会造成漂移问题。基于多示例学习的跟踪算法能够一定程度上解决漂移问题，但是由于模型函数自身容易饱和，使得模型的区分能力下降，对跟踪性能造成限制。

发明内容

针对现有技术存在的问题，本发明利用拉普拉斯金字塔对图像进行多尺度分解，提供一种基于卷积神经网络的多尺度表达的目标跟踪算法。该算法利用卷积神经网络的自动学习深层特征的能力，可以获取涉及语义信息的深层图像表达，同时利用拉普拉斯金字塔构建图像的多尺度表达，训练多尺度的卷积神经网络结构。结合改进的多示例学习算法，构建在线***，实现目标的稳定跟踪。

本发明的技术方案为：

基于卷积神经网络的多尺度表达的目标跟踪方法，包括以下步骤：

第一步，多尺度卷积神经网络结构预训练；

第二步，利用多尺度特征表达构建多示例分类器；

第三步，改进多示例在线跟踪；

第四步，多步差模型更新。

本发明有益效果：自然图像中存在多尺度的结构信息，图像的粗尺度通常反映图像的整体结构，图像的精细尺度包含较多的图像细节。利用拉普拉斯金字塔对图像进行多尺度分解，提出了基于卷积神经网络的多尺度表达的目标跟踪算法。该方法能够提取多尺度的卷积特征，构成表达能力更强的外观模型。同时结合改进的多示例学习算法，解决模型易饱和造成的模型区分能力下降的问题。与现有的目标跟踪算法相比，该方法能实现更加稳定的跟踪，准确度更高。

附图说明

图1为卷积神经网络结构示意图；

图2为多尺度卷积神经网络训练示意图；

图3为不同中心误差距离的百分比；

图4为成功跟踪帧百分比。

具体实施方式

以下对本发明做进一步说明。

第一步，多尺度卷积神经网络模型预训练

对图像做拉普拉斯变换，构建图像的金字塔空间，然后提取拉普拉斯金字塔的三种尺度下的图像作为网络模型的输入；利用Lasagne深度学习框架搭建多尺度卷积神经网络模型，构成网络模型池；每一个网络模型包括三个卷积层，两个全连接层以及一个softmax层；网络模型如图1所示。同时采用VGG-net的浅层结构初始化网络参数。

在预训练过程中，使用部分标准跟踪数据集不断优化网络参数；每种尺度图像分别对应粗尺度网络，中间尺度网络和精细尺度网络，不同尺度间网络共享参数，尺度由粗到细进行训练。为了获取不同类别物体信息，针对不同类别视频集构建对应不同的网络，为捕获不同类别物体的共性特征，网络间除最后一层外共享网络参数迭代训练，如图2所示。在训练过程中，采用交叉熵作为损失函数L，其定义形式为：

L＝-∑_it_ilog(p_i) (1)

其中，t_i为第i个图像块的真实标记(目标或者背景)，p_i为第i个图像块的预测概率。在训练过程中使用梯度下降法(SGD)不断优化网络参数，直到所有样本得到充分训练，最后保留三种尺度的网络参数，得到预训练好的多尺度卷积神经网络模型。

第二步，利用多尺度特征表达构建多示例分类器

移除预训练好的多尺度卷积模型的最后一层，重新添加一个随机初始化的softmax层，利用图像第一帧给定的目标对网络参数进行微调。然后从三种尺度的网络中分别提取卷积三层的特征图作为卷积特征。同时提取精细尺度网络的卷积二层的特征共同组成外观模型的多尺度表达。为了减小特征的数据维度，采用最大池化对卷积二层特征图进行降维。将所有卷积特征连接构成目标的多尺度外观模型。

为了实现目标的在线更新，需要对目标模型实时更新。将得到的卷积特征作为特征池，利用多示例学习算法学习一个二分类器。该分类器是一个由多个弱分类器组成的强分类器。其实现方法为：采用增强学习的方式，最大化目标函数即对数似然函数，依次选择K个弱分类器，并将各个弱分类器加权求和，从而构建出多示例分类器。

第三步，改进多示例在线跟踪

在多示例学习算法中，每个示例的似然概率表示为：

p(y|x)＝σ(H(x)) (2)

其中，x为图像的特征空间表达，y为一个二分变量，用于指示图像中是否存在目标，H(x)为多个弱分类组成的强分类器，σ(x)为Sigmoid函数，即

由Sigmoid函数的性质可知，当x逐渐增大或逐渐减小时，函数很容易饱和。当选取弱分类构成强分类器时，很容易造成过拟合问题。为了解决这个问题，我们在Sigmoid函数中引入一个惩罚因子来减缓函数饱和，改进后的Sigmoid函数为：

其中，k为组成强分类器的弱分类器个数。当弱分类器的个数逐渐增多时,惩罚因子可以快速抑制自变量的大小到一个合理的范围，减慢函数饱和的速度，同时能够确保函数收敛。

第四步，多步差模型更新

在跟踪过程中，采用多步差模型更新的方式来更新多尺度卷积神经网络模型。

对于粗尺度网络模型，采用快更新的方式来更新网络模型参数，以及时适应模型的外观变化；对于精细尺度网络模型，采用慢更新的方式来更新网络模型参数，能够避免模型改变可能引入的误差噪音和错误更新；对于中间尺度网络模型，更新频率介于二者之间。通过这种方式，使得模型能够及时适应目标的外观变化，同时能够抵制错误跟踪对模型更新的影响。

当有新的一帧图像输入时，在上一帧目标位置的周围选取n个候选目标框{x₁,…,x_n}，根据p(y|x)＝σ(H(x))，选择似然概率的最大响应位置为此帧的目标结果，如公式(5)所示。

我们从两个方面对提出的基于卷积神经网络的多尺度表达的目标跟踪方法进行分析验证。首先是跟踪算法的精确率，其次是算法的成功率。并使用目标跟踪标准数据集(OTB)的部分图片序列进行测试，选取经典的MIL、TLD、Struck、SCM、KCF和TGPR方法作为对照。

就算法的精确率方面，我们使用跟踪目标与真实位置的中心误差来评价算法的精确度，计算跟踪目标与真实位置的欧氏距离，设置不同的距离作为阈值，统计达到不同阈值要求的百分比，并选取阈值20对应的百分比为最终分数。结果如图3所示，从图中可见我们的方法获得更高的分数，这说明基于卷积神经网络的多尺度表达的目标跟踪方法跟踪的精确率更高。

就算法的成功率方面，我们按照公式(6)计算跟踪目标和真实位置的重合率

其中，r_t为跟踪目标的面积，r_o为真实目标的面积，∩代表交集操作，∪代表并集操作。以重合率为阈值，统计不同阈值下的成功的百分比，并以AUC面积大小作为最终分数。结果如图4所示，从图中可见我们的方法获得更高的AUC值，这说明基于卷积神经网络的多尺度表达的目标跟踪方法跟踪的成功率更高。

Claims

1.一种基于卷积神经网络的多尺度表达的目标跟踪方法，其特征在于以下步骤：

第一步，多尺度卷积神经网络模型预训练

对图像做拉普拉斯变换，构建图像的金字塔空间，提取拉普拉斯金字塔的三种尺度下的图像作为网络模型的输入；利用Lasagne深度学习框架搭建多尺度卷积神经网络模型，构成网络模型池；每一个网络模型包括三个卷积层，两个全连接层以及一个softmax层；同时采用VGG-net的浅层结构初始化网络参数；

在预训练过程中，跟踪数据集，并不断优化网络参数；每种尺度图像分别对应粗尺度网络、中间尺度网络和精细尺度网络；不同尺度间网络共享参数，尺度由粗到细进行训练；

针对不同类别视频集构建不同的网络，用于获取不同类别物体信息；网络间除最后一层外共享网络参数迭代训练，用于捕获不同类别物体的共性特征；在训练过程中，采用交叉熵作为损失函数L，其定义形式为：

L＝-∑_it_ilog(p_i) (1)

其中，t_i为第i个图像块的真实标记，即目标或者背景；p_i为第i个图像块的预测概率；

在训练过程中使用梯度下降法SGD不断优化网络参数，直到所有样本得到充分训练，最后保留三种尺度的网络参数，得到预训练好的多尺度卷积神经网络模型；

第二步，利用多尺度特征表达构建多示例分类器

移除预训练好的多尺度卷积模型的最后一层，重新添加一个随机初始化的softmax层，利用图像第一帧给定的目标对网络参数进行微调；然后从三种尺度的网络中分别提取卷积三层的特征图作为卷积特征；同时提取精细尺度网络的卷积二层的特征共同组成外观模型的多尺度表达；采用最大池化对卷积二层特征图进行降维，减小特征的数据维度；将所有卷积特征连接构成目标的多尺度外观模型；

将得到的卷积特征作为特征池，利用多示例学习算法学习一个二分类器；采用增强学习的方式，最大化目标函数即对数似然函数，依次选择k个弱分类器，并将各个弱分类器加权求和，构建多示例分类器；

第三步，改进多示例在线跟踪

在多示例学习算法中，每个示例的似然概率表示为：

p(y|x)＝σ(H(x)) (2)

在Sigmoid函数中引入一个惩罚因子减缓函数饱和，改进后的Sigmoid函数为：

其中，k为组成强分类器的弱分类器个数；

第四步，在跟踪过程中，采用多步差模型更新多尺度卷积神经网络模型

对于粗尺度网络模型，采用快更新的方式来更新网络模型参数，以及时适应模型的外观变化；对于精细尺度网络模型，采用慢更新的方式更新网络模型参数，避免模型改变引入的误差噪音和错误更新；对于中间尺度网络模型，更新频率介于二者之间；通过这种方式，使得模型能够及时适应目标的外观变化，同时能够抵制错误跟踪对模型更新的影响；

当有新的一帧图像输入时，在上一帧目标位置的周围选取n个候选目标框{x₁，...，x_n}，根据p(y|x)＝σ(H(x))，选择似然概率的最大响应位置为此帧的目标结果，如公式(5)所示：