CN105894008A

CN105894008A - 结合特征点匹配及深度神经网络检测的目标运动跟踪方法

Info

Publication number: CN105894008A
Application number: CN201410767363.8A
Authority: CN
Inventors: 陈姝
Original assignee: Guangxi Kasite Cartoon Co Ltd
Current assignee: Guangxi Kasite Cartoon Co Ltd
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2016-08-24

Abstract

本发明公开了一种结合特征点匹配及深度神经网络检测的目标运动跟踪方法。首先利用深度神经网络通过样本学习目标的视觉先验，然后跟踪在贝叶斯推理框架下进行，在跟踪过程中将目标视觉先验用作目标的外观表示，跟踪结果由粒子滤波顺序得到。为了防止跟踪漂移，通过特征点匹配建立***的状态模型，并且将目标分解成子目标进行相似度量提高算法抗局部遮挡能力。本发明可以精确跟踪视频中的运动目标，能够广泛应用于人机交互、互动娱乐、智能监控、医疗诊断等领域。

Description

结合特征点匹配及深度神经网络检测的目标运动跟踪方法

【技术领域】

本发明涉及计算机视觉和视频处理领域，特别涉及基于视频的运动目标跟踪方法。

【背景技术】

基于视频的运动目标跟踪能够广泛应用于人机交互、互动娱乐、智能监控等多个领域。目前，常用的运动目标跟踪方法主要采用判别式跟踪算法或生成式跟踪算法。此两类跟踪算法各有其优缺点，判别式跟踪算法由于采用了有效的目标视觉表示，在简单的跟踪环境下能够取得较好的跟踪效果，但在复杂的背景下跟踪效果较差。生成式跟踪算法在遮挡等复杂环境下跟踪效果较好，但是当目标外观急剧变化时，则跟踪效果较差。

【发明内容】

鉴于此，本发明的目的在于利用这两类跟踪算法的优点，提出一种在复杂环境进行目标运动精确跟踪的方法。

为达到上述目的，本发明采用以下技术方案：

1、在公开数据集上训练栈式稀疏自编码神经网络得到目标的先验视觉表示。

2、在提取的SIFT匹配点对基础上建立目标函数，并优化该目标函数得运动目标上下两帧间的运动模型。

3、在以上两步的基础上，利用粒子滤波进行运动目标跟踪。

与现有技术相比，本发明具有以下显著优势：

1、该发明利用深度神经网络学习目标的先验视觉表示，可以提高跟踪的精度。

2、该发明利用特征点匹配及深度神经网络检测可以防止跟踪漂移及跟踪丢失。

【附图说明】

图1是目标跟踪流程图；

图2是栈式稀疏自编码神经网络结构图；

图3是特征层1稀疏自编码结构图；

图4是本发明应用于视频跟踪结果图；

【具体实施方式】

下面结合附图及具体实施方式对本发明作进一步详细描述。

本发明所提出的目标运动跟踪算法如图1所示，现具体介绍每一步的实现细节：

1、离线训练。利用VOC2010及Caltech101数据集进行栈式自编码神经网络训练得到目标的视觉先验。采用的栈式自编码神经网络结构如图2所示，共分5层，第1层为输入层，最后一层为softmax分类器，中间三层为稀疏自编码器。训练采用逐层贪婪训练法分两步进行，第一步依次训练网络的每一层，第二步在第一步计算的每层初始权值的基础上利用反向传播算法对整个网络进行微调。

第一步训练：稀疏自编码器尝试逼近一个恒等函数，从而使得输出接近于输入x。以特征层1为例说明稀疏自编码器的结构(见图3)及训练过程。

设第i样本为x_i，W，W′，b，b′分别为输入层与隐含层及隐含层与输出层之间的权值矩阵及偏置向量。输入层(x_i＝[x₁ ^(l)，x₂ ^(l)，…，x₁₀₂₄ ^(l)，1]^T)，隐含层( 为第i样本下隐含层神经元j的激励输出)及输出层()具有以下关系

其中f(·)为logistic sigmoid函数。

建立稀疏自编码器的目标函数为

其中β控制稀疏性惩罚因子的权重，J(W，W′，b，b′)为代价函数，定义为

为稀疏约束项，其中m为隐含层神经元的数量，ρ是稀疏性参数，通常是一个接近于0的较小的值，β用来控制约束项的权重。为之间的交叉熵。

稀疏自编码器为求解使式(2)最小化的参数，即

W, W^{'}, b, b^{'} = \arg \min_{W, W^{'}, b {, b}^{'}} (J_{sparse} (W, W^{'}, b, b^{'})) - - - (4)

第二步微调：在第一步训练过程中，由于训练每一层参数时，会固定其它各层参数保持不变，因而如果想得到更好的结果，在上述预训练过程完成之后，可以通过反向传播算法同时调整所有层的参数以改善结果。

为了提高算法抵抗局部遮挡的能力，除了训练一个整体目标自编码深度神经网络，同时将目标分成四个不重叠的子目标(上半部分，下半部分，左半部分及右半部分)分别训练一个自编码深度神经网络，由于尺寸减少一半，因而这四个子目标对应的自编码深度神经网络的输入层的大小都为512。这样做的好处在于在局部遮挡下，目标部分区域可见，利用部分可见区域进行目标相似性度量可以提高算法的可靠性。

2、目标跟踪。本发明采用粒子滤波作为跟踪的基本方法。粒子滤波跟踪的精度依赖于状态模型及观测模型的可靠性，下面说明这两个模型的构建。

2.1状态模型构建

我们以向量

x_{t} = {(x_{t}^{1}, y_{t}^{1}, x_{t}^{2}, y_{t}^{2}, x_{t}^{3}, y_{t}^{3}, x_{t}^{4}, y_{t}^{4})}^{T}

表示目标状态，分别为目标在图像中左上角、左下角、右上角、右下角的坐标。采用的状态模型如下

p (x_{t} | x_{t - 1}) = g (x_{t - 1}) + v_{t - 1}, v_{t - 1} ~ N (0, Σ) - - - (5)

其中N(0，∑)为零向量均值多元高斯函数，∑为对角矩阵。g(x_t-1)为运动模型，采用六参数仿射变换定义如下

\{\begin{matrix} x_{t} = a_{1} x_{t - 1} + a_{2} y_{t - 1} + a_{0} \\ y_{t} = a_{4} x_{t - 1} + a_{5} y_{t - 1} + a_{3} \end{matrix} - - - (6)

其中a₀，a₁，a₂，a₃，a₄，a₅为运动模型参数，采用以下方法计算得到。

由上式定义误差函数为

E (p; x) = [\begin{matrix} x_{t} - a_{1} x_{t - 1} - a_{2} y_{t - 1} - a_{0} \\ y_{t} - a_{4} x_{t - 1} - a_{5} y_{t - 1} - a_{3} \end{matrix}] - - - (7)

其中p＝(a₀，a₁，a₂，a₃，a₄，a₅)^T，x＝(x_t，y_t，x_t+1，y_t+1)为两匹配SIFT特征点在图像上的坐标。最小化下式可以求得运动模型参数

采用Gauss-Newton迭代法来优化上式。

2.2观测模型构建

以深度神经网络的输出作为粒子的相似度，由于共有5个深度神经网络，故粒子的相似度结合目标及子目标的深度神经网络输出，定义如下

p (z_{t} | x_{t}) &Proportional; θ_{1} \cdot c_{t}^{f} + θ_{2} \cdot \max (c_{t}^{t}, c_{t}^{b}, c_{t}^{l}, c_{t}^{r}) - - - (9)

其中θ₁，θ₂为相似度系数，满足θ₁+θ₂＝1，其值根据实验调整设置；为目标深度神经网络的输出，分别为四个子目标深度神经网络的输出。

2.3在线目标跟踪

待跟踪的目标由用户在首帧中标注得到，并且提取待跟踪目标图像区域中的SIFT特征。在首帧中提取目标的正负样本对离线训练得到的栈式稀疏自编码深度神经网络进行再训练得到目标的视觉专用表示模型。正样本集由选定目标区域根据以下变换方程得到，

(\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = (\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}) (\begin{matrix} 1 & s \\ s & 1 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) - - - (10)

其中(x，y)^T为选定目标区域中的像素点坐标，(x′，y′)^T为变换后的区域像素点坐标，θ，s为变换参数，θ为变换角度，取值范围为θ∈[-π/4，π/4]，s为变换尺度，取值范围为s∈[0.8，1.2]。随机选择一组(θ，s)值根据式(10)将目标模板进行变换作为一个训练正样本，负样本集则以选定目标区域之外的图像区域作为数据源，以不同的尺度及位置从这些数据源中提取负样本。

目标在线跟踪算法流程如图1所示。在本算法中还设定两个阈值a₁，a₂，且a₁＞a₂，其中a₁用来判定当前跟踪结果是否可靠，如果可信度超过该阈值，则将跟踪结果作为一个新的正样本，并从该区域以外的图像区域选择负样本，重新训练深度神经网络。a₂用来判定粒子滤波跟踪是否发生漂移，如果所有粒子的相似度都低于该阈值，则表明***失效，需要由深度神经网络扫描整个图像进行目标检测，并根据检测结果进行粒子滤波器重新初始化。

将本方法应用于视频的目标跟踪结果见图4。

Claims

1.一种结合特征点匹配及深度神经网络检测的目标运动跟踪方法。其特征在于包括以下步骤：

a)在VOC2010及Caltech101数据集进行栈式自编码神经网络训练得到目标的视觉先验。

b)提取的SIFT匹配点对并上建立目标函数，优化该目标函数得运动目标上下两帧间的运动模型。

c)在以上两步的基础上，利用粒子滤波进行运动目标跟踪。

2.根据权利要求1所述的一种结合特征点匹配及深度神经网络检测的目标运动跟踪方法，其特征在于：所述步骤b)中建立以下误差函数。

E (p; x) = [\begin{matrix} x_{t} - a_{1} x_{t - 1} - a_{2} y_{t - 1} - a_{0} \\ y_{t} - a_{4} x_{t - 1} - a_{5} y_{t - 1} - a_{3} \end{matrix}]