CN103037140A

CN103037140A - 一种基于块匹配的鲁棒性极强的目标跟踪算法

Info

Publication number: CN103037140A
Application number: CN2012105480237A
Authority: CN
Inventors: 李竹
Original assignee: HANGZHOU GUOCE MAP TECHNOLOGY Co Ltd
Current assignee: HANGZHOU GUOCE MAP TECHNOLOGY Co Ltd
Priority date: 2012-12-12
Filing date: 2012-12-12
Publication date: 2013-04-10
Anticipated expiration: 2032-12-12
Also published as: CN103037140B

Abstract

本发明涉及一种基于块匹配的鲁棒性极强的目标跟踪算法，该算法在追踪目标物体的同时还可以提供目标物体各个部分的详细运动信息。该算法将由摄像头获取的视频图像以及目标物体的模板图像分割为像素块。然后计算输入图像以及特定物体的模版图像的各个像素块之间的颜色差异值并建立一个效益矩阵。然后该算法建立对全局颜色差异值和形状结构差异值同时最优化的目的函数。最后用遗传算法计算能得到最优解的匹配结果，从而得到目标物体的各个部分在视频图像中的位置。由于在最优化时加入了形状结构差异约束，使该算法与传统算法相比具有更强的鲁棒性。此外由该算法得到的各个部分的详细运动信息对进一步的运动分析非常有效。

Description

一种基于块匹配的鲁棒性极强的目标跟踪算法

技术领域

本发明涉及计算机视觉的技术领域，特别涉及一种基于块匹配并可以提供目标物体各个部分的详细运动信息的目标物体的追踪方法。

背景技术

在摄像头获取的视频中的特定物体的追踪是计算机视觉研究领域的一个热点，在机器人视觉，视频监控等***中有着广阔的应用前景。传统方法如背景差分法，连续帧间差分法在摄像头固定的情况下可以实现较为良好的追踪效果，但是在移动摄像头的情况下却无法应用。

许多研究人员提出可以应用于移动摄像头的追踪方法。如光流法，基于SIFT特征点的匹配法，Mean-Shift法和粒子滤波法。然后在实际的移动摄像头的视频追踪中，上述方法任不能解决以下一些问题。

(1)当目标物体受到光照，阴影，摄像头视角变化，目标物体尺寸变化，噪音等环境因素影响时，上述方法往往会追踪失败。

(2)上述方法中SIFT特征点法，Mean-Shift法和粒子滤波法在追踪中无法提供目标物体各个部分的对应关系。如在目标物体中，颜色平滑变化的部分SIFT特征点无法被提取，特征点匹配无法实现。而Mean-Shift法和粒子滤波法只能实现对目标物体的整体追踪，而无法提供目标物体各个部分的运动信息。而目标物体的各部分的详细运动信息对物体的运动分析与识别是十分有用的。

发明内容

本发明的目的在于，提供一种可以应用于移动摄像头视频的对环境因素变化鲁棒性极强的目标物体追踪方法。该方法可以在光照，阴影，摄像头视角变化，目标物体尺寸变化，噪音等影响下顺利追踪目标物体。此外，该方法在追踪目标物体的同时还可以提供目标物体各个部分的详细运动信息，这一特点使本方法对进一步目标物体行为分析非常有用。

为了实现上述发明目的，本发明提供了一种基于块匹配的新的目标物体跟踪方法，该方法首先将由移动摄像头获得的视频图像和目标物体的模板图像按如下方法分割为像素块：

假设像素块的尺寸为n×n(单位：像素)，

由移动摄像头获得的视频图像的尺寸为h×w(单位：像素)，

则由视频图像得到像素块的个数为N＝w/n×h/n。

之后对目标物体的模板图像经行蒙板处理。如果一个像素块中背景像素超过全像素数的百分之五十，这个像素块将被除去。在此，假设得到的像素块的个数为M。

由此可以建立一个大小为M×N的效益矩阵。

效益矩阵的元素为视频图像的像素块和模板图像的像素块之间的色彩相似度。

模板图像在视频图像中的定位追踪问题可由此转化为视频图像的像素块和模板图像的像素块之间的1对1的匹配问题。匹配结果即模板图像的各个部位在视频图像中的位置。

视频图像的像素块于模板图像的像素块之间的匹配应该满足以下条件：

相匹配的像素块之间的相似度的累加总值最大，即该1对1的匹配问题可以视为一个全局色彩相似度最大化的最优化问题。

当目标物体在视频图像中缩小时，视频图像中目标物体的像素块的个数将会小于M。因此，模板图像的像素块与视频图像中目标物体的像素块的1对1匹配将会不成立。针对这个问题，作为上述技术方案的一种改进，本方案对M×N的原效益矩阵进行扩展。

假设目标物体的像素块个数由M减少为M_min，则缩小系数K＝M/M_min。

则M×N原效益矩阵被扩展为M×KN。效益矩阵的扩展部分的元素值与原效益矩阵相同。

当目标物体的一部分在视频图像中被遮蔽时，模板图像的像素块与视频图像中目标物体的像素块的1对1匹配也将会不成立。针对这个问题，作为上述技术方案的进一步改进，本方案对效益矩阵进行进一步的扩展。

在M×KN的效益矩阵上追加大小为M×N阈值矩阵。阈值矩阵的元素值为预设的阈值，即模板图像的像素块与视频图像中的任何图像的相似度均低于阈值矩阵中的阈值时，此像素块被视为不存在于视频图像中。

因此原效益矩阵经过扩展的最终尺寸为M×(KN+M).

视频图像的像素块与模板图像的像素块的匹配问题的数学表达式可以由以下公式来表达：

Minimize

C = Σ_{i = 1}^{M} Σ_{j = 1}^{K \times N + M} p_{ij} c_{ij},

s.t

Σ_{j = 1}^{K \times N + M} p_{ij} = 1 i = {1,2, . . ., M}

Σ_{i = 1}^{M} p_{ij} \leq 1, j = {1,2, . . ., K \times N + M},

P_ij＝{0，1}

c_{ij} = \{\begin{matrix} similarity {{Template}_{i} . {Current}_{j}} \\ i = {1,2, . . ., M}, j = {1,2, . . ., K \times N + M}, \\ threshold for vanishing \\ i = {1,2, . . ., M}, j = {K \times N + 1 . . ., K \times N + M} . \end{matrix}

其中：

K：前述的预设缩小系数。

similarity{Template_i，Current_j}：模板图像的像素块i与视频图像的像素块j之间的类似度。

threshold for vanishing：预设的阈值。如果模板图像的像素块与阈值相匹配，则此模板图像的像素块被视为不存在于视频图像中。

在实际计算中，色彩相似度由两个像素块的直方图之间的距离来计算。因此，全局色彩相似度最大化实际为将C最小化。这个1对1的最优化匹配可以视为1次指派问题，并求解。

当目标物体在视频图像中受到光照，阴影，摄像头视角变化，目标物体尺寸变化，噪音等影响时，模板图像的像素块的颜色会与目标物体的像素块颜色产生显著的差异，然而目标物体的形状结构却不会发生突然的强烈变化。在这种情况下，仅仅使用颜色信息来计算像素块之间的类似度往往得不到良好的匹配效果。作为上述技术方案的又一种改进，本方案在最优化匹配中加入像素块相对位置的约束条件。

假设模板图像的像素块为Q_i和Q_j，它们分别于视频图像的像素块P_i和P_j相匹配。Q_i和Q_j的相对位置以及P_i和P_j的相对位置可以用向量和

来表示。因此，相对位置的变化可以用范数来计算，计算方法如下：

S_{ij} = | | \overset{&RightArrow;}{P_{i} P_{j}} - \overset{&RightArrow;}{Q_{i} Q_{j}} | | .

进而，模板图像的所有像素块的相对位置变化计算如下：

S = Σ_{i = 1}^{M} Σ_{j = 1}^{M} S_{ij} .

添加了形状结构约束的目标物体追踪问题则变为下述的最优化问题。

E＝w*C+S

其中E为最优化的目的函数，C为前述的色彩差异最小化的目的函数，S为物体的形状结构的目的函数。

上述最优化问题中，由于形状结构目的函数的计算取决于像素块的相对位置，现有的最优化算法无法保证在短时间内得到最优解。作为上述技术方案的又一种改进，本方案提出使用遗传算法来实现在很短的计算时间内得到近似最优解。

为了进一步改善得到近似最优解的近似解，作为上述技术方案的又一种改进，本方案所使用的遗传算法，在生成初始群体的时候，并不像普通遗传算法那样随机生成初始个体。而是先求出全局色彩差异最小的1对1匹配结果，即先对上述最优化问题中的C进行最优化求解。然后使用该解生成初始个体。

作为上述技术方案的进一步改进，在执行遗传算法时并不使用原始效益矩阵，而是先生成原始效益矩阵的稀疏矩阵，然后对稀疏矩阵执行遗传算法求解。

作为上述技术方案的又一种改进，本方案在实行块匹配的时候采用金字塔法，即先用较大尺寸的块进行匹配，得到匹配结果之后，对匹配结果使用较小尺寸的块进行进一步的匹配以得到更加精确的匹配结果。

本发明的优点在于可以实现一种提供目标物体各个部分详细运动信息的目标物体追踪。而基于特征点的追踪方法只能提供可以提取特征点的部分的运动信息。这一特点使本方法对进一步的运动分析非常有利。此外，本发明的技术方案由于考虑到了目标物体形状结构变化的最优化，可以实现比传统的追踪算法效果更好的追踪效果，特别是对光照，阴影，摄像头视角变化，目标物体尺寸变化，噪音等环境因素的影响有着极强的鲁棒性。

附图说明

图1是摄像头获取的视频图像的分割示意图。

图2是模板图像的分割示意图。

图3是色彩差异最有小化的矩阵的最终形式。

图4是形状结构变化约束的示意图。

具体实施方式

图1是由摄像头获取的视频图像，多边形为目标物体。如图1的虚线所示，将视频图像平均分割为若干个像素块，假设个数为N。

图2是目标物体的模板图像，如图2的虚线所示，将目标物体的模板图像平均分为若干个像素块。其中斜线标注的像素块因为含有半数以上的背景像素而除去，灰色的像素块为保留的像素块。假设保留的像素块个数为M。

在实际操作中，视频图像的像素块与模板图像的像素块之间的色彩差异通过下式计算：

c_ij＝αD_HSV+(1-α)D_HOG。

其中C_ij像素块i和像素块j之间的色彩差异度。差异度由两种成分计算而得。D_HSV代表像素块i的HSV色彩直方图和像素块j的HSV色彩直方图之间的巴氏距离。D_HOG代表像素块i和像素块j的HOG直方图之间的巴氏距离。

其中巴氏距离的计算公式如下：

d = \sqrt{1 - Σ_{u = 1}^{m} \sqrt{p^{(u)} q^{(u)}}}

其中p和q分别代表2个经过归一化的直方图。

通过计算得到视频图像所有像素块和模板图像所有像素块之间的色彩差异度之后，可以建立一个基本效益矩阵。效益矩阵的匹配结果即模板图像的各个部位在视频图像中的位置。

当目标物体在视频图像中缩小时，视频图像中目标物体的像素块的个数将会小于M。因此，模板图像的像素块与视频图像中目标物体的像素块的1对1匹配将会不成立。假设目标物体的像素块个数由M减少为M_min，则缩小系数K＝M/M_min。则M×N原效益矩阵被扩展为M×KN。效益矩阵的扩展部分的元素值与原效益矩阵相同。当目标物体的一部分在视频图像中被遮蔽时，模板图像的像素块与视频图像中目标物体的像素块的1对1匹配也将会不成立。针对这个问题，本方案对效益矩阵追加了M×M的阈值矩阵。

图3为本方案提出的效益矩阵的最终形式一个例子。在这个例子中缩小系数为3。

在对色彩差异进行最优化处理的同时，本方案还在最优化处理中加入了形状结构变化的约束。即最优化同时对色彩差异和形状结构变化进行最优化。

图4为形状结构变化的计算的例子。图中如果考虑色彩差异最优化，Q_i和P_j相匹配。显然这个匹配结果是不正确。然而由于P_j的形状结构变动较大，不能达到色彩差异和结构变化的同时最优化。经过最优化，可以实现Q_j与正确的位置相匹配。

本方案的最优化问题最后可以表示为下式：

E＝w*C+S

由于这是一个二次指派问题，现有的最优化算法无法保证在短时间内得到最优解。在实际执行中，本方案使用遗传算法来实现在很短的计算时间内得到近似最优解，并使用初始值优化，稀疏矩阵和金字塔法进行计算时间的改进。

在实际的追踪中，本方案的执行步骤如下：

(1)将视频图像以及模板图像用尺寸为16×16的像素块进行分割，并生成扩展过的效益矩阵。

(2)计算得出色彩差异最小化的匹配结果，并用匹配结果生成遗传算法的初始群体。

(3)此生成效益矩阵的稀疏矩阵。具体方法为在矩阵每行的N个元素中只保留色彩差异最小的M个元素。

(4)使用遗传算法来计算同时考虑色彩差异和形状结构变动的最优化问题的近似最优匹配结果。假设在视频图像中被匹配的像素块的集合为B1。

(5)对B1经行图像形态学的膨胀处理，得到的像素块的集合为B2。这一处理是为了确保在金字塔法的下一个阶段中，集合B1周围的像素块不会被遗漏。

(6)将视频图像以及模板图像用尺寸为8×8的像素块进行分割，并生成扩展过的效益矩阵。

(7)执行遗传算法对重新生成的效益矩阵进行最优化，并得到最终的优化结果，即模板图像各部分在视频图像中的位置。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。本领域的技术人员应当理解，对本发明的技术方案进行修改或者等同替换，如最优化问题的解法，色彩差异的计算等都不脱离本发明技术方案的精神和范围，均应覆盖在本发明的权利要求范围当中。

Claims

1.一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是将输入视频图像和模板图像分割为像素块，然后计算视频图像的各个象素块和模板图像的各个像素块之间的色彩差异值，并建立一个效益矩阵并进行扩展，然后建立对全局颜色差异值和形状结构差异值同时最优化的目的函数，最后用包括金字塔法，优化初始值和稀疏效益矩阵法三种优化法的遗传算法计算得到最优解的匹配结果，从而得到目标物体的各个部分在视频图像中的位置。

2.根据权利要求1所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是将输入视频图像和模板图像分割为大小尺寸相等的象素块。

3.根据权利要求2所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是计算视频图像的各个象素块和模板图像的各个象素块之间的色彩差异值，并建立一个尺寸为M×N的原始效益矩阵，其中M是模板图像的象素块个数，N是视频图像的象素块个数。

4.根据权利要求1或2或3所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是建立一个尺寸为M×(KN+M)的扩展效益矩阵，K是缩小系数。

5.根据权利要求4所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是M×(KN+M)的效益矩阵中包括K个尺寸为M×N的原始效益矩阵和一个尺寸为M×M的阈值矩阵。

6.根据权利要求4所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是在只考虑色彩差异最优化的情况下，其最优化匹配的数学表达为：

Minimize

C = Σ_{i = 1}^{M} Σ_{j = 1}^{K \times N + M} p_{ij} c_{ij},

s.t

Σ_{j = 1}^{K \times N + M} p_{ij} = 1 i = {1,2, . . ., M}

Σ_{i = 1}^{M} p_{ij} \leq 1, j = {1,2, . . ., K \times N + M},

P_ij＝{0，1}

c_{ij} = \{\begin{matrix} similarity {{Template}_{i} . {Current}_{j}} \\ i = {1,2, . . ., M}, j = {1,2, . . ., K \times N + M}, \\ threshold for vanishing \\ i = {1,2, . . ., M}, j = {K \times N + 1 . . ., K \times N + M} . \end{matrix}

其中K为缩小系数，similarity{Templatei，Currentj}为模板图像的像素块i与视频图像的像素块j之间的类似度，threshold for vanishing为预设的阈值。

7.根据权利要求5所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是如果模板图像的像素块与阈值相匹配，则此模板图像的像素块被视为不存在于视频图像中。

8.根据权利要求1所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是加入了形状结构差异约束的最优化目的函数，该目的函数可以表示为：

E＝w*C+S，其中E为最优化的目的函数，C为前述的色彩差异最小化的目的函数，S为物体的形状结构差异最优化的目的函数。

9.根据权利要求8所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是当模板图像的像素块Q_i和Q_j，分别与视频图像的像素块P_i和P_j相匹配时，Q_i和Q_j的相对位置以及P_i和P_j的相对位置可以用向量

和

来表示，而相对位置的变化可以用范数来计算：

S_{ij} = | | \overset{&RightArrow;}{P_{i} P_{j}} - \overset{&RightArrow;}{Q_{i} Q_{j}} | | .

而模板图像的所有像素块的相对位置变化的计算方法为：

S = Σ_{i = 1}^{M} Σ_{j = 1}^{M} S_{ij} .

10.根据权利要求8所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是使用包括金字塔法，优化初始值和稀疏效益矩阵三种优化法遗传算法来寻找近似最优解。

11.根据权利要求10所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是遗传算法在生成初始群体的时候，先求出全局色彩差异最小的匹配结果，然后使用该解生成初始个体。

12.根据权利要求10所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是在执行遗传算法时先生成原始效益矩阵的稀疏矩阵，然后对稀疏矩阵执行遗传算法求解。

13.根据权利要求10所述的一种基于块匹配的鲁棒性极强的目标跟踪算法，其特征是在使用遗传算法实行块匹配的时候采用金字塔法，即先用较大尺寸的块进行匹配，得到匹配结果之后，对匹配结果使用较小尺寸的块进行进一步的匹配以得到更加精确的匹配结果。