CN103413154A

CN103413154A - 基于归一化类谷歌量度矩阵的人体运动识别方法

Info

Publication number: CN103413154A
Application number: CN2013103852672A
Authority: CN
Inventors: 刘宏; 孙倩茹
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2013-11-27

Abstract

本发明涉及一种基于归一化类谷歌量度矩阵的人体运动识别方法，步骤为：1)提取人体运动视频中的兴趣点，基于3D时空坐标对每个兴趣点的周围局部区域进行局部描述，得到兴趣点子块的3D-SIFT局部运动特征值；2)根据3D-SIFT局部运动特征值对子块进行特征聚类得到多类特征；3)根据不同类特征进行空间归一化类谷歌量度和时间归一化类谷歌量度计算，并配组得到归一化类谷歌量度关系矩阵；4)将归一化类谷歌量度关系矩阵和词袋法局部特征统计直方图训练得到分类器，对人体运动进行识别。本发明增强了运动特征的统计描述能力，弱化局部特征或者子动作较为类似的运动类别间的类间混淆性，提高了复杂环境视频中的人体运动识别效率。

Description

基于归一化类谷歌量度矩阵的人体运动识别方法

技术领域

本发明涉及一种鲁棒的视频运动信息挖掘技术，特别是一种用来应对复杂视频拍摄环境的鲁棒的视频运动信息挖掘技术。具体涉及到一种挖掘局部运动特征子块间“共生”关系的中层运动描述方法，属于与运动执行者无关的视频人体运动识别技术领域。

背景技术

视频中的人体运动分析是计算机视觉研究领域的重要课题，同时也是近年来备受关注的前沿研究方向之一。它在智能监控、人机交互、虚拟现实、基于内容的视频检索与编码等领域具有重要的理论研究意义和应用前景。其主要内容就是通过对视频数据中包含的人体运动信息进行特征提取和模式识别来理解所包含的运动类别和意图，它涵盖图像处理、计算机视觉、模式识别与人工智能等多个学科。视频人体运动分析的基础是对视频中的人体运动信息进行合理有效的描述。目前较为前沿和主流的方法主要是基于局部运动特征的词袋方法，其优点在于其利用的时候大量局部特征的统计特性，高效并且在一定情况下的抗干扰能力强；缺点是大部分词袋方法忽略了视频中原有的局部特征间的位置相关信息，使得其对复杂运动的区分度和识别精度出现了较强的局限性。

其次，在低噪声环境下获取的视频中进行运动检测和识别已经可以达到较高的识别效率，但是针对实际环境中的视频，人体运动描述和识别仍然面临很多难题，如人体遮挡、视频模糊、拍摄视角变化等，所需要解决的问题就变得更加复杂。这就更加要求特征提取和建立的方法本身具有强大的运动信息表征能力。

发明内容

本发明的目的是通过分析、提取局部运动特征之间的“共生”关系，计算将归一化类谷歌量度矩阵(可参考Qianru Sun，Hong Liu.Action Disambiguation Analysis UsingNormalized Google-Like Distance Correlogram.In Proc.of Asian Computer VisionConference2012，Part III，LNCS7726，pages425-437，2013.)在时间轴上进行拓展，在原有的特征分布关系的基础上进行描述向量的扩充，从而增强描述子在复杂视频环境下的运动表征能力和类间区分度。最终使用得到的描述特征向量训练人体运动分类器，获得较为鲁棒的视频中的运动识别效果。在与传统的词袋方法得到的统计直方图结合的过程中，采用双通道非线性支持向量机分类器。

本发明的技术内容：基于归一化类谷歌量度矩阵的人体运动识别方法，其步骤包括：

1)提取人体运动视频中的兴趣点，基于3D时空坐标对每个兴趣点的周围局部区域进行局部描述，得到所述兴趣点子块的3D-SIFT局部运动特征值；

2)根据所述3D-SIFT局部运动特征值对所述子块进行特征聚类得到不同类特征；

3)根据所述不同类特征进行空间归一化类谷歌量度和时间归一化类谷歌量度计算，并配组得到归一化类谷歌量度关系矩阵；

4)将所述归一化类谷歌量度关系矩阵和词袋法局部特征统计直方图训练得到分类器，对人体运动进行识别。

更进一步，通过时空滤波器组得到视频中的兴趣点。

更进一步，所述3D时空坐标表示兴趣点的空间横纵坐标和时间点，3D-SIFT局部运动特征值按照如下方法获得：

1)在任意一个检测到的兴趣点p(x，y,t)周围取2*2*2的像素模块，对其梯度极坐标进行计算：

m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}}

θ(x，y,t)=tan^-1(L_y／L_x)

φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{\sqrt{L_{x}^{2} + L_{y}^{2}}})

2)其中的逼近算法L_x=L(x+1，y,t)-L(x-1，y,t)，L_y=L(x，y+1，t)-L(x，y-1，t)，L_t=L(x，y，t+1)-L(x，y，t-1)；

3)对计算得到的极坐标值在以间隔

的八个均匀的方向上进行统计，得到的统计直方图即为该中心兴趣点的3D-SIFT局部运动特征。

更进一步，采用K均值法聚类方法对所述子块进行特征聚类，所述K均值算法步骤如下：

1)确定特征聚类的中心点的个数k，随机选择k个训练样本中的3D-SIFT特征值直接作为k个中心点；

2)对每个新特征值计算离它最近的中心点，确定其聚类中心点；

3)新增后计算此类3D-SIFT特征值的新的中心点，更新中心点的值；

4)重复以上步骤2)直到满足每个类的收敛要求。

更进一步，所述空间归一化类谷歌量度按照如下公式计算：

{ngld}^{S} (i, j) = \frac{\max {f^{S} (i), f^{S} (j)} - f_{τ}^{S} (i, j)}{T - \min {f^{S} (i), f^{S} (j)}}

其中，T代表视频的总的帧数，S表示此时计算的是空间域的量度，并无实际数值，

表示空间域里单词i的自发生次数，f^S(j)表示空间域里单次j的自发生次数，

表示单词i和j在τ时间切片中的“共生”次数，其中τ表示每一个小的时间切片中包含的连续几帧图像的帧数。

更进一步，所述时间归一化类谷歌量度按照如下公式计算：

{ngld}^{T} (i, j) = \frac{\max {f^{T} (i), f^{T} (j)} - f_{w, h}^{T} (i, j)}{S - \min {f^{T} (i), f^{T} (j)}}

其中，T表示此时计算的是时间域的量度，

表示时间域里单词i的自发生次数，

表示单词i和j在空间小格子(w，h)中的“共生”次数。

更进一步，S表示将一帧图像划分为这种长方形小格子的数量，围绕视频的某一时间轴线无限延伸的长方体，其中(w，h)表示一个以时间做轴心的长方体小格子的宽度和高度，长为时间；其单位都是像素。

更进一步，采用如下多通道核函数的支持向量机训练所述分类器：

κ (x_{i}, x_{j}) = \exp (- Σ_{c} dist (x_{i}^{c}, x_{j}^{c}) / A_{c})

其中，x_i，x_j表示两个不同描述子的特征值，c表示通道标号，A_c是一个归一化因子，通过计算通道c下的所有特征值的平均距离得到。

更进一步，针对不同的描述子使用不相同的量度dist建立支持向量机的核函数。

更进一步，对新建的类谷歌距离矩阵描述子采用欧几里得距离建立支持向量机的核函数；对词袋方法得到的统计直方图采用直方图距离χ²距离建立支持向量机的核函数。

本发明的技术效果：

本发明通过对局部特征统计特性的拓展计算改进了传统的词袋方法，结合了视频原有的运动特征点与特征点之间的时空位置关系，增强了运动特征的统计描述能力，弱化了局部特征或者子动作较为类似的运动类别间的类间混淆性，提高了复杂环境视频中的人体运动识别效率，使得本就高效的局部运动特征在实际的视频拍摄环境中有了更大更广泛的应用前景。

附图说明

图1是本发明中归一化类谷歌量度矩阵与词袋方法相结合的总体运动识别框图；

图2是本发明中时间域和空间域的“共生”关系概念图；其中的参数意义如下：τ表示时间小邻域的大小，即若干帧数；w，h表示空间小邻域的宽和高；W，H，T表示视频3D信息的图像宽度高度和视频时间；另外i₁，i₂，j₁，j₂代表检测得到的特征点的位置。

图3(a)-图3(c)是采用本发明中的方法和词袋方法对易混淆运动进行区分的效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明首先是基于如下原理进行实施的：

1.改进传统的基于局部运动特征的词袋方法

分析传统的基于局部特征的词袋建立方法(可参考L.Fei-Fei，P.Perona.A BayesianHierarchical Model for Learning Natural Scene Categories.In Proc.of IEEE ComputerVision and Pattern Recognition.pp.524-531.2005.和L.Fei-Fei，R.Fergus，and A.Torralba.Recognizing and Learning Object Categories.CVPR2007short course.)，可以看出，虽然其对视频尺度变化和局部遮挡的处理效果较好，但由于其主要利用的是检测到的所有独立的局部特征在某种距离量度下的分类统计直方图，是宏观的统计结果，完全忽略了每个特征本身的在整个视频中的位置特征以及特征与特征之间的在时间上和空间上的相对出现位置关系，这样就导致信息缺失，同时限制了识别精度的提升。因此，这类传统的词袋方法不利于识别易发生混淆的人体运动或者复杂环境下的人体运动。

本发明考虑到上述传统词袋方法的缺陷，在提取到基本的特征点之后，即对视频中的局部显著运动点通过空间滤波器和时间滤波器进行定位之后，首先对特征点进行局部描述，对描述向量按照基本的聚类算法，如K均值法(可参考MacKay，David(2003).Chapter20.AnExample Inference Task：Clustering.Information Theory，Inference and LearningAlgorithms.Cambridge University Press.pp.284-292.ISBN0-521-64298-1.MR2012999.)，进行局部特征的类别划分，每一组分类结果作为一个特征集合。接下来，统计视频中不同特征的两两“共同发生”(简称“共生”)频率，其中统计分为两个方向：空间方向和时间方向，即统计两类特征集合中的某一对点同时出现在空间或者时间的小邻域内的频率。对两两特征的“共生”统计频率按照归一化类谷歌量度计算，即可得到全部特征间的空间共生关系矩阵(可参考Qianru Sun，Hong Liu.Action Disambiguation Analysis UsingNormalized Google-Like Distance Correlogram.In Proc.of Asian Computer VisionConference2012，PartIII，LNCS7726，pages425-437，2013.)和类似的时间共生关系矩阵。最后，将两个矩阵进行加和得到的描述子与原有的词袋统计特性直方图进行结合得到最终的运动描述子。新描述子由于包含了运动特征点之间的相对位置关系信息，丰富了传统词袋描述子的信息量，从而提升了其整体的运动区分特性。

2.设计鲁棒性较强的双通道非线性支持向量机分类器训练方法

由于本发明旨在将视频中的局部运动特征间的“共生”关系矩阵与传统的词袋方法相结合，最大限度的对视频的3D信息进行充分描述。因此，针对特征结合这部分，本发明采用了双通道非线性支持向量机分类器。其中，针对不同的描述子使用不相同的量度建立支持向量机的核函数：对词袋方法得到的统计直方图采用较常见的直方图距离x²距离；对新建的类谷歌距离矩阵描述子采用欧几里得距离。一方面矩阵计算速度快，一方面通过针对不同的特征向量选择对其较为合理的量度也就提升了整体的识别精度。

其中对于两个三维空间中的特征点(x₁，y₁，t₁)和(x₂，y₂，t₂)来说，它们的x²距离和欧几里得距离分别如下：

{dist}_{χ^{2}} = \frac{1}{2} (\frac{{(x_{1} - x_{2})}^{2}}{x_{1} + x_{2}} + \frac{{(y_{1} - y_{2})}^{2}}{y_{1} + y_{2}} + \frac{{(t_{1} - t_{2})}^{2}}{t_{1} + t_{2}})

{dist}_{Euclid} = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2} + {(t_{1} - t_{2})}^{2}}

以下结合附图对本发明进行详细的说明。

参考图1，本发明基于归一化类谷歌量度矩阵与词袋方法，具体的矩阵建立方法如下：对于一段包含人体运动或者行为的视频进行如下操作：

1、兴趣点提取：

本发明的兴趣点提取部分采用的是基于如下的时空滤波器组得到的兴趣点(可参考P.Dollar，V.Rabaud，G.Cottrell，S.Belongie.Behavior recognition via sparsespatiotemporal features.IEEE International Workshop on Visual Surveillance andPerformance Evaluation of Tracking and Surveillance，Beijing，China，2005：65-72.)。这是一种基于周期性运动的兴趣点检测方法，即利用2D空间高斯平滑核函数g外加一对1D时间高斯核函数h_ev，h_od公式(2)、公式(3)构造三维响应函数R公式(1)(可参考P.Dollar，V.Rabaud，G.Cottrell，S.Belongie.Behavior recognition via sparse spatiotemporalfeatures.IEEE International Workshop on Visual Surveillance and PerformanceEvaluation of Tracking and Surveillance，Beijing，China，2005：65-72.)。

所要获取兴趣点的个数是通过手动调整两个核函数的尺度参数来进行设定的。本发明中的运动点检测是在某一固定尺度参数下进行的。

R=(I*g*h_ev)²+(I*g*h_od)² (1)

\{\begin{matrix} h_{ev} (t; τ, ω) = - \cos (2 πtω) e^{- t^{2} / τ^{2}} & (2) \\ h_{od} (t; τ, ω) = - \sin (2 πtω) e^{- t^{2} / τ^{2}} & (3) \end{matrix}

其中，I表示当前处理的图像(灰度值矩阵)。假设x是二维向量，x_c是一个表示中心点的二维向量，那么二维空间的高斯平滑核函数g的形式如下：

g(||x-x_c||)=exp{-||x-x_c||²／(2σ²)} (4)

σ为核函数的宽度参数，控制了函数的径向作用范围，即为滤波器的空间尺度。另外，公式(2)(3)中的τ，ω分别为这一对时间滤波器的时间尺度和空间尺度，值得注意的是本发明中时空尺度的一致性是通过设定ω=σ／4得到的。

2、局部运动特征描述

在得到局部兴趣点之后，对每一个兴趣点的周围局部区域进行局部区域描述作为该点初的局部运动特征，本发明所使用的局部特征是3D-SIFT特征(可参考P.Scovanner，S.Ali，M.ShahHAH.A3-Dimensional SIFT Descriptor and its Application to Action Recognition.ACM Conf.Multimedia，Augsburg，Germany，2007：357-360.)，具体的特征计算过程如下：

在任意一个检测到的兴趣点p(x，y，t)周围取2*2*2的像素模块，对其梯度极坐标进行计算：

m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}} - - - (5)

θ(x，y，t)=tan^-1(L_y／L_x) (6)

φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{\sqrt{L_{x}^{2} + L_{y}^{2}}}) - - - (7)

其中的逼近算法L_x＝L(x+1，y，t)-L(x-1，y，t)，L_y＝L(x，y+1，t)-L(x，y-1，t)，L_t＝L(x，y，t+1)-L(x，y，t-1)。其中的x，y，t分别表示兴趣点的空间横纵坐标和时间点，即3D时空坐标。对计算得到的极坐标值在以间隔

的八个均匀的方向上进行统计，得到的统计直方图即作为该中心兴趣点的3D-SIFT特征。

3、子块特征聚类

本发明中采用的聚类方法是K均值法(可参考L.Fei-Fei，P.Perona.A BayesianHierarchical Model for Learning Natural Scene Categories.In Proc.of IEEE ComputerVision and Pattern Recognition.pp.524-531.2005.和L.Fei-Fei，R.Fergus，and A.Torralba.Recognizing and Learning Object Categories.CVPR2007short course.)，主要原理是以特征空间中k个特征点为中心进行聚类，将最靠近某一特征点的特征集合归为一类，并在不断添加特征的过程中更新特征点中心的位置。具体的K均值算法步骤如下：

算法之前先确定特征聚类的中心点的个数k：

1)随机选择k个训练样本中的3D-SIFT特征值直接作为k个中心点；

2)对每个新特征值计算离它最近的中心点，即确定其聚类中心点；

3)添加进去之后，计算此类3D-SIFT特征值的新的中心点，即更新中心点的值；

4)重复以上步骤2)和直到满足每个类的收敛要求。

4、空间共生矩阵建立

本发明的空间共生关系矩阵的是基于对上述聚类得到的不在同一类中的特征间进行计算两者的归一化类谷歌量度(“量度”即为“距离”)得到的，计算分为两部分：空间归一化类谷歌量度和时间归一化类谷歌量度。其中空间域的归一化类谷歌量度计算公式(可参考QianruSun.Hong Liu.Action Disambiguation Analysis Using Normalized Google-Like DistanceCorrelogram.In Proc.of Asian Computer Vision Conference2012，Part III，LNCS7726，pages425-437，2013.)如下：

{ngld}^{S} (i, j) = \frac{\max {f^{S} (i), f^{S} (j)} {- f}_{τ}^{S} (i, j)}{T - \min {f^{S} (i), f^{S} (j)}} - - - (8)

其中，T代表视频的总的帧数，S表示此时计算的是空间域的量度，并无实际数值，f^S(i)表示空间域里单词i的自发生次数，f^S(j)表示空间域里单次j的自发生次数，

表示单词i和j在τ时间切片中的“共生”次数，计算公式分别如下：

其中τ表示每一个小的时间切片中包含的连续几帧图像的帧数，本发明中设置的τ＝3帧。

5、时间共生矩阵建立

时间域的归一化类谷歌量度计算公式如下：

{ngld}^{T} (i, j) = \frac{\max {f^{T} (i), f^{T} (j)} - f_{w, h}^{T} (i, j)}{S - \min {f^{T} (i), f^{T} (j)}} - - - (11)

其中，T表示此时计算的是时间域的量度，f^T(i)表示时间域里单词i的自发生次数，

表示单词i和j在空间“小格子”(w，h)中的“共生”次数，计算公式分别如下：

围绕视频的某一时间轴线无限延伸的长方体，其中长即为时间，宽是w，高为h。其中(w，h)表示一个以时间做轴心的长方体小格子的宽度和高度。公式(11)中的S表示将一帧图像划分为这种长方形小格子的数量。本发明中设置的w＝3，h＝3，其单位都是像素。

当将不同特征(单词)间的空间和时间归一化类谷歌量度全部计算好之后，两两配组便可得到两个归一化类谷歌量度关系矩阵。

6、模型学习

本发明为了将词袋方法的局部特征统计直方图和新提出的归一化类谷歌量度矩阵描述子结合起来得到更为鲁棒的人体运动描述子，采用如下的多通道核函数的支持向量机来训练分类器。核函数的表示形式如下：

κ (x_{i}, x_{j}) = \exp (- Σ_{c} dist (x_{i}^{c}, x_{j}^{c}) / A_{c}) - - - (14)

其中，x_i，x_j表示两个不同描述子的特征值，c表示通道标号，A_c是一个归一化因子，是通过计算通道c下的所有特征值的平均距离得到的。针对不同的描述子使用不相同的量度dist建立支持向量机的核函数：对词袋方法得到的统计直方图采用较常见的直方图距离χ²距离；对新建的类谷歌距离矩阵描述子采用欧几里得距离。

对已经训练好的支持向量机来说，它作为一个分类器，它的输入是上面一系列操作得到的视频中的运动描述子，输出是对当前视频中所包含的运动所属类别的一个分类结果。

如图3(a)-图3(c)所示是词袋方法(原BoW描述子)和本发明(NGLDC描述子)对易混淆运动进行区分的效果对比图。由附图可以得知，当两个运动易混淆的时候，越是能拉大两者之间的距离的描述子，其运动描述能力也就越强。图中我们对距离的计算使用的是最为常用的欧几里得距离。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的最佳实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.基于归一化类谷歌量度矩阵的人体运动识别方法，其步骤包括：

2.如权利要求1所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，通过时空滤波器组得到视频中的兴趣点。

3.如权利要求1所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，所述3D时空坐标表示兴趣点的空间横纵坐标和时间点，3D-SIFT局部运动特征值按照如下方法获得：

1)在任意一个检测到的兴趣点p(x，y，t)周围取2*2*2的像素模块，对其梯度极坐标进行计算：

m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}}

θ(x，y，t)=tan^-1(L_y／L_x)

φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{(L_{x}^{2} + L_{y}^{2})})

2)其中的逼近算法L_x=L(x+1，y，t)-L(x-1，y，t)，L_y=L(x，y+1，t)-L(x，y-1，t)，L_t=L(x，y，t+1)-L(x，y，t-1)；

3)对计算得到的极坐标值在以间隔的八个均匀的方向上进行统计，得到的统计直方图即为该中心兴趣点的3D-SIFT局部运动特征。

4.如权利要求1所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，采用K均值法聚类方法对所述子块进行特征聚类，所述K均值算法步骤如下：

4)重复以上步骤2)直到满足每个类的收敛要求。

5.如权利要求1所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，所述空间归一化类谷歌量度按照如下公式计算：

{ngld}^{S} (i, j) = \frac{\max {f^{S} (i), f^{S} (j)} - f_{τ}^{S} (i, j)}{T - \min {f^{S} (i), f^{S} (j)}}

6.如权利要求1所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，所述时间归一化类谷歌量度按照如下公式计算：

{ngld}^{T} (i, j) = \frac{\max {f^{T} (i), f^{T} (j)} - f_{w, h}^{T} (i, j)}{S - \min {f^{T} (i), f^{T} (j)}}

其中，T表示此时计算的是时间域的量度，

表示时间域里单词i的自发生次数，表示单词i和j在空间小格子(w，h)中的“共生”次数。

7.如权利要求6所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，S表示将一帧图像划分为这种长方形小格子的数量，围绕视频的某一时间轴线无限延伸的长方体，其中(w，h)表示一个以时间做轴心的长方体小格子的宽度和高度，长为时间；其单位都是像素。

8.如权利要求1所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，采用如下多通道核函数的支持向量机训练所述分类器：

κ (x_{i}, x_{j}) = \exp (- Σ_{c} dist (x_{i}^{c}, x_{j}^{c}) / A_{c})

9.如权利要求8所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，针对不同的描述子使用不相同的量度dist建立支持向量机的核函数。

10.如权利要求9所述的基于归一化类谷歌量度矩阵的人体运动识别方法，其特征在于，对新建的类谷歌距离矩阵描述子采用欧几里得距离建立支持向量机的核函数；对词袋方法得到的统计直方图采用直方图距离χ²距离建立支持向量机的核函数。