CN106845375A

CN106845375A - 一种基于层级化特征学习的动作识别方法

Info

Publication number: CN106845375A
Application number: CN201710010477.1A
Authority: CN
Inventors: 李文辉; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-01-06
Filing date: 2017-01-06
Publication date: 2017-06-13

Abstract

本发明公开了一种基于层级化特征学习的动作识别方法，包括以下步骤：将训练集区域块的特征聚类，利用词袋模型对所有区域块进行特征重表征，得到高层块的特征，将一个视频中所有块的特征进行均值池化，得到视频序列的特征集；利用支持向量机对视频序列的特征集建模，得到模型参数；选取测试集中的动作序列作为测试序列，通过两层的聚类以及词袋模型，提取动作序列的特征，将特征输入模型中，得到动作序列的动作类别号。本方法通过基于层级化特征学习的动作识别方法来提取具有更好分辨度以及更丰富的特征来进行动作特征表征，使得模型的学习更加高效，提高了动作识别的识别率；通过实验验证，本方法取得了较高准确率，满足了实际应用中的多种需要。

Description

一种基于层级化特征学习的动作识别方法

技术领域

本发明涉及图像处理和模式识别领域，尤其涉及一种基于层级化特征学习的动作识别方法。

背景技术

计算机视觉技术是一种通过对人类视觉的模拟，将现实中的二维图像或三维视频通过处理和分析实现对周围环境信息的识别与理解。在当前图像视频日益成为人们获取视觉信息的手段的背景下，计算机视觉技术得到了很好的发展。作为计算机视觉研究领域的一部分，基于视觉信息的人体动作分析与识别成为了当前热门的研究方向之一。人体动作识别是指通过计算机视觉技术和机器学习方法对图像序列或者视频中的人体行为进行识别。近几年来，人体动作识别广泛的应用于智能监控、视频检索、人机交互、行为分析、虚拟现实等方面，已取得了良好的进展。

在对样本进行特征提取与建模的过程中，人体动作识别方法可以分为两种：基于时空整体的方法与基于时间序列的方法。在基于时空整体的研究方法中，研究者将视频数据看成是一个三维时空立方体，而人体动作就存在于这个时空数据中。在基于相同动作具有相似的时空数据的假设中(如参考文献[1])，通过提取视频数据中的前景部分，进行数据重组，然后通过比较每个视频数据中的前景数据的相似性来进行动作的识别。通过采用分层的均值漂移算法使得视频中具有相似颜色的立方体聚集在一起(如参考文献[2])，对视频数据实现了3-D自动分割。然后在分割后的数据中寻找与动作模型最为匹配的子集实现动作识别。通过基于人体运动轨迹可以进行动作识别(如参考文献[3])。将视频中的人体运动的变化看作是在时空中变化的轨迹线，不同的运动在一定程度上形成的轨迹线是不同的，这样就可以利用轨迹线来描述动作。他们将人体手部在三维运动轨迹的时空曲率值保存在了二维的运动轨迹上，将轨迹作为动作的特征表达，得到了一种具有角度不变性的人体动作识别方法。利用对人体动作过程中提取人体重要关节(如参考文献[4])例如头，手，足等的运动轨迹，根据相似不变性来判断动作样本之间的相似度。近几年，基于时空整体方法中应用最为广泛的是利用时空兴趣点对人体动作进行表征。时空兴趣点特征可以捕捉到人体的外观以及运动的局部显著性。由于兴趣点的局部特性，它对视频中的复杂背景，尺度变化以及动作的种类的多样性等都具有很好的鲁棒性。常用的时空兴趣点有STIP特征(如参考文献[5])，他们将二维图像Harris角点检测方法(如参考文献[6])扩展到了3-D时空中Harris3D，并且通过用HOG和HOF的联合表征作为兴趣点的描述子。Cuboids兴趣点特征(如参考文献[7])通过利用在时域上进行Gabor滤波来增加检测到的兴趣点的个数，同时采用高于兴趣点检测尺度6倍的周围空间的信息进行亮度梯度描述，得到描述子。采用密集采样以及轨迹追踪的方法(如参考文献[8])进行特征点的选取，同时利用梯度，光流以及运动边界直方图作为描述子，得到了基于密度轨迹的特征。。还有很多像三维尺度不变性特征(3-dimentional Scale-Invariant Feature Transform,3D-SIFT)(如参考文献[9])，加速鲁棒性特征(Speeded Up Robust Feature,SURF)(如参考文献[10])，Mosift(如参考文献[11])，应用也很广泛。

在基于时间序列的方法中，研究者们将视频看作是一个图像序列，序列中的每个图像都包含了人体动作特征。通过一定序列的对比，判断动作的类别。由于人体动作随着个体的不同会有一定的差异性，比如幅度和速度等，基于此动态时间规划算法(如参考文献[12])可以较好的解决这个问题。而利用隐马尔可夫模型(Hidden Markov Model，HMM)对人体动作进行识别(如参考文献[13])的过程中，他们将视频中的每帧图形作为一个特征向量，然后对这些特征向量进行HMM建模，找到序列之间的隐含的状态转移关系，建立基于状态的模型，然后对动作进行识别。此外通过应用多个HMM生成了耦合隐马尔科夫模型(CHMM)(如参考文献[14])，对多人之间的交互动作进行了建模。在基于时间序列中，另一个应用比较广泛的是条件随机场(Conditional Random Fields,CRF)(如参考文献[15])，CRF模型可以将动作序列分割成多个连续的单元，根据相邻单元间的转换规则来对人体动作进行识别。为了应对不同的时序模型，很多研究工作对CRF进行了扩展，例如：隐态CRF(如参考文献[16])动态CRF(如参考文献[17])，半马尔科夫随机场模型(如参考文献[18])等。

在动作识别领域中主要面临着以下挑战：

1、人体动作形态各异。在一个动作序列中，不同的人由于习惯的原因对于同样的动作，表现往往不同，这给动作识别增加了难度。同时，不同的设备，不同的动作种类，都会导致动作形态在序列上呈现多样化。提出一种对人体动作形态具有鲁棒性的检测方式，对人体动作的识别至关重要。

2、动作背景复杂。为了与现实情况相切合，很多动作序列样本的录制环境不仅仅包含简单，固定的背景，很多都来自于复杂多变的环境，复杂的背景对于人体动作建模来说是一个非常大的挑战。

3、现有的人体动作识别的特征存在的缺点是，大部分都是基于手工设计的特征，具有普遍的使用性，但是对于动作样本的独特性，没能很好的捕捉到，如何基于样本本身学到特征来表征动作样本，对于动作识别来说至关重要。

发明内容

本发明提供了一种基于层级化特征学习的动作识别方法，本发明解决了由于手工设计的特征不能根据动作样本的差异性捕捉样本自身的特性使得相同动作类别表现差异大，提取的特征单一，模型学习难度大的问题，详见下文描述：

一种基于层级化特征学习的动作识别方法，所述动作识别方法包括以下步骤：

将训练集区域块的特征聚类，利用词袋模型对所有区域块进行特征重表征，得到高层块的特征，将一个视频中所有块的特征进行均值池化，得到视频序列的特征集；

利用支持向量机对视频序列的特征集建模，得到模型参数；

选取测试集中的动作序列作为测试序列，通过两层的聚类以及词袋模型，提取动作序列的特征，将特征输入模型中，得到动作序列的动作类别号。

所述动作识别方法还包括：

从动作视频数据集的每一类中挑选出训练视频序列和候选预测视频序列。

所述训练视频序列分为大小相等的时空块，根据这些块的像素信息构建块的协方差特征，作为块的初始化特征，构成动作数据集。

所述层级化特征学习具体为：

利用聚类方法对训练集中的块进行聚类，然后利用词袋模型对所有的块进行特征重表征，得到底层块的特征；

通过池化将以底层块为中心，在它周围的所有块的底层特征进行融合，得到空间上比底层块更大的区域块的特征表征。

本发明提供的技术方案的有益效果是：本方法通过基于层级化特征学习的动作识别方法来提取具有更好分辨度以及更丰富的特征来进行动作特征表征，使得模型的学习更加高效，提高了动作识别的识别率；通过实验验证，本方法取得了较高的准确率，满足了实际应用中的多种需要。

附图说明

图1为一种基于层级化特征学习的动作识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了解决动作识别中手工特征不能挖掘出样本之间的差异信息以及特征不丰富的问题，导致动作识别效率不高，本发明实施例提供了一种基于层级化特征学习的动作识别方法，参见图1，该动作识别方法包括以下步骤：

101：将训练集区域块的特征聚类，利用词袋模型对所有区域块进行特征重表征，得到高层块的特征，将一个视频中所有块的特征进行均值池化，得到视频序列的特征集；

102：利用支持向量机对视频序列的特征集建模，得到模型参数；

103：选取测试集中的动作序列作为测试序列，通过两层的聚类以及词袋模型，提取动作序列的特征，将特征输入模型中，得到动作序列的动作类别号。

其中，动作识别方法还包括：

其中，所述层级化特征学习具体为：

综上所述，本发明实施例提供了一种基于层级化特征学习的动作识别方法，本方法通过对视频序列进行分块，然后利用训练集学习每一层的特征表征，并进行建模，在应用过程中，输入动作候选序列，对其提取层级化特征并建立利用建立的模型进行动作类别的的预测，获得了较好的识别结果，提高了动作识别的识别率。

实施例2

下面结合图1，具体的计算原理对实施例1中的方案进行详细的介绍，详见下文描述：

201：从动作视频数据集的每一类中挑选出训练视频序列和候选预测视频序列；

其中，训练集中的动作序列的选取可通过人工挑选或在类内随机挑选等方法，如果在该动作集上已有分好的训练集和测试集，则按照分好的样本作为训练集和测试集。

202：将所有的训练视频序列分为大小相等的WxWxT的时空块，根据这些块的像素信息构建块的协方差特征，作为块的初始化特征，构成动作数据集

其中，N为数据集中动作序列的总数量，i为动作序列样本的序号，为第i个动作序列在第一层的内容，表示取值为实数的D*T_i维空间，D为时空块初始化特征的维数，T_i为第i个动作序列中时空块的个数。

其中，D¹的维数与所选取的初始化特征有关，本发明实施例对此不做限制。y_i为样本标签，其取值为Y＝{1,2,...,M}，值为1代表该样本序列包含的动作类别为1，值为2代表该样本序列包含的动作类别为2,M代表数据集中动作类别的总数；不失一般性，本发明实施例对所有动作样本中的时空块进行协方差特征的(如参考文献[21])提取。

203：利用聚类方法对训练集中的块进行聚类，然后利用词袋模型对所有的块进行特征重表征，得到底层块的特征；

其中，本步骤所解决的问题是动作识别中样本初始特征处理及再表征的问题，具体体现为将输入的初始化特征进行学习，通过学习到新的特征空间的转换矩阵，将初始化特征映射到新的特征空间中，通过对样本再表征，得到学习后的样本的特征集

常用的方法有k-means聚类，稀疏编码等方式，本发明实施例对特征空间的学习以及再表征的选择不做限制。

204：通过池化将以底层块为中心，在它周围的所有块的底层特征进行融合，得到空间上比底层块更大的区域块的特征表征；

其中，池化操作是将中心块位置周围的信息融合在一起，使得学习大的特征既具有局部性，又包含了周围的时空信息，丰富了特征。一般的，池化操作包含均值池化、求和池化以及最大值池化等操作，本发明实施例对此不做限制。

205：通过将训练集区域块的特征进行聚类，然后利用词袋模型对所有区域块进行特征重表征，得到高层块的特征，将一个视频中所有块的特征进行均值池化，得到一个视频序列的特征集

206：利用支持向量机对视频序列的特征集进行建模，得到模型参数；

207：选取测试集中的动作序列作为测试序列，通过两层的聚类以及词袋模型，提取动作序列的特征，将特征输入模型中，得到动作序列的动作类别号。

综上所述，本发明实施例利用层级化特征学习方法得到的特征，具有较好的鲁棒性，保留了现有人工特征中没有的特征点周围的局部信息，层层升华，得到全局的特征。提高了特征中的信息量，进一步提高了动作识别的准确性，取得了较好的结果。

实施例3

下面结合具体的计算公式对实施例1和2中的方案进行进一步地论述，详见下文描述：

一、不失一般性，本发明实施例选取协方差矩阵作为块的初始化特征。

采用了协方差矩阵作为块的初始化特征，表达式如下：

I(x,y,t)为在块(x,y,t)的位置上的像素点的值，分别表示的是当前点的像素值分别对x,y,t一阶偏导，分别表示相对应的二阶导数，最终，通过这10种信息，生成了在点x,y,t位置上的点的表征F(x,y,t)。由于是以块为最小的信息载体，所以当有了单一的点的描述信息后，通过利用协方差描述子来初始化块的表征，协方差的公式如下：

其中，n代表块中的像素的个数，n＝S×S×T,F_i＝F(x_i,y_i,t_i)为块中点的表征。最终通过对块中的所有点通过协方差的方法进行整合，生成块的初始化描述子C_I。C_I是一个矩阵，维数为维数(F_i)×维数(F_i)，假设F_i是一个10维的向量，C_I为10×10的协方差矩阵。

二、底层特征学习过程如下：

协方差矩阵是一个特殊类型的黎曼流形。对称正定矩阵(Symmetric PositiveDenfinite，SPD)的非欧氏结构可以应用于对不同协方差矩阵之间的度量。利用微分同胚将SPD流形嵌入到传统的欧氏空间中，在词典学***滑变化的相关公式为公式g是一个对于任意p∈T_pM都具有正定，对称，双线性的性质，对于几何变化具有一定的鲁棒性。对于切向量空间与流形空间的转换的算子分别为e指数变换exp_P(·)∶T_pM→M,将切向量△映射为流形空间的一个点X，对数变换将流形空间中的点映射为切向量空间中的一个向量，exp_P(·)和log_P(·)变换是一对逆变换。exp_P(·)变换可以使得切向量△的长度等于X与P的测地距离。

对于将欧氏空间的数据转换为流形空间中，可以运用Karcher均值来代替算数均值求解X_i与X_j之间的距离(参考文献[19])。Karcher均值通过下式来求解：

其中，是相关的测地距离的计算公式。然而在计算Karcher均值的过程中。需要在流形空间与切向量空间中转换，这对于具有大量训练数据来说，需要消耗的时间是巨大的。在计算中，每一次向切向量空间的映射都需要计算Cholesky因式分解，对于一个d×d的协方差矩阵来说，时间的复杂度为Ο(d³)。

对于实数d×d的SPD矩阵，表示为它形成了在数学中具有群结构的实流形，称为李群(Lie Group)，所以对于可以运用黎曼流形中的性质以及所有相关的几何概念。在上的仿射不变黎曼度量(Affine Invariant Riemannian Metric，AIRM)，在该度量下的对数变换与对数变换为(参考文献[20])：

对于对称正定矩阵X来说，以上两式的结果可以由奇异值分解(Singular ValueDecompostion)得到。假设定义对角线矩阵为diag(λ₁,λ₂,…,λ_d)同时满足X奇异值分解为X＝Udiag(λ_i)U^T，则上式可以重新写为：

由此可以得到具有流形结构的对称正定矩阵X的对数和e指数的变换算子方程式，即从流形空间到切向量空间的变换与逆变换。在本文中的流形空间学习特征的方法中，将d×d的对称矩阵从空间映射为切向量空间，从流形空间转为向量空间，这样就可以应用欧氏空间中的计算方法。在给定一个对称正定矩阵X,它的对数欧氏向量表征是唯一的(如参考文献[21])，定义为：α＝Vec(log(X))这其中Vec(B),B∈Sym(d)定义为：

通过将正交对称矩阵训练数据集映射为向量，则每个块的初始化特征即为h¹＝Vec(B)。

三高层块的特征学习过程如下：

不失一般性的，选取k-means算法进行聚类同时利用矢量量化的方法进行特征表征。

k均值聚类方法通过按照内类方差和最小的原则将特征空间中的n个特征点指定为k类，如下式所示。

在上式中，C_i表示中心为μ_i的第i个聚类类别，表示第S层的特征属于类别C_i的数据点。k-means算法的具体步骤：

(1)初始化聚类中心。在特征空间中随机选取或者按照一定规则选取k个初始中心；

(2)将每个特征点归类。计算每个特征点与聚类中心的距离，按距离最短将特征点分配到k个初始中心点；

(3)更新聚类中心点。根据第二步的结果，利用每个中心点所属的特征点重新计算，得到新的聚类中心；

(4)重复(2)、(3)操作直到满足收敛的条件为止，输出聚类的结果D。

矢量量化是通过计算特征点与词典中每个词的距离关系来对样本中的特征点进行统计，根据特征点编码中与词典中词数目的关系，对于每一个特征描述子x来说,经过词典D＝{d₁,d₂,…d_K}编码方法φ得到样本表征φ(x)。两个方法的计算公式如下：

在用矢量化编码的过程中，计算特征点与词典中每个词的距离，取使得它们两之间距离最小的那个词d_min，新建一个零向量，仅将零向量中d_min的位置为1,最终这个向量φ(x)就是该特征点的表征。

具体实现时，还可以采用其他的算法解决上述的时空块初始化，初始化特征表征以及高层特征学习等问题，本发明实施例仅给出一个具体的实例进行说明，对具体的算法实现步骤本发明实施例不做限制。

实施例4

下面结合具体的实验对实施例1和2中的方案进行可行性验证，详见下文描述：

实验所采用的人体动作数据库来自由瑞典皇家理工学院KTH录制的数据库，该数据库一红包含了598个在四个不同环境下录制的视频序列，分别由25个志愿者做6个不同的动作，每个动作重复一定的时间。该数据库中视频数据的分辨率为160×120，帧率为25fps，视频中每帧的图像为灰度图.其中训练样本集有382个样本，测试集有216个样本。动作数据库的录制环境和数据采集设备的信息及参数设置可参考文献(如参考文献[22])，本发明实施例对此不作赘述。

经过文献查询，采用现有技术中的特征如Cuboid、HOG3D、Dense HOF等特征进行动作识别准确了可达到90％。通过本发明实施例进行层级化特征学习的方法，动作识别准确率达到了91.7％。其结果优于所述的特征，证明了方法的可行性和有效性。

综上所述，本发明实施例提出了一种层级化特征学习的动作识别算法，本方法从动作视频数据集的每一类中挑选出训练视频序列和候选预测视频序列，将所有的训练视频序列分为大小相等的WxWxT的时空块，根据这些块的像素信息构建块的协方差特征，作为块的初始化特征，构成动作数据集；在此基础上，通过层级化的学习方法丰富特征信息，得到视频序列的特征；最后利用分类器学习模型参数，找到特征空间中的分割面，最终使得识别结果较为理想。

参考文献：

[1]Bobick AF,Davis J W.The recognition of human movement usingtemporal templates.IEEE Transactions on Pattern Analysis and MachineIntelligence,2001,23(3):257-267.

[2]Ke Y,Sukthankar R,Hebert M.Spatio-temporal shape and flowcorrelation for action recognition.Proceedings of IEEE Conference on ComputerVision and Pattern Recognition,2007.

[3]Rao C,Shah M.View-invariance in action recognition.IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition.2001(2):316-322.

[4]Sheikh Y,Sheikh M,Shah M.Exploring the Space of a HumanAction.IEEE International Conference on Computer Vision.2005.

[5]Laptev I.On space-time interest points.International Journal ofComputer Vision,2005,64(2-3):107-123.

[6]Dollár P,Rabaud V,Cottrell G,et al.Behavior recognition via sparsespatio temporal features.Visual Surveillance and Performance Evaluation ofTracking and Surveillance,2nd Joint IEEE International Workshop on.IEEE,2005:65-72.

[7]Andrews S,Tsochantaridis I,Hofmann T.Support vector machines formultiple-instance learning.Advances in neural information processingsystems.2002:561-568.

[8]Wang H, A,Schmid C,et al.Action recognition by densetrajectories.IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2011:3169-3176.

[9]Scovanner P,Ali S,Shah M.A3-dimensional sift descriptor and itsapplication to action recognition.Proceedings of the 15th internationalconference on Multimedia.ACM,2007:357-360.

[10]Bay H,Tuytelaars T,Van Gool L.Surf:Speeded up robustfeatures.Computer vision–ECCV.Springer Berlin Heidelberg,2006:404-417.

[11]Chen M,Hauptmann A.Mosift:Recognizing human actions insurveillance videos.2009.

[12]Morency L P,Quattoni A,Darrell T.Latent-dynamic discriminativemodels for continuous gesture recognition.IEEE Conference on Computer Visionand Pattern Recognition.IEEE,2007:1-8.

[13]Yamato J,Ohya J,Ishii K.Recognizing human action in time-sequential images using hidden markov model.1992IEEE Computer SocietyConference on Computer Vision and Pattern Recognition.IEEE,1992:379-385.

[14]Brand M,Oliver N,Pentland A.Coupled hidden Markov models forcomplex action recognition.Proceedings.IEEE Computer Society Conference onComputer Vision and Pattern Recognition.1997:994-999.

[15]Wang J,Liu P,She M,etal.Human action categorization usingconditional random field.Robotic Intelligence In Informationally StructuredSpace,2011IEEE Workshop,2011:131-135.

[16]Wang H,Schmid C.Action recognition with improvedtrajectories.IEEE International Conference on Computer Vision.2013:3551-3558.

[17]Liu J,Kuipers B,Savarese S.Recognizing human actions byattributes.IEEE Conference on Computer Vision and Pattern Recognition.2011:3337-3344.

[18]Wang J,Zucker J D.Solving multiple-instance problem:A lazylearning approach.2000.

[19]Klaser A, M,Schmid C.A spatio-temporal descriptor basedon 3d-gradients.19th British Machine Vision Conference.British Machine VisionAssociation,2008:275:1-10.

[20]Pennec X.Intrinsic statistics on Riemannian manifolds:Basic tools for geometric measurements.Journal ofMathematical Imaging and Vision,2006,25(1):127-154.

[21]Faraki M,Palhang M,Sanderson C.Log-Euclidean bag of words forhuman action recognition.IET Computer Vision,2014,9(3):331-339.

[22]C.Schüldt,I.Laptev,and B.Caputo.Recognizing human actions:A localSVM approach.In 17thInternational Conference onPatternRecognition,pages 32–36,2004.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于层级化特征学习的动作识别方法，其特征在于，所述动作识别方法包括以下步骤：

利用支持向量机对视频序列的特征集建模，得到模型参数；

2.根据权利要求1所述的一种基于层级化特征学习的动作识别方法，其特征在于，所述动作识别方法还包括：

3.根据权利要求2所述的一种基于层级化特征学习的动作识别方法，其特征在于，

4.根据权利要求1所述的一种基于层级化特征学习的动作识别方法，其特征在于，所述层级化特征学习具体为：