CN103164694A

CN103164694A - 一种人体动作识别的方法

Info

Publication number: CN103164694A
Application number: CN201310054812XA
Authority: CN
Inventors: 宫辰; 傅可人; 杨杰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2013-02-20
Filing date: 2013-02-20
Publication date: 2013-06-19
Anticipated expiration: 2033-02-20
Also published as: CN103164694B

Abstract

本发明公开一种计算机视觉与模式识别领域的人体动作识别的方法，首先使用了一种包含时间和空间信息的特征来表达当前帧人体的运动状态，然后再通过一种图论半监督方法设计分类器，从而达到识别人体动作的目的。本发明在提取人体运动特征的过程中同时融合了过去、当前及未来时刻的轮廓及运动光流信息，因而能够更加准确地描述人体的动作姿态。另外，为了用较少的样本获得较高的识别率；基于广义拉普拉斯矩阵的图论半监督方法，并将其用于人体动作识别。实验证明本发明提出的方法在观察角度不同、人与人之间动作存在差异的情况下都能够对常见动作取得令人满意的识别率。

Description

一种人体动作识别的方法

技术领域

本发明属于计算机视觉与模式识别领域，具体地，涉及一种人体常见动作识别的方法。

背景技术

在计算机视觉领域，人体动作识别是一个刚刚兴起但十分重要的分支，其目的主要是让计算机能够自动地判断和理解人体目前正在执行的动作。由于计算机本身并不具备类似于人的高层理解能力，因此计算机动作识别是一项极具挑战性的工作。然而动作识别的应用前景是十分广阔的，比如在人机交互、视频会议、视频检索、病人自主监护、智能安全监控等场合都能够发挥重要的作用。所以这方面的研究也是十分必要的。

由于各方面的原因，现有的动作识别效果还远达不到人脑的识别能力，国际上也还没有一个比较完善的动作识别***。但是近些年很多知名的国际期刊或会议都将动作识别作为重点发展的研究领域，国内外很多学者也在这方面做了大量的有益成果。近年来论文中的方法主要有：

F.Lv等人在2006年率先使用Adaboost方法进行人体动作识别；M.Branda，A.Kale，V.Duong等分别在1994年、2004年和2005年使用马尔科夫或隐马尔科夫方法（HMM）进行动作识别；C.Sminchisescu和L.Wang和分别在2005和2007年使用了条件随机场（CRF）；M.Ahmed等人在2005和2006年提出局部-全局光流对运动的人体进行描述；A.Efros等人在2006年提出了时空运动描述子；A.Bobick等人在2001年提出了运动历史图并用于人体动作识别；N.Ikizler等在2007年建立人体骨架模型；A.Ogale等人于2005年提取视频中的人体轮廓，并构建PCFG语法来识别人体动作。

专利方面，申请号为CN200910110485.9的中国发明专利申请通过多个红外线传感器对人体手势动作进行了识别；申请号为CN200910002876.9的中国发明专利申请借助于后台数据库，开发了一种三维动作识别方法；申请号为CN200910077467.5的中国发明专利申请通过生成不同的特征文件，进而进行比对的方法进行动作识别；申请号为CN200810232110.5的中国发明专利采用三维伪Zernike矩进行比例不变、位移不变、旋转不变的特征描述，实现了与视角无关的动作识别；申请号为CN201210171624.0的中国发明专利公开了一种基于骨骼节点数据的动作识别方法；申请号为CN200910190443.0的中国发明专利涉及一种基于计算机的鼓乐动作识别方法；申请号为CN200810043513.5的中国发明专利基于有限自动机模型开发了一种新的动作识别方法；申请号为CN200910109019.9的中国发明专利涉及一种基于多跟踪点的人体动作识别方法。

由于人在身高、体长及行为姿态上存在差异，因此不同的人对同一种动作都会有不同的表现方式，所以对于一个动作识别***来说通过涵盖所有人的运动姿态来进行行为识别是不切实际的。故本发明希望通过较少的已知动作样本就能够使分类器具备较高的分辨能力。

发明内容

本发明的目的是提供一种视频序列中人体动作的识别方法，借助于人体运动的时间和空间信息，采用基于扩展拉普拉斯矩阵的半监督学习策略，通过较少的已知动作样本就能够使分类器具备较高的分辨能力，即用于分析一段视频序列中人体在各帧的动作类别，主要包括起立、坐下、走、踢等常见动作，达到更好的识别效果。

为实现上述目的，本发明采用的技术方案：本发明首先使用了一种包含时间和空间信息的特征来表达当前帧人体的运动状态，然后再通过一种图论半监督方法设计分类器，从而达到识别人体动作的目的。

本发明将每帧的动作图像当做一个样本，采用机器学习领域半监督学习的策略训练分类器，进而通过分类的思想判断当前帧中的人体动作类别。半监督学习的主要思想是当少量的已标记样本和大量的未标记样本共存时，可以借助这些大量的未标记样本提升分类的准确率。典型的半监督学习方法大致可以归为多视角学习（Multi-view Learning），直推向量机（Transductive Support Vector Machine）和基于图论的方法（Graph-based Methods）。由于图模型能够直观地表现样本及样本之间的关系，所以本发明提出一种新的适合于动作识别的图论半监督方法，以达到更好的识别效果。

具体地，本发明提供一种人体动作识别的方法，包括如下步骤：

第一步，捕获运动人体的大致位置和轮廓。

只有预先获得人体的位置，才能够对相关区域进行分析。这一步通过帧差法实现，首先将相邻的两帧图像转换为灰度图，然后作差。假设I_i和I_i+1是相邻的两帧图像，x为两帧中对应位置的像素值，那么它们的差定义为：

dI_i(x)=|I_i(x)-I_i-1(x)|. (1)

于是帧差图像V_i中像素x的灰度值定义为：

V_{i} (x) = \begin{matrix}  \end{matrix} \{\begin{matrix} 255 & {ifdI}_{i} (x) > ϵ \\ 0 & otherwise \end{matrix}, - - - (2)

其中ε为预设的参数。如果ε过小，会使V_i中出现较多的噪点，如果选得太大又不能完整地提取人体运动区域，所以这个参数的选取需要事先调试至一合适值。

接下来使用模板为3×3的中值滤波器去除差图像V_i中的椒盐噪声，最后经过腐蚀、膨胀等形态学处理即可获得比较干净的运动人体轮廓图像，并得到感兴趣的矩形区域R_i。

第二步，计算运动人体的空间特征。此步骤需要计算当前第i帧的轮廓直方图及x方向和y方向的光流场直方图。具体方法为：

将第一步中得到的矩形区域R_i分成2×2的四个子区域，每一个子区域对应一个表征方向的饼状图。该饼状图的中心与子区域的中心重合，以x轴正半轴所在方向为0°角，每隔20°取一次值，则360°的圆盘被平均分成了18份，于是每一份的区间分别为[1°,20°]，[21°,40°]，…，[341°,360°]。通过统计轮廓走向落在这些区间的次数便可得到包含18个区间的轮廓统计直方图（也就是18维的特征向量）。这个过程可参见图2。光流特征的计算采用Lucas-Kanade方法，其主要目的是求解如下的关于光流(u,v)的约束方程：

I_xu+I_yv+I_i=0. (3)

求得(u,v)后，再分别在x方向和y方向做中值滤波，于是类似于轮廓统计直方图的获得方法，可以得到在x和y两个方向各18维的光流统计直方图。所以描述每个子区域的特征向量共有18×3=54维。又由于R_i被分成了2×2的四个子区域，所以第i帧的人体运动情形可以暂时用54×2×2=216维的特征向量表示。

注意到本步骤特征的提取不涉及前后帧人体的动作姿态，而仅用到了当前帧的光流场和轮廓的空间分布信息，所以本步骤描述了人体运动的空间信息。

第三步，计算运动人体的时间特征。将当前帧和其前、后各7帧放在一起组成一段长15帧的片段，并采用局部线性嵌入法（Locally Linear Embedding，LLE）将1～5帧，6～10帧，及11～15帧的特征向量分别降至50,100,50维。

将当前帧放入与其相邻的15帧构成的片段中，并探求它们之间时间上的关系。因为人体的动作是一个连续过程，一个动作往往需要一个片段才能够完整地呈现，所以假设当前为第i帧，那么需要考察的片段组成为第i-7,…,i-1,i,i+1,…,i+7帧。再将这15帧平均分为三段，于是每一段由216×5=1080维的特征向量进行表示。采用局部线性嵌入的方法分别将这三段对应的特征向量降至50,100,50维，于是第i帧的时间信息可以由200维的特征向量来表示。局部线性嵌入是一种非线性的降维方法，较之于传统的主成分分析（PCA）等方法能够获得更好的降维效果。简单地说，该方法认为每一个样本的特征向量x_i可以由其邻域N(x_i)中的各样本线性重构，重构权ω_ij的计算按照下式：

\min {| | x_{i} - \underset{j : x_{ij} &Element; N (x_{i})}{Σ} ω_{ij} x_{ij} | |}^{2} . - - - (4)

s . t . \underset{j}{Σ} ω_{ij} = 1

再计算矩阵Ψ=(I-W)^T(I-W)（其中I为与W同阶的单位阵，且(W)_Ij=ω_ij）的最小d个非零特征值所对应的特征向量θ₁,θ₂,…θ_d，则Θ=[θ₁,…θ_d]^T为最后的降维结果。在本发明中d的取值为100或50。

第四步，形成描述当前帧人体运动姿态的最终特征向量。将第二、三步获得的特征向量进行拼接并进行归一化，从而获得描述第i帧的特征向量x_i，共计216+200=416维。将待分类视频序列中的每一帧都按照同样的方法操作，于是每一帧都由一个416维的特征向量进行表示，它们构成了最终分类的依据。

第五步，建立图模型G。将待分类的动作序列切成一帧一帧的图片形式，并和已知动作图片放在一起建立K近邻图G。

本发明建立的是K近邻图。为了训练分类器，假设有很少量的已知动作类别的帧图像，它们构成l个已标记样本

（其中y为动作类别的标签），另有大量未知类别的待分类帧图像，它们构成u个未标记样本

且设l+u=n,l＜＜u，于是动作识别的任务就转化为建立函数f，根据已知样本集

去推断

中各样本的标签。图G用G=<V,E>来加以描述

和中的样本，其中V代表节点集（Vertex set），E代表连接这些节点的边所构成的集合（Edge set）。图3是一个典型的图模型示意图。对于动作识别问题，各样本x_i（1≤i≤n）在图G中用节点表示。它们之间的相似程度用含有权重的边表示，权重的计算公式采用径向基函数（Radius Basic Function，RBF）ω_ij=exp(-||x_i-x_j||²/2σ²)，其中σ为待调参数。该参数的调节目前国际上尚无好的方法，目前只能靠经验。

第六步，求解广义拉普拉斯矩阵

根据图G的邻接矩阵（adjacency matrix）W和相应的度矩阵（degree matrix）D，计算广义拉普拉斯矩阵

为了获得

首先要计算与图G有关的矩阵W和D。其中，W称为图G的邻接矩阵，它是一个n×n的方阵，它的第(i,j)个元素(W)_ij=ω_ij表示样本x_i和x_j的相似程度。注意到在第五步中建立的是K近邻图，所以这里求得的W矩阵是稀疏的，因此图G在计算机内的存储开销并不大。D为一个n×n的对角阵，对角线上的元素为图G中各节点的度（degree），即

于是，可以计算广义拉普拉斯矩阵为

\tilde{L} = I - αW + α^{2} (D - I), - - - (5)

其中I为单位矩阵，α为待调参数。经验表明将α调小有利于提高动作识别率。

第七步，获得每一帧的标签向量F_i。

具体来说，是将第六步求得的广义拉普拉斯矩阵代入如下目标函数

\min_{F} Q (F) = \frac{1}{2} (F^{T} \tilde{L} F + μ {| | F - Y | |}^{2}) - - - (6)

并进行求解。假设一共需要区分c个动作，那么Y为n×c的矩阵，其第i行为样本x_i的标签向量，记为Y_i。对于少量的已标记样本，其对应的标签向量是一个0-1二值向量，且元素1所在的列对应该样本所属的动作类别；而对于待分类的未标记样本，其标签向量则是一个全0向量。F的构造与Y相同，它记录了最后的分类结果。μ是待调参数，它反映了实际应用中用户对(6)中两项的偏重程度。实际经验表明，这个参数即使在很大的范围调节，对最后的识别率影响并不大，所以这个参数的调节是比较容易的。

让(6)式对F求导，并令结果等于0，得到F的解为：

F=μ[(1-α²+μ)I-αW+α²D]w¹Y. (7)

第八步，识别结果输出。(7)式求得的F是一个n×c的矩阵，其中的元素均为非负实数，其第i（1≤i≤n）行F_i的最大元素所在的列就对应对于样本x_i所属的动作类别c_i，即

c_{i} = \underset{1 \leq j \leq c}{\arg \max} F_{ij} . - - - (8)

本发明上述方法中，提取当前帧人体特征时融合了轮廓和光流运动特征即空间信息；提取特征时不但考虑了当前帧的人体动作，还通过局部线性嵌入的非线性降维方法考虑了前后7帧的人体形态即时间信息；同时采用了空间信息和时间信息描述人体的运动姿态，从而使得提取的特征更加便于后续的识别过程。采用了图论半监督的方法进行识别，将广义拉普拉斯矩阵的概念引入到半监督学习中，从而能够大大提高动作识别的准确率，能够用很少的已知动作样本图片去识别大量的未知动作。

与现有技术相比，本发明具有如下的有益效果：

首先，本发明对于起立、坐下、走、踢等常见基本动作能够取得较高的识别率，具有很高的实际应用价值；

其次，本发明能够抵御不同人动作行为的差异，实现准确的识别；

再次，本发明在前、后、左、右、上5个不同视角下都能够有效地对动作进行识别，从而大大拓宽了实际应用范围；

最后，本发明仅使用极少量的已知动作图片就能够对来自于不同人、不同角度的大量未知动作进行识别，这对现有技术是一个有益的突破。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为人体行走时提取的轮廓及感兴趣区域，其中（a）为原始帧图像，（b）为经过处理提取的运动区域。

图2为提取空间特征时统计直方图的建立过程。

图3为典型的图模型示意图。

图4为中值滤波器模板的示意图。

图5为帧图像预处理的流程图。

图6为不同视角下一些人体动作图片的样例。

图7为“后”视角下的识别率曲线。

图8为“左”视角下的识别率曲线。

图9为“前”视角下的识别率曲线。

图10为“右”视角下的识别率曲线。

图11为“上”视角下的识别率曲线。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本实施例提供一种视频序列中人体动作的识别方法，该方法首先采集运动人体的时间和空间特征，再使用广义拉普拉斯矩阵构造图论半监督分类器，从而实现了对不同人、不同角度下的常见动作识别。图1为人体行走时提取的轮廓及感兴趣区域，其中（a）为原始帧图像，（b）为经过处理提取的运动区域。该图展示了人在正常行走时提取的轮廓图，而白色矩形框包围的区域则是感兴趣的区域矩形区域R_i。本实施例中根据图2-5所示意的流程进行，没有特别说明的部分可以参见发明内容。

为了判断每帧图片中人体究竟在执行何种动作，首先需要对每帧图像进行预处理，以滤去无关信息。假设整个场景中只有人在动，那么运动目标的提取可采用帧差法。具体来说就是首先相邻两帧作差，然后再设定阈值ε，并认为只有灰度变化大于ε的像素才对应真正的运动区域。ε的设置不宜过大，在本实施例中设为20。由此操作便得到了一幅黑白二值图像。然而由于实际情况下噪声难以避免，因此本实施例进一步使用3×3的中值滤波器（模板见图4）在得到的二值图像上做卷积以消除椒盐噪声。由于降噪的过程会使得之前得到的边缘变模糊，所以还需要采用“先腐蚀再膨胀”的形态学处理以强化边缘。整个预处理的过程及效果见图5。

接下来需要对预处理后的图像提取特征，以刻画不同的人体动作。本实施例采用的特征包括空间和时间两方面。空间上采用轮廓和光流特征，原因在于这两种特征对于描述像人体这种非刚体的动作变化具有很高的分辨力。为了更加细致地刻画运动特征，本实施例没有直接在预处理得到的运动区域进行特征提取，而是将运动区域再进一步划分为2×2的四个互不重叠的子区域。当然，这里划分为3×3的九个区域也是可以的，但是这势必会增加后续的运算量，所以本实施例将运动区域划分为四个子区域是合理的。由于轮廓和光流都是描述走势和方向的特征，所以可以将360°的圆盘分成若干角度区间，并记录相应子区域内轮廓和光流落入不同区间的次数。同样是为了权衡效果和效率，本实施例将360°的圆盘分成了18个区间，从而可以方便地根据统计结果获得对应的直方图（即18维的特征向量）。轮廓特征描述的是运动人体的形状，而光流特征是通过检测图像像素点的强度随时间的变化，进而推断出物体的移动速度及方向。常见的计算光流特征的方法包括霍恩-山克方法（Horn-Schunck Method）以及卢卡斯-卡纳德方法（Lucas-Kanade Method）。本实施例采用后者，原因在于后者的运算速度更快，效果也更好。由于轮廓、x方向光流和y方向光流各包含一个18维的特征向量，所以4个子区域一共就能产生18×3×4=216维的特征向量。

另外，考虑到一个连续动作需要多帧图像来体现，所以在动作识别中仅采集当前帧的运动特征是不够的，还需考虑其前后帧的人体状态。本实施例考察邻近的15帧，其中第1～5,6～10,11～15帧分别对应过去、现在、未来三个时段，每个时段的原始特征向量维数为216×5=1080。直接采用1080维的特征向量运算复杂度太高，且容易产生“维度灾难”，所以需要将其降维。考虑到现在时间段（6～10帧）对决定当前帧的动作类别意义更大，所以将其对应的特征向量将至100维，而将过去（1～5帧）和将来（11～15帧）时段对应的特征向量各降至50维。目前已有的降维方法很多，传统的方法包括主成分分析（PCA），线性判别分析（LDA）等。值得一提的是，近些年兴起的流形学习（Manifold Learning）策略衍生出很多更加有效的降维方法，比如局部线性嵌入（LLE）、拉普拉斯特征映射（LE）、局部切空间排列（LTSA）等。本实施例采用局部线性嵌入法进行降维，因为它快速且有效，并且其表达式(4)式可以化为一个简单的二次规划（QP）问题方便地进行求解。经过降维操作，当前帧的时间特征可以使用200维的特征向量进行表达，再结合之前提取的216维的空间特征，可知描述当前帧人体动作的特征向量共有200+216=416维。

本实施例实际上是将动作识别视为一多类别分类问题，所以在得到了各帧的特征向量后还需要设计一个分类器对各帧中的人体动作进行分类。现存的分类器有很多，比如最近邻分类器、支持向量机（SVM）等等，但是它们的训练都需要大量的已知样本。对于动作识别来说，由于每个人的动作形态差别很大，所以很难搜集到大量的关于每个人、每个动作的已知样本图片。故本实施例希望能够用很少的训练样本训练出一个普适的分类器。而半监督学习策略可以达到这个目的，所以本实施例提出了一种基于图论的半监督分类器来实现人体动作的分类。为了设计这个分类器，第一步是要建立图G=<V,E>来刻画所有已标记样本和待分类样本的关系。本实施例采用K近邻图，因为这种图模型对应的邻接矩阵W是稀疏的，可以大大降低后续的运算量。近邻数K一般在5～15之间选择，具体数值应根据实际情况而定。

图G建立完毕后，可以用其邻接矩阵W记录各样本之间的相似程度，由此可得n维的对角矩阵再结合广义拉普拉斯矩阵的定义便可得到

实际上如果令

表达式中的α参数为0，则广义拉普拉斯矩阵则退化为常规的拉普拉斯矩阵L=D-W。本实施例之所以采用广义拉普拉斯矩阵，是因为这种做法能够用较少的已知样本获得更高的识别率。在图论半监督学习中，一个广泛承认的事实是最终训练出的分类函数f一定要在图G上光滑。为了达到此目的，本实施例设计的光滑项为

S (f, \tilde{L}) = F^{T} \tilde{L} F = F^{T} [I - αW + α^{2} (D - I)] F . - - - (9)

另一方面，为了让训练出的分类函数f正确分类所有的已标记样本，本实施例采用下式：

P(f,Y)=||F-Y||². (10)

结合(9)和(10)可得最终的目标函数为：

\min_{F} Q (F) = \frac{1}{2} [F^{T} (I - αW + α^{2} D - α^{2} I) F + μ {| | F - Y | |}^{2}], - - - (11)

其中，F为标签矩阵，已在“发明内容”中定义。μ是待调参数，本实施例设为10。(11)的解见(7)，由此可求得最优的F。

如上所述，F是一个n×c的矩阵，每一行代表一帧图像，其第i行向量的最大元素所在列即为该帧中人体的动作类别。本实施例采用现有的冒泡排序法，从而可以有效、快捷地找到向量中的最大元素。

为了证明本发明的有效性，采用国际上公共的动作识别测试集INRIAIXMAX进行测试。该数据集包括15个常见的动作：坐下、起立、行走、踢、看手表、叉手、挠头、徘徊、挥手、打击、轻点、弯腰捡物品、投掷（从上到下）、投掷（由下到上）以及什么都不做。其中每一个动作由11个不同的人在前、后、左、右、上5个不同的角度各重复3遍。数据集中一些典型的动作图片见图6。

图7～图11展示了在5个不同视角下，识别率随训练样本增加的曲线图。由图可见，训练样本增多可以使识别率逐步提升。总的来说，本发明的方法在该数据集上的识别率能够达到90%～95%，因此具有很高的实用价值。另外，注意到当训练样本很少的情况下，在各角度下识别的准确率就已经很高了，所以这也是本发明对现有技术的一个突破。最后，可以看到虽然不同人执行这些动作的姿势存在差异，但本发明的方法仍然能够实现较为准确的识别。

因此，区别于目前的已有方法，本发明在提取人体运动特征的过程中同时融合了过去、当前及未来时刻的轮廓及运动光流信息，因而能够更加准确地描述人体的动作姿态。另外，为了用较少的样本获得较高的识别率，本发明采用了一种基于广义拉普拉斯矩阵（generalized graph Laplacian）的图论半监督方法，并将其用于人体动作识别。为了证明本发明提出方法的有效性，分别从前、后、左、右、上五个角度对不同人起立、坐下、走、踢等常见动作进行了识别。实验证明本发明提出的方法在观察角度不同、人与人之间动作存在差异的情况下都能够对常见动作取得令人满意的识别率。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种人体动作识别的方法，其特征在于，如下包括步骤：

第一步，捕获运动人体的大致位置和轮廓；

第二步，计算运动人体的空间特征，获得前帧人体的轮廓直方图、横向即x方向及纵向即y方向的光流直方图，并把计算结果拼接成一个216维的特征向量；

第三步，计算运动人体的时间特征，将当前帧和其前、后各7帧放在一起组成一段长15帧的片段，并采用局部线性嵌入法将1～5帧，6～10帧，及11～15帧的特征向量分别降至50,100,50维；

第四步，形成描述当前帧人体运动姿态的最终特征向量，即将第二、三步获得的特征进行组合得到最终的特征向量，共计416维；

第五步，建立图模型G：将待分类的动作序列切成一帧一帧的图片形式，并和已知动作图片放在一起建立K近邻图G；

第六步，求解广义拉普拉斯矩阵

根据图G的邻接矩阵W和相应的度矩阵D，计算广义拉普拉斯矩阵

第七步，获得每一帧的标签向量F_i：将广义拉普拉斯矩阵

代入预设的目标函数并进行求解，从而对于视频序列中的每一帧图片i都能获得一个标签向量F_i；

第八步，识别结果输出：向量F_i中最大元素所在的列代表的动作类别即为第i帧中人体正在执行的动作。

2.根据权利要求1所述的人体动作识别的方法，其特征在于：所述第一步中，采用帧差法捕获运动人体的大致位置和轮廓，即用当前帧图像减去上一帧图像，再对得到的帧差图像进行去噪、腐蚀、膨胀处理获得运动人体轮廓图像，并得到感兴趣的矩形区域R_i。

3.根据权利要求2所述的人体动作识别的方法，其特征在于：所述第二步，具体为：将第一步中得到的矩形区域R_i分成2×2的四个子区域，每一个子区域对应一个表征方向的饼状图，该饼状图的中心与子区域的中心重合，以x轴正半轴所在方向为0°角，每隔20°取一次值，则360°的圆盘被平均分成了18份，于是每一份的区间分别为[1°,20°]，[21°,40°]，…，[341°,360°]，通过统计轮廓走向落在这些区间的次数得到包含18个区间的轮廓统计直方图即18维的特征向量，光流特征的计算采用Lucas-Kanade方法，求解如下的关于光流(u，v)的约束方程：

I_xu+I_yv+I_i=0

求得(u,v)后，再分别在x方向和y方向做中值滤波，采用轮廓统计直方图的获得方法，得到在x和y两个方向各18维的光流统计直方图，所以描述每个子区域的特征向量共有18×3=54维，R_i被分成了2×2的四个子区域，所以第i帧的人体运动情形用54×2×2=216维的特征向量表示。

4.根据权利要求1所述的人体动作识别的方法，其特征在于：所述第三步，具体为：假设当前为第i帧，需要考察的片段组成为第i-7,…,i-1,i,i+1,…,i+7帧共15帧，将这15帧平均分为三段，每一段由216×5=1080维的特征向量进行表示，采用局部线性嵌入的方法分别将这三段对应的特征向量降至50,100,50维，于是第i帧的时间信息由200维的特征向量来表示。

5.根据权利要求1所述的人体动作识别的方法，其特征在于：所述第五步，具体为：假设有很少量的已知动作类别的帧图像，它们构成l个已标记样本

其中y为动作类别的标签；另有大量未知类别的待分类帧图像，它们构成u个未标记样本

去推断

中各样本的标签；图G用G=<V,E>来加以描述和

中的样本，其中V代表节点集，E代表连接这些节点的边所构成的集合；对于动作识别问题，各样本x_i（1≤i≤n）在图G中用节点表示，它们之间的相似程度用含有权重的边表示，权重的计算公式采用径向基函数ω_ij=exp(-||x_i-x_j||²2σ²)，其中σ为待调参数。

6.根据权利要求1-5任一项所述的人体动作识别的方法，其特征在于：所述第六步，具体为：首先计算与图G有关的矩阵W和D，其中，W称为图G的邻接矩阵，它是一个n×n的方阵，它的第(i,j)个元素(W)_ij=ω_ij表示样本x_i和x_j的相似程度；D为一个n×n的对角阵，对角线上的元素为图G中各节点的度，于是，计算广义拉普拉斯矩阵为

\tilde{L} = I - αW + α^{2} (D - I),

其中I为单位矩阵，α为待调参数，经验表明将α调小有利于提高动作识别率。

7.根据权利要求6所述的人体动作识别的方法，其特征在于：所述第七步，具体为：将第六步求得的广义拉普拉斯矩阵

代入如下目标函数

\min_{F} Q (F) = \frac{1}{2} (F^{T} \tilde{L} F + μ {| | F - Y | |}^{2})

并进行求解，假设一共需要区分c个动作，那么Y为n×c的矩阵，其第i行为样本x_i的标签向量，记为Y_i；对于少量的已标记样本，其对应的标签向量是一个0-1二值向量，且元素1所在的列对应该样本所属的动作类别；而对于待分类的未标记样本，其标签向量则是一个全0向量；F的构造与Y相同，它记录了最后的分类结果；μ是待调参数，它反映了实际应用中用户对上式中两项的偏重程度；

让上式对F求导，并令结果等于0，得到F的解为：

F=μ[(1-α²+μ)I-αW+α²D]^-1Y。