CN105138995B

CN105138995B - 基于骨架信息的时不变及视不变的人体行为识别方法

Info

Publication number: CN105138995B
Application number: CN201510551025.5A
Authority: CN
Inventors: 刘智; 冯欣; 张�杰; 杨武; 张凌; 张杰慧; 黄智勇
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2019-06-25
Anticipated expiration: 2035-09-01
Also published as: CN105138995A

Abstract

本发明公开一种基于骨架信息的时不变及视不变的人体行为识别方法，先提取相同视频长度的人体行为视频段；从视频的每一帧中提取表达人体行为的二十个关节信息；根据视频每一帧中二十个关节的信息计算处理得出以两髋中心为基准的特征向量HCBV，角度特征向量AV及相对位置特征向量PRPV；采用支持向量机分类器分别对以两髋中心为基准的特征向量HCBV进行分类识别，对角度特征向量AV进行分类识别，对相对位置特征向量PRPV行分类识别，得出各个行为类别的识别概率；最后对以两髋中心为基准的特征向量HCBV、角度特征向量AV及相对位置特征向量PRPV得出的各个行为类别的识别概率进行加权求和融合得到行为的识别结果。本发明识别方法简单直观，识别正确率高，识别时间短。

Description

基于骨架信息的时不变及视不变的人体行为识别方法

技术领域

本发明涉及行为识别方法，具体涉及一种基于骨架信息的时不变及视不变的人体行为识别方法。

背景技术

人体行为识别在视频监控,人机交互,视频提取等很多领域都扮演着十分重要的角色。人体行为识别可以适用到犯罪侦查、病人照护、养老院等领域。在过去的一段时间,机器视觉类任务大多数基于人工设计的特征,如尺度不变特征变换(SIFT),方向梯度直方图(HOG),运动历史图像(MHI)等。然而很多经典的视觉识别方法仅仅是通过拼凑现有的一些成功方法而实现。有学者认为,行为识别的研究在近些年的研究进展非常缓慢。深度相机的出现使得研究者可以重新考虑图像处理和机器视觉的一些问题。与RGB相机相比拍摄颜色和纹理信息不同,深度相机能记录人体的深度信息,从这些信息中能够获得人体的几何信息和骨架信息。而且,深度相机对光线的变化不敏感,因而在视频分割、目标识别、行为识别等视觉任务中比传统的RGB视频具有更好的可分辨性。

现在人们对行为识别的研究专注于寻找人体行为类别和骨架信息之间的潜在关系，如：基于李群和3D骨架点的人体行为识别“Human action recognition byrepresenting 3D skeletons as points in a lie group,”见[1]，该行为识别方法计算复杂度高，花费时间长，提取单个视频所有特征的平均时间为6.53秒，不便于推广使用。如：一种基于3D关节直方图的视不变人体行为识别方法“View invariant human actionrecognition using histograms of 3D joints,”见[2],该识别方法丢失了关节前后帧间的上下文信息，识别正确率低。如：3D人体行为识别中的时空姿势表示“Space-time poserepresentation for 3d human action recognition,”见[3]，该行为识别方法仅仅研究姿势，即以图像为研究基准，通过图像进行识别，不仅对视频拍摄设备要求高，而且使获得的信息识别率低。又如：自然人机交互中的行为识别“Activity recognition for naturalhuman robot interaction,”见[4]，该行为识别研究人机交互，识别效率低。因此通过骨架关节信息建模身体不同部位的3D几何关系可以表示人体的一个姿势，但是现有的识别效率低，时间开销更大。

文献[1]Vemulapalli,F.Arrate,and R.Chellappa,“Human action recognitionby representing 3D skeletons as points in a lie group,”in Computer Vision andPattern Recognition(CVPR),2014 IEEE Conference on,2014,pp.588–595。

文献[2]L.Xia,C.-C.Chen,and J.K.Aggarwal,“View invariant human actionrecognition using histograms of 3D joints,”in Computer Vision and PatternRecognition Workshops(CVPRW),2012 IEEE Computer Society Conference on,2012,pp.20–27。

文献[3]M.Devanne,H.Wannous,S.Berretti,P.Pala,M.Daoudi,and A.DelBimbo,“Space-time pose representation for 3d human action recognition,”in NewTrends in Image Analysis and Processing–ICIAP 2013.Springer,2013,pp.456–464。

文献[4]A.Chrungoo,S.Manimaran,and B.Ravindran,“Activity recognitionfor natural human robot interaction,”in Social Robotics.Springer,2014,pp.84–94。

发明内容

本发明的目的是为了克服现有技术的不足，提供一种基于骨架信息的时不变及视不变的人体行为识别方法，该识别方法简单直观，识别正确率高，且识别时间短。

本发明的目的可以通过以下技术方案实现：

一种基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：包括以下步骤：

1)提取人体行为视频段，并将不同长度的视频段规范化到一个固定的视频长度；

2)根据所得的固定长度的视频提取骨架信息，即从视频的每一帧中提取表达人体行为的二十个关节信息；

3)根据每一帧中提取表达人体行为的二十个关节信息提取三个特征向量，即从视频每一帧中二十个关节的信息计算处理得出以两髋中心为基准的特征向量HCBV，角度特征向量AV及相对位置特征向量PRPV，所述以两髋中心为基准的特征向量HCBV，以每一帧两髋中心关节为坐标原点,计算该帧其他关节到原点的距离d,仰角φ和方位角θ三个参数，将该视频所有帧中除原点以外的其他关节到原点的距离d,仰角φ和方位角θ三个参数串接即为HCBV；所述角度特征向量AV是将该视频所有帧中两相邻关节之间的夹角串接而成的向量；所述相对位置特征向量PRPV是将该视频所有帧中某一关节相对于其他关节之间的相对位置串接而成的向量；

4)对得到的三个特征向量分别进行分类识别：采用支持向量机分类器分别对以两髋中心为基准的特征向量HCBV进行分类识别，对角度特征向量AV进行分类识别，对相对位置特征向量PRPV行分类识别，得出各个行为类别的识别概率；

5)对各行为类别的识别概率进行融合：对以两髋中心为基准的特征向量HCBV、角度特征向量AV及相对位置特征向量PRPV得出的各个行为类别的识别概率进行加权求和融合得到行为的识别结果，其中以两髋中心为基准的特征向量HCBV的权值为0.4，角度特征向量AV的权值为0.3，相对位置特征向量PRPV的权值为0.3。

所述二十个关节分别是两髋中心、脊、两肩中心、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚。

所述提取人体行为视频段，先要对各视频长度进行预处理，采用视频帧规则化插值法将不同视频长度的视频段规范化到一个相同的视频长度。

所述以两髋中心为基准的特征向量HCBV的计算方法是从视频的每一帧中提取以两髋中心关节为坐标原点,其他关节到原点的距离d,仰角φ和方位角θ三个参数，然后将该视频中所有帧的其他关节到原点的距离d,仰角φ和方位角θ进行向量化处理形成基准特征向量；若所述视频中含有tNum帧，则该特征向量的维度为3×19×tNum。

所述以两髋中心为基准的特征向量HCBV中其他关节到两髋中心关节的距离d均乘以高度因子λ规范化为D，参见公式(1)：

D＝λ×d (1)

公式中，高度因子λ等于两髋中心关节和脊关节之间距离的倒数。

所述角度特征向量AV的计算方法是从视频的每一帧中提取各相邻关节之间的夹角，然后将该视频所有帧中的相邻关节间的夹角进行向量化处理形成角度特征向量；若所述视频中含有tNum帧，则该角度特征向量AV的维度为19×tNum。

所述相对位置特征向量PRPV的计算方法是从视频的每一帧中提取某一关节相对于其他关节之间的相对位置，然后将该视频所有帧中所有关节间相对位置进行向量化处理形成相对位置特征向量；若该视频中含有tNum帧，则该特征向量的维度为19×20×tNum。

所述相对位置特征向量PRPV的计算方法中，对于第t帧中的某一个关节i，通过计算该关节i和其他关节j之间的距离来提取相对位置参数p_t ^ij，参见公式(2)：

其中为该t帧中关节i的坐标，t帧中关节i的三维相对位置属性，参见公式(3)：

因此相对位置特征向量PRPV，参见公式(4)；

在三个特征向量进行分类识别前采用min-max方法分别将视频中所有帧的x,y,z坐标值规范化到[0,1]范围。

本发明的有益效果：本行为识别方法包括：首先，对采集的视频长度进行预处理，将不同视频长度的视频段规范化到一个固定的视频长度，不但使得不同视频中所提取出的特征向量具有相同的维度,而且能够保持视频中的主要运动模式信息,从而保证了本方法时间不变的特点。其次，从视频的每一帧中提取人体行为二十个关节的信息，这二十个关节包含了描述人体行为的主要关节，因此已足够表达人体行为特征。根据每一帧中二十个关节的信息计算处理得出以两髋中心为基准的特征向量HCBV，角度特征向量AV及相对位置特征向量PRPV三个特征向量，从骨骼信息中提取角度信息和相对位置形成3种不同的特征向量HCBV,AV和PRPV,HVBC综合了每个关节的角度和方位信息，AV考虑所有关节间角度信息，PRPV考虑了所有关节相对位置信息，因而具有视不可变性的特点。然后，采用支持向量机分类器分别对三个特征向量进行分类识别，得出各个行为类别的识别概率。最后，对各行为类别的识别概率进行加权求和融合得到行为的识别结果。该方法计算简便，花费时间短。本发明方法能够在UTKinect-Action3D数据集上获得与当前方法一致的识别效果，本发明利用人体的骨架信息来提取视频中的特征,因而方法更简单直观,识别时间短，识别准确率高,提高了实时性，并且该方法具有时间不变和视角不变性的特点，使得本发明方法在应用于其他数据集时具有更强的鲁棒性。

所述二十个关节分别是两髋中心、脊、两肩中心、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚。这二十个关节是表达人体行为的主要关节，对人体行为的表达力最强、更清楚，从而使识别效率更高。

采用基准特征向量的支持向量机分类器对以两髋中心为基准的特征向量HCBV进行分类，采用角度特征向量的支持向量机分类器对角度特征向量AV进行分类，采用相对位置特征向量的支持向量机分类器对相对位置特征向量PRPV进行分类。采用这三个支持向量机分类器分别进行分类，即形成先分类再融合，这种方法相对于先合并向量再分类的效果更好。

所述以两髋中心为基准的特征向量HCBV中其他关节到两髋中心关节的距离d均乘以高度因子λ规范化为D，降低了不同高度被试者对特征向量的影响。

在三个特征向量进行分类识别前采用min-max方法分别将视频中所有帧的x,y,z坐标值规范化到[0,1]范围，使数据标准化，提高了识别正确率。

附图说明

图1是本发明以两髋中心为基准的特征向量的示意图；

图2是本发明角度特征向量的示意图。

具体实施例

下面结合附图对本发明作进一步说明。

参见图1至图2所示，一种基于骨架信息的时不变及视不变的人体行为识别方法，

采用深度相机采集深度视频，深度相机相对于传统的RGB视频,深度视频不会随着光线的变化而变化,因此在视频分割,行为识别等视觉任务中比RGB视频具有更好的区分性。深度视频的速度是30帧/秒。

步骤1，提取人体行为视频段，并将不同长度的视频段规范化到一个固定的视频长度；从拍摄的深度视频中提取人体行为视频，先要对视频长度进行预处理，采用视频帧规则化插值法将不同视频长度的视频段规范化到一个相同(固定)的视频长度；这里的视频长度是指视频段包含的帧数，采用视频帧规则化插值法将不同帧数的视频段调整为相同帧数的统一视频段，该统一视频段的帧数为所有视频段帧数的中间值，视频帧规则化插值法是通过视频帧插值技术实现视频长度的规则化方法。视频段的长短无要求，只要该视频段中包含完整的动作行为就可以了，一般至少二十帧。例如，将时间长度为10秒的视频段调整为时间长度为15秒的视频段，则调整后的视频第i帧来自于原视频的第[10*i/15]帧，其中[]为上取整。一般情况下同一个数据集中的视频长度不能相差太大。将不同帧数的视频段调整为帧数相同的视频段，不但使得不同视频中所提取出的特征向量具有相同的维度,而且能够保持视频中的主要运动模式信息,从而保证了本方法时间不变性的特点。该步骤是在人体行为识别前的重要处理步骤。

步骤2，根据所得的固定长度的视频提取骨架信息，即从提取视频段的每一帧中提取表达人体行为的二十个关节信息，二十个关节信息即每个关节的x,y,z坐标信息，所述二十个关节分别是两髋中心、脊、两肩中心、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚；本发明只需要提取这二十个关系的骨架信息，相对于现有方法利用帧中的所有像素点提取特征,本文的方法仅利用人体的骨架信息来提取深度视频中的特征,因而方法更简单,更高效,实时性更高。

步骤3：根据每一帧中提取表达人体行为的二十个关节信息提取三个特征向量，即从视频段的每一帧中二十个关节的信息计算处理得出以两髋中心为基准的特征向量HCBV(Hip Center Based Vector)角度特征向量AV(Angle Vector)及相对位置特征向量PRPV(Pair wise Relative Position Vector)；

所述以两髋中心为基准的特征向量HCBV的计算方法是从视频的每一帧中提取以两髋中心关节为坐标原点,计算该帧其他关节到原点的距离d,仰角φ和方位角θ三个参数，根据各关节点的三维坐标计算得出所有帧的其他关节到原点的距离d,仰角φ和方位角θ三个参数，然后将该视频中所有除原点以外的其他关节到原点的距离d,仰角φ和方位角θ进行向量化处理形成基准特征向量。相对其他关节而言,两髋中心关节移动幅度最小,所以以两髋中心为基准的特征向量HCBV计算方法以两髋中心关节作为3D直角坐标的原点，对于深度视频的每一帧中除两髋中心关节之外的其他关节,可以计算以下三个参数,即该关节到原点的距离d,仰角φ和方位角θ。所述以两髋中心为基准的特征向量HCBV中其他关节到两髋中心关节的距离d均乘以高度因子λ规范化为D，参见公式(1)：

D＝λ×d (1)

公式中，高度因子λ等于两髋中心关节和脊关节之间距离的倒数，将规范化后的其他关节到两髋中心关节的距离D进行构成特征向量，降低了不同高度被者试对特征向量的影响。

每帧视频中共有3×19个参数，若视频中含有tNum帧，则该特征向量的维度为3×19×tNum。如Di_j为第i帧关节j的距离D,θi_j为第i帧关节j的方位角，φi_j为第i帧关节j的仰角，得出：D1_1，φ1_1θ1_1、D1_2 φ1_2 θ1_2、D1_3 φ1_3 θ1_3、.......D1_19 φ1_19 θ1_19， ......D2_19φ2_19 θ2_19，把某一帧中每个关节到两髋中心关节的距离D，仰角φ和方位角θ进行连接，然后将所有帧的这三个参数进行连接(向量化处理)，得到一个以两髋中心为基准的特征向量HCBV。

所述角度特征向量AV是将该视频所有帧中两相邻关节之间的夹角串接而成的向量，先确定骨架结构中所有相邻关节的夹角,相邻关节的夹角根据各相邻关节的三维坐标计算得出，角度特征向量AV旨在提取人体的全局弯曲度信息。角度特征向量AV的计算方法是从视频的每一帧中提取各相邻关节之间的夹角，然后将该视频所有帧中的相邻关节间的夹角进行向量化处理形成角度特征向量；每帧视频中均有19个夹角参数，若视频中含有tNum帧，则该角度特征向量AV的维度为19×tNum。

所述相对位置特征向量PRPV是将该视频所有帧中某一关节相对于其他关节之间的相对位置串接而成的向量，先提取某一关节相对于其他所有关节间的相对位置信息，各关节的相对位置信息根据各相邻关节的三维坐标计算得出，所述相对位置特征向量PRPV的计算方法是从视频的每一帧中提取某一关节相对于其他关节之间的相对位置，然后将该视频所有帧中所有关节间相对位置进行向量化处理形成相对位置特征向量。

所述相对位置特征向量PRPV的计算方法中，对于第t帧中的某一个关节i,通过计算该关节i和其他关节j之间的距离来提取相对位置参数p_t ^ij(保持原来的相对位置特征向量),参见公式(2)：

其中为该t帧中关节i的坐标,t帧中关节i的三维相对位置属性，参见公式(3)：

人体骨架的二十个关节，每帧视频中均有19×20个夹角参数，若该视频中含有tNum帧，则该特征向量的维度为19×20×tNum，因此相对位置特征向量PRPV，参见公式(4)；

由于人与人的高度不一样，所以关节间的距离也会有差别，为了消除这种影响，对所有关节间的距离进行了规范化，其中入等于两髋之间关节和脊关节间距离的倒数，因此对两个关节间的相对位置进行了规范化处理见公式(5)：

P＝p_t ^ij*λ (5)

在三个特征向量进行分类识别前均采用min-max方法将分别将视频中所有帧的x,y,z坐标值规范化到[0,1]范围。

步骤4，对得到的三个特征向量分别进行分类识别：采用三个支持向量机分类器(SVM)分别对以两髋中心为基准的特征向量HCBV进行分类识别，对角度特征向量AV进行分类识别，对相对位置特征向量PRPV行分类识别，得出各个行为类别的识别概率；本实施中所述支持向量机分类器采用LIBLINEAR分类器。支持向量机分类器SVM的分类方法直接使用的参考文献给出的源代码及方法，分类类别就是该数据集所含有的人体行为的类别，该算法对具有任何类别的数据集都可以适用。通过每个特征向量都能够得到一个该视频属于某个行为的概率，因此综合三个特征向量提高了识别效率。

步骤5，对各行为类别的识别概率进行融合：对以两髋中心为基准的特征向量HCBV、角度特征向量AV及相对位置特征向量PRPV得出的各个行为类别的识别概率进行加权求和融合得到行为的识别结果，其中以两髋中心为基准的特征向量HCBV的权值为0.4，角度特征向量AV的权值为0.3，相对位置特征向量PRPV的权值为0.3。通过将同一个视频的三个特征向量的分类结果综合起来，综合其实就是把三个特征向量在各行为上的预测概率进行加权求和，这样就可以得到求和后的每个行为的预测概率，概率大的就是识别出的行为，使得该分类结果的融合非常简单，提高了计算效率。这里的以两髋中心为基准的特征向量HCBV的权值为0.4，角度特征向量AV的权值为0.3，相对位置特征向量PRPV的权值为0.3，各特征向量的权值是根据多次实验及多年的经验得到的。

本发明的实验结果及分析

A.数据集和预处理

实验主机是一台主频为2.50GHz的Intel(R)Core(TM)i5-4200M4处理器CPU,内存为4G,本发明方法在UTKinect-Action3D数据集上进行了实验评估。

UTKinect-Action3D数据集是寻找人体行为类别和骨架信息之间的潜在关系的数据集,该数据集使用静止Kinect相机采集而成,由十个不同的被试者完成十种不同的行为动作见表I,每位被试者每个行为动作拍摄二次。去除一个无效视频,整个数据集总共含有一百九十九个有效视频,每个视频中均提供了二十个关节的三维坐标。为实验的方便,本文的实验中使用了两百个视频序列,即将缺失的第十位被试者扔(carry)动作的第二次拍摄使用原始数据中1242帧到1300帧的视频进行补充，原始数据是指最早没有被分段的原始长视频。

UTKinect-Action3D数据集包含了从多个不同的角度拍摄视频序列并且具有很高的类内差异性,因此十分具有挑战性。所述类内差异性是同一行为类别间也有很大的差异，比如不同人的挥手动作有很大差别。在实验前,我们对每个视频进行了简单的预处理,第一个处理是使用视频帧规则化插值法将数据集中的所有视频长度规范化到统一的视频长度,该视频长度即为所有视频长度的中间值。第二个处理是使用min-max,方法将分别将所有视频的x,y,z坐标值规范化到[0,1]范围。

B.性能评价

对于在UTKinect-Action3D数据集上的实验评估,本文使用交叉被试者的实验设置,即五个被试者的行为动作用于训练，用{1,3,5,7,9}表示他们的行为序列，另外五个被试者的行为动作用于测试，用{2,4,6,8,10}表示他们的行为序列，表I给出了每类行为的识别准确性。从表I中可以看出,各行为的平均识别准确率为95％。UTKinect-Action3D数据集是个从多视角拍摄的并富有挑战性的数据集,每个视频的长度也完全不一样。高识别率的实验结果表明了本文方法的视角不变性和时间不变性的特点。从表I中可看出,扔(carry),投掷(throw)和推(push)动作的识别率相对较低。其中被试者9和被试者10的扔(carry)动作分别被错误的识别为动作throw和push,是因为这两个动作含有的视频帧数太少而导致所提供的信息不足以用于分类识别，因此所选的视频帧数要基本包含完整动作行为，至少二十帧。

表I UTKINECT-Action 3D数据集上各行为动作的识别率(平均值:95％)。

行为	walk	sit down	standu up	pick up	carry
						Accuracy	100	100	100	100	80
行为	throw	push	pull	wave hand	clap hand
						Accuracy	80	90	100	100	100

本文方法和现有行为识别方法在UTKINECT-Action 3D数据集上识别效果进行了比较见表II。本文提出的方法(Proposed)获得了95％的分类性能,其他行为识别方法的识别正确率均低于本发明方法。与此同时,本发明方法提取单个视频所有特征的平均时间为0.18秒，基于李群和3D骨架点的人体行为识别的提取单个视频所有特征的平均时间为6.53秒，远远低于基于李群和3D骨架点的人体行为识别中所需要，因此本文的方法更简单直观,在时间开销上也更高效。

表II本文方法和已有方法在UTKINECT-Action 3D数据集上识别效果的比较

方法(Method)	准确率(Accuracy)
		Xia et al.(2012)文献[2]	90.92％
Devanne et al.(2013)文献[3]	91.5％
		Chrungoo et al.(2014)文献[4]	91.96％
Proposed	95％

本发明提出了一种基于深度视频的骨架信息直观并且简单有效的人体行为识别方法,该方法通过提取深度视频中关节间的角度信息和相对位置信息形成3种不同的特征向量HCBV,AV和PRPV。通过融合HCBV,AV,PRPV三个特征向量的分类结果,本文的方法在UTKinect-Action3D数据集获得了很好的识别结果,本文所提出方法更简单直观,时间开销更小。与此同时,本方法所提取的特征具有时间不变性和视角不变性的特点,使得本方法在应用于其他数据集时具有更强的鲁棒性。

Claims

1.一种基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述二十个关节分别是两髋中心、脊、两肩中心、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝和右脚。

3.根据权利要求1所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述提取人体行为视频段，先要对各视频长度进行预处理，采用视频帧规则化插值法将不同视频长度的视频段规范化到一个相同的视频长度。

4.根据权利要求1所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述以两髋中心为基准的特征向量HCBV的计算方法是从视频的每一帧中提取以两髋中心关节为坐标原点,其他关节到原点的距离d,仰角φ和方位角θ三个参数，然后将该视频中所有帧的其他关节到原点的距离d,仰角φ和方位角θ进行向量化处理形成基准特征向量；若所述视频中含有tNum帧，则该特征向量的维度为3×19×tNum。

5.根据权利要求1或4所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述以两髋中心为基准的特征向量HCBV中其他关节到两髋中心关节的距离d均乘以高度因子λ规范化为D，参见公式(1)：

D＝λ×d (1)

6.根据权利要求1所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述角度特征向量AV的计算方法是从视频的每一帧中提取各相邻关节之间的夹角，然后将该视频所有帧中的相邻关节间的夹角进行向量化处理形成角度特征向量；若所述视频中含有tNum帧，则该角度特征向量AV的维度为19×tNum。

7.根据权利要求1所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述相对位置特征向量PRPV的计算方法是从视频的每一帧中提取某一关节相对于其他关节之间的相对位置，然后将该视频所有帧中所有关节间相对位置进行向量化处理形成相对位置特征向量；若该视频中含有tNum帧，则该特征向量的维度为19×20×tNum。

8.根据权利要求1或7所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：所述相对位置特征向量PRPV的计算方法中，对于第t帧中的某一个关节i，通过计算该关节i和其他关节j之间的距离来提取相对位置参数p_t ^ij，参见公式(2)：

因此相对位置特征向量PRPV，参见公式(4)；

PRPV＝{Attr_t ⁱ|i＝1,...,20；t＝1,...,tNum}(4)。

9.根据权利要求1所述的基于骨架信息的时不变及视不变的人体行为识别方法，其特征在于：在三个特征向量进行分类识别前采用min-max方法分别将视频中所有帧的x,y,z坐标值规范化到[0,1]范围。