CN105022982A

CN105022982A - 手部运动识别方法和装置

Info

Publication number: CN105022982A
Application number: CN201410163979.4A
Authority: CN
Inventors: 明悦; 蒋杰; 刘婷婷; 王巨宏
Original assignee: Tencent Technology Shenzhen Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Tencent Technology Shenzhen Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2015-11-04
Anticipated expiration: 2034-04-22
Also published as: CN105022982B; WO2015161776A1; US10248854B2; US20160335487A1

Abstract

本发明涉及一种手部运动识别方法和装置。所述方法包括：获取待识别视频；对所述待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对；对所述手部的RGB视频和深度信息视频对进行检测得到特征点；将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示；将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别。上述手部运动识别方法和装置，因采用特征点的提取包括了深度信息，极大的提高了手部识别的准确性，采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点，进一步提高手部运动识别准确性。

Description

手部运动识别方法和装置

技术领域

本发明涉及运动识别领域，特别是涉及一种手部运动识别方法和装置。

背景技术

随着计算机技术的发展，人的行为识别是一种在计算机视觉中不断发展的领域，尤其随着大数据时代而发展。近期，越来越多的研究聚焦在群组行为识别。例如基于特征的协方差矩阵的监督学习的行为识别，其具有强大的抗变异行为、视点切换和低分辨率。再如通过间隔时间贝叶斯网络模拟复杂时空互动行为，以及基于人行为、姿态和面部表情统一框架的无监督分组和一次学习的原始运动事件等。上述的行为分析均应用于分析个人或群组的大量行为。

对于手部运动因光线、姿态和遮挡的多变性，无法准确的识别。

发明内容

基于此，有必要针对手部运动无法准确识别的问题，提供一种手部运动识别方法和装置，能准确识别手部运动。

一种手部运动识别方法，包括以下步骤：

获取待识别视频；

对所述待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对；

对所述手部的RGB视频和深度信息视频对进行检测得到特征点；

将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示；

将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别。

一种手部运动识别装置，包括：

待识别视频获取模块，用于获取待识别视频；

待识别视频对提取模块，用于对所述待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对；

待识别特征点检测模块，用于对所述手部的RGB视频和深度信息视频对进行检测得到特征点；

待识别特征点表征模块，用于将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示；

类别识别模块，用于将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子比较得出所述待识别视频中手部运动类别。

上述手部运动识别方法和装置，从视频中提取手部的RGB视频和深度信息视频对，并对RGB视频和深度信息视频对进行检测得到特征点，采用三维网格运动尺度不变特征变换特征描述子描述该特征点，对该特征点进行判断得出手部运动分类，因采用特征点的提取包括了深度信息，极大的提高了手部识别的准确性，采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点，进一步提高手部运动识别准确性。

附图说明

图1为一个实施例中手部运动识别方法的流程图；

图2中示出了不同距离手部定位和跟踪的实例示意图；

图3为三维网格运动尺度不变特征变换特征点描述子计算示意图；

图4为一个实施例中预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本的流程图；

图5为一个实施例中手部运动识别装置；

图6为一个实施例中待识别视频对提取模块的结构框图；

图7为一个实施例中待识别特征点检测模块的内部结构框图；

图8为一个实施例中类别识别模块的内部结构框图；

图9为另一个实施例中手部运动识别装置的结构框图；

图10为一个实施例中构建模块的内部结构框图；

图11为一个实施例中训练视频对提取模块的内部结构框图；

图12为一个实施例中训练特征点检测模块的内部结构框图；

图13为ChaLearn数据库的一些示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中手部运动识别方法的流程图。如图1所示，该手部运动识别方法，包括以下步骤：

步骤102，获取待识别视频。

具体的，该待识别视频可为各种采集的包含人的手部运动数据的RGB(Red-Green-Blue，红-绿-蓝)视频和深度信息视频。深度信息是指场景中物点到相机焦点的法线距离即像素深度值。所有像素点的深度值构成的矩阵为该图像的深度图。深度信息受光照、姿势和遮挡因素影响。深度信息通过体感相机接收红外信号而捕捉到，其能有效的反映运动区域与相机之间距离的变化趋势。

步骤104，对该待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对。

具体的，通过自动检测器定位跟踪待识别视频中每帧图像中的手部区域，然后提取出手部的RGB-D(Depth)视频对(即RGB视频和深度信息视频对)。该自动检测器有21关节角的21自由度以及取向和定位的6自由度。

步骤106，对该手部的RGB视频和深度信息视频对进行检测得到特征点。

具体的，特征点是指视频图像中灰度变化的局部极值点，含有视频所特有的结构性信息。本实施例中，特征点能代表该手部的RGB视频和深度信息视频对的结构性特征。

步骤108，将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。

具体的，三维网格运动尺度不变特征变换特征描述子所对应的英文为3DMesh MoSIFT(Motion Scale-invariant Feature Transform)Feature Descriptor。三维网格运动尺度不变特征变换特征描述子是一种基于尺度空间的、对图像缩放、旋转变换保持不变性的图像局部特征描述算子。本实施例中，通过该三维网格运动尺度不变特征变换特征描述子表示手部的RGB-D视频对的特征点。

步骤110，将该特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出该待识别视频中手部运动类别。

具体的，预先根据已知手部运动类别的视频进行训练得到正负样本，正样本是指手部运动识别正确的样本，负样本是指手部运动识别错误的样本。正样本中包含三维网格运动尺度不变特征变换特征描述子及相应的手部运动类别。将待识别视频中手部的RGB-D视频对的特征点的三维网格运动尺度不变特征变换特征描述子与正样本中的三维网格运动尺度不变特征变换特征描述子进行匹配，即可得到待识别视频中手部运动类别。

上述手部运动识别方法，从视频中提取手部的RGB视频和深度信息视频对，并对RGB视频和深度信息视频对进行检测得到特征点，采用三维网格运动尺度不变特征变换特征描述子描述该特征点，将该特征点的三维网格运动尺度不变特征变换特征描述子与正样本中的三维网格运动尺度不变特征变换特征描述子进行匹配，即可得到该待识别视频中手部运动类别，因对特征点的提取包括了深度信息，极大的提高了手部识别的准确性，采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点，进一步提高手部运动识别准确性。

在一个实施例中，步骤104，对该待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度视频对，包括：采用自适应窗口定位手部区域；采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

具体的，首先选取一帧待识别视频数据，通过自适应窗口定位该所选一帧待识别视频数据的手部区域，然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。对手部区域定位和跟踪可有效预测状态随时间的变化。

该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和。最小能量函数公式如下：

E(λ,i)＝E_D(λ,i)+E_S(λ,i)+E_T(λ,i)+E_C(λ,i)+E_M(λ,i)+E_Ch(λ,i)(1)

式(1)中，E(λ,i)为第i帧在参数λ下的能量函数，λ为标注函数，E_D(λ,i)是数据项，E_S(λ,i)是平滑项，E_T(λ,i)是距离项，E_C(λ,i)是空间约束项，E_M(λ,i)是运动约束项，E_Ch(λ,i)是图割(Chamfer)距离项。

其中，该数据项E_D(λ,i)用于估算手部在各点像素的似然值。假设手被固定在所选RGB-D视频对的第i帧视频上，表示第i帧上的第n只手，且表示该RGB-D视频对的背景，此处n＝1,2,…,N表示共有N只手(在一个视频对的每帧中可包括多只手部运动，需对每只手分别估算其在各点像素的似然值)，则可根据第i帧的预测在(i+1)帧中的表示第i帧的第n只手在第(i+1)帧上的手)。数据项E_D(λ,i)由对数函数和二值函数计算得到。数据项E_D(λ,i)被定义如下：

E_{D} (λ, i) = - \underset{x &Element; I}{Σ} Σ_{n = 0}^{n} \ln (p_{n}^{i} (x)) δ (λ, n) - - - (2)

数据项E_D估计目标n在像素x的似然值P_n(x)；δ(λ,n)为二值函数，若λ＝n，δ(λ,n)＝1，否则δ(λ,n)＝0，N是手的总数，x为像素点，I为第i帧上的像素集合。

该平滑项E_S(λ,i)用于估算两个相邻像素点p,q的平滑度。平滑项E_S(λ,i)由平滑度参数、相机噪声、两个相邻像素点的欧式距离及二值函数计算得到。该平滑项E_S(λ,i)的计算公式如下：

E_{S} (λ, i) = w_{s} \underset{(p, q) &Element; w^{t}, λ_{p} &NotEqual; λ_{q}}{Σ} (\exp (- {(I_{p}^{i} (x) - I_{q}^{i} (x))}^{2} / σ^{2}) * (1 / | | p - q | |)) (1 / δ (λ_{p}, λ_{q})) - - - (3)

式(3)中，p-q是标准的欧式距离，σ是被估算的相机噪声，w_s＞0表示平滑度参数，w^t是标准的四邻域中的所有无序邻域像素对。δ(λ_p,λ_q)为二值函数，若p,q一致，则δ(λ_p,λ_q)＝1，若p,q不一致时，则δ(λ_p,λ_q)＝0，(x)表示在第i帧上的像素p点的灰阶值，(x)表示在第i帧上的像素q点的灰阶值。

该距离项E_T(λ,i)用于约束新的状态估计在预测的空间领域。该距离项E_T(λ,i)适用于在时间和空间上连续变形的目标。距离项E_T(λ,i)由距离参数、尺度函数计算得到。该距离项E_T(λ,i)被定义如下：

E_{T} (λ, i) = w_{T} \underset{x &Element; I}{Σ} Σ_{n = 1}^{n} a ({\tilde{c}}_{n} - c_{n}) d_{n} (I (x)) δ (λ (x), n) - - - (4)

式(4)中，是预测重心，c_n是实际重心，w_T＞0表示距离参数，是尺度函数，N是手的总数，x为像素点，I为第i帧上的像素集合，I(x)为像素点x的灰阶值，距离用于约束新的状态在预测的空间领域，其中，z为经验值；δ(λ(x),n)是二值函数，若λ(x)＝n，则δ(λ(x),n)＝1，否则，δ(λ(x),n)＝0。

该空间约束项E_C(λ,i)用于区分手部的颜色相近区域。因人体肤色相近，空间约束被引入到区分手部的颜色相近区域。空间约束项E_C(λ,i)计算像素x到(第(i-1)帧的第n只手在第i帧上的手)的重心(第(i-1)帧的第n只手在第i帧上的手的重心)的距离。当像素x靠近该重心则E_C(λ,i)的惩罚比较小。空间约束项E_C(λ,i)由惩罚函数和二值函数计算得到。空间约束项E_C(λ,i)定义如下：

E_{c} (λ, i) = w_{c} \underset{x &Element; I}{Σ} Σ_{n = 1}^{n} ψ (I (x), c_{n}^{i | i - 1}) δ (λ, (x), n) - - - (5)

式(5)中，表示预测集的重心，w_c＞0是一常量，I为第i帧上的像素集合，δ(λ(x),n)为二值函数，若λ(x)＝n，则δ(λ(x),n)＝1，否则，δ(λ(x),n)＝0。惩罚函数如下：

ψ (x, c_{n}^{i | i - 1}) = \exp (| | x - c_{n}^{i | i - 1} | | / Σ_{n = 1}^{N} | | x - c_{n}^{i | i - 1} | | - - - (6)

式(6)中，是表示像素x到的之间的一个标准的欧式距离。

该运动约束项E_M(λ,i)用于分割手部和除手部外的其余部分。为了克服手被类似颜色的其他物体(如人脸)遮挡，引入运动约束项E_M(λ,i)得到较好的分割。运动约束项E_M(λ,i)由权重参数、平均速率计算得到。运动约束项E_M(λ,i)定义如下：

E_{M} (λ, i) = w_{M} \underset{x &Element; I}{Σ} Σ_{n = 1}^{N} β_{1} ({\overset{&OverBar;}{&upsi;}}_{n}^{i}) δ (λ (x), n) - w_{M} \underset{x &Element; I}{Σ} β_{2} ({\overset{&OverBar;}{&upsi;}}_{1}^{0} . . . {\overset{&OverBar;}{&upsi;}}_{N}^{0}) (1 - δ (λ (x), 0)) - - - (7)

式(7)中，w_M＞0是权重参数，是第i帧的第n只手的平均速率。函数和定义如下：

\begin{matrix} β_{1} ({\overset{&OverBar;}{&upsi;}}_{n}^{i}) = \exp (- {\overset{&OverBar;}{&upsi;}}_{n}^{i} * {\overset{&OverBar;}{&upsi;}}_{n}^{i} / ρ^{2}) \\ β_{2} ({\overset{&OverBar;}{&upsi;}}_{1}^{0} . . . {\overset{&OverBar;}{&upsi;}}_{N}^{0}) = \exp (- Σ_{n = 1}^{N} {\overset{&OverBar;}{&upsi;}}_{n}^{0} * {\overset{&OverBar;}{&upsi;}}_{n}^{0} / ρ^{2}) \end{matrix} - - - (8)

式(8)中，ρ是运动参数。从的预测集中取像素x，分配n₁只手部给β₁，剩余n₂只手部给β₂。

该图割距离项E_Ch(λ,i)用于区分手部重叠区域。当双手重叠，需设置一个较大的图割值保证遮挡区域预测的准确性。图割距离项E_Ch(λ,i)由权重参数和距离变化函数计算得到。图割距离项E_Ch(λ,i)通过如下方程计算得到：

E_{Ch} (λ, i) = w_{Ch} \underset{(p, q) &Element; w^{t}, λ_{p} &NotEqual; λ_{q}}{Σ} (1 - \exp (- ξ (x))) (1 - δ (λ_{p}, λ_{q})) - - - (9)

式(9)中，ξ(x)是Chamfer距离变化函数，其归一化在[0，1]，w_Ch＞0是权重参数，w^t是时刻权值，若p,q一致，则δ(λ_p,λ_q)＝1，若p,q不一致时，则δ(λ_p,λ_q)＝0。在计算Chamfer距离之前，首先得到第i帧的二进制图像，然后再按照隔帧计算方式计算出Chamfer距离的值。

合并所有项，通过预测集和扩展项构造图表，根据该图表得到最后跟踪结果，如图2所示，图2中示出了不同距离手部定位和跟踪的实例示意图。

在一个实施例中，步骤106，该对手部的RGB视频和深度信息视频对进行检测得到特征点，包括：

(1)将该手部的RGB视频和深度信息视频对转换为灰度和深度数据，并将该灰度和深度数据转换为三维网格数据；

(2)计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度；

具体的，将三维网格数据形成网格域M。高斯滤波器被定义在网格域M上，得到网格层M^S＝(V^S,F)，其中，V^S是S层顶点，F是三角面片。

假设在网格层第S层(层即尺度)的每个顶点下一层即(S+1)的顶点为一阶邻域内所有顶点的均值。可被计算如式(10)：

{&upsi;}_{m}^{s + 1} = \frac{1}{V n_{m}^{s}} \underset{{&upsi;}_{j}^{s} &Element; V n_{m}^{s}}{Σ} {&upsi;}_{j}^{s} - - - (10)

式(10)中，为的一阶邻域集，为中的一个元素。定义D_i为在顶点的深度信息的局部密度，其计算公式如式(11)：

D_{i} = \frac{1}{| V n_{m}^{s} |} \underset{{&upsi;}_{j}^{s} &Element; V n_{m}^{s}}{Σ} | {&upsi;}_{m}^{s} - {&upsi;}_{j}^{s} | - - - (11)

初始方差σ₀＝D_i。

DOG(Different Of Gradient，梯度微分)函数被定义为两个不同尺度的高斯核的差分，计算如式(12)：

d_{m}^{s} = \frac{1}{σ^{2}} | {&upsi;}_{m}^{s} - {&upsi;}_{m}^{s + 1} | - - - (12)

式(12)中，σ²为高斯滤波器在尺度S的方差。目标网格样本是非均匀的，网格层的整体滤波宽度满足密度不变性D_m为深度信息的局部密度。

局部尺度被设置为S_m为尺度参数，D_m为深度信息的局部密度，C为用于权衡局部性和鲁棒性的描述子的预定义参数。

(3)选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。

本实施例中，预设邻域可包括本层的6点邻域，上层的6点邻域，下层的6点邻域，即以本层中某一顶点为中心，在本层选取6个点，在上层选6个点，下层选6个点，构成该顶点的邻域。该预设邻域范围可根据需要调整，不作限定。

在一个实施例中，步骤108，将特征点采用三维网格运动尺度不变特征变换特征描述子表示，包括：

将该特征点采用三维梯度空间描述子和三维运动空间描述子表示；该三维梯度空间包括图像梯度沿水平方向和垂直方向的描述子；该三维运动空间描述子为速率描述子。

具体的，为了减小冗余，提高计算效率，基于三个分离的平面的三维网格运动尺度不变特征变换特征描述子仅考虑共同出现的情况。特征点的三维网格运动尺度不变特征变换特征描述子包括两个部分：三维梯度空间描述子和三维运动空间描述子。三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子。

三维梯度空间的描述子通过图3的方式进行计算得到。三维梯度空间的描述子计算步骤如下：首先将坐标轴旋转为特征点的方向，然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口，在每个在r×r的块上计算8个方向的梯度直方图，并求出每个梯度方向的累加值，形成一个种子点，将特征点采用个种子点组成，每个种子点有8个方向向量信息，m和r均为2的整数倍的自然数。

本实施例中，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取16×16的窗口(如图3中左部分)，每个窗口代表特征点邻域所在尺度空间的一个像素，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值。然后在每个4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，如图3中右部分所示。图3中一个特征点由4×4共16个种子点组成，每个种子点有8个方向向量信息。采用16个种子点描述特征点可产生128个数据，最终形成128维的三维网格运动尺度不变特征变换的特征向量，其准确性更高。在其他实施例中，以特征点投影到xy平面、xz平面和yz平面的点为中心取窗口大小可为8×8，则一个特征点由2×2共4个种子点组成，每个种子点有8个方向向量信息。

图像梯度沿水平方向和垂直方向计算如式(13)：

\begin{matrix} I_{x} = {&dtri;}_{x} (I) = \frac{&PartialD; I}{&PartialD; x}, I_{y} = {&dtri;}_{y} (I) = \frac{&PartialD; I}{&PartialD; y}, \\ D_{z}^{x} = {&dtri;}_{x} (D) = \frac{&PartialD; D}{&PartialD; x}, D_{z}^{y} = {&dtri;}_{y} (D) = \frac{&PartialD; D}{&PartialD; y} \end{matrix} - - - (13)

式(13)中，和分别为x方向(水平方向)和y方向(垂直方向)上的梯度。

三维运动空间描述子为速率描述子。速率描述子在三维空间xyz坐标轴上的分量包括：速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差；速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差；速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。

具体的，在时间点i时刻的特征点p_i被检测，通过RGB数据可预测点p_i+1，然后在深度信息视频中的深度图像D中确定相应的和不同方向的速率的计算公式如式(14)：

V_x＝I_x(p_i+1)-I_x(p_i),V_y＝I_y(p_i+1)-I_y(p_i),V_z＝D(p_i+1)-D(p_i)(14)

上述采用三维网络运动运动尺度不变特征变换特征描述子表示特征点，可更换的反映运动表面结果和保存更多的判别信息，且三维网络运动运动尺度不变特征变换特征描述子在xy平面、xz平面和yz平面三个正交平面形成网状表面，连接特征矢量更短，有效改善了手部精细运动的信息表现。

在一个实施例中，步骤110，将该特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出该待识别视频中手部运动类别，包括：

(1)将该特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。

具体的，假设Y＝[y₁,y₂,…,y_n]∈R^D×N是一组从训练视频中提取的D维度的描述子，构造视觉编码本B＝[b₁,b₂,…,b_M]∈R^D×M。给Y提供一个稀疏表C＝[c₁,c₂,…,c_N]，c_i∈R^M，每个c_i包含k(k＜＜M)或者更少非零元素。定义优化函数如式(15)：

\min_{c} {| | Y - BC | |}_{F}^{2}, s . t . {| | c_{i} | |}_{0} \leq k, {&ForAll;}_{i} - - - (15)

式(15)中，||·||_F是Forbenius范数，||·||₀是l₀范数用来计算非零元素数。通过式(15)将特征点的三维网格运动尺度不变特征变换特征描述子降维至与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。此外，采用SOMP(Simulation orthogonal matching pursuit，模拟正交匹配)跟踪稀疏编码法采用线性组合表示稀疏系数。

与手部运动类别相关的描述子的向量的稀疏系数c_i∈C，使用系数直方图表征每个稀疏系数，公式如式(16)：

h_{j} = \frac{1}{N} Σ_{i = 1}^{N} c_{i} - - - (16)

式(16)中，c_i∈C是C∈M×N的第i帧的描述子，N是h_j∈M描述子的总数。每个视觉编码可通过系数直方图描述，根据系数直方图可直观的确定识别视频中手部运动的视觉编码，从而得到手部运动的分类结果。

(2)求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与该正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离。

(3)选取与该特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的该正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别，作为该待识别视频中手部运动类别。

上述通过对特征点的三维网格运动尺度不变特征变换特征描述子进行降维处理，达到预先训练得到的三维网格运动尺度不变特征变换特征描述子的维度，再进行比较匹配，更加准确。

在一个实施例中，上述手运动识别方法还包括：预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。

图4为一个实施例中预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本的示意图。图4中预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本的过程与手部运动识别方法大部分一致，仅在于训练是为了得到正负样本。如图4所示，预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本包括：

步骤402，获取训练视频集。

训练视频是指已知视频中手部运动类别的视频。

步骤404，对该训练视频集中的视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对。

对该训练视频集中的视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对，包括：采用自适应窗口定位手部区域；采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

具体的，首先选取一帧训练视频数据，通过自适应窗口定位该所选一帧训练视频数据的手部区域。然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度视频对。

E(λ,i)＝E_D(λ,i)+E_S(λ,i)+E_T(λ,i)+E_C(λ,i)+E_M(λ,i)+E_Ch(λ,i)(1)

数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项具体描述如手动运动识别方法中所描述，在此不再赘述。

步骤406，对该手部的RGB视频和深度信息视频对进行检测得到特征点。

在一个实施例中，步骤406包括：

步骤408，将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。

在一个实施例中，步骤408包括：将该特征点采用三维梯度空间描述子和三维运动空间描述子表示；该三维梯度空间包括图像梯度沿水平方向和垂直方向的描述子；该三维运动空间描述子为速率描述子。

三维梯度空间的描述子计算步骤如下：首先将坐标轴旋转为特征点的方向，然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口，在每个在r×r的块上计算8个方向的梯度直方图，并求出每个梯度方向的累加值，形成一个种子点，将特征点采用个种子点组成，每个种子点有8个方向向量信息，m和r均为2的整数倍的自然数。

步骤410，对该特征点的三维网格运动尺度不变特征变换特征描述子进行判别该训练视频集中手部运动类别，形成正负样本。

具体的，根据三维网格运动尺度不变特征变换特征描述子判别该训练视频中手部运动类别，若与已知的类别相同，则将该训练视频存入正样本中，若与已知的类别不同，则将该训练视频存入负样本，且正负样本中均包含三维网格运动尺度不变特征变换特征描述子及相应的类别。

综上所述，从视频中提取手部的RGB视频和深度视频对，并对RGB视频和深度视频对进行检测得到特征点，采用三维网格运动尺度不变特征变换特征描述子描述该特征点，对该特征点进行训练得到判断手部运动分类的描述子的正负样本，因采用特征点的提取包括了深度信息，极大的提高了手部识别的准确性，采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点，进一步提高手部运动识别准确性。

图5为一个实施例中手部运动识别装置的结构框图。图5为一个实施例中手部运动识别装置的结构框图。如图5所示，该手部运动识别装置为对应于手部运动识别方法所构建的功能模块，该手部运动识别装置中所描述不详细的地方参照手部运动识别方法所描述。该手部运动识别装置，包括待识别视频获取模块510、待识别视频对提取模块520、待识别特征点检测模块530、待识别特征点表征模块540和类别识别模块550。其中：

待识别视频获取模块510用于获取待识别视频。具体的，该待识别视频可为各种采集的包含人的手部运动数据的RGB(Red-Green-Blue，红-绿-蓝)视频和深度信息视频。

待识别视频对提取模块520用于对该待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对。具体的，通过自动检测器定位跟踪待识别视频中每帧图像中的手部区域，然后提取出手部的RGB-D(Depth)视频对(即RGB视频和深度信息视频对)。

待识别特征点检测模块530用于对该手部的RGB视频和深度信息视频对进行检测得到特征点。具体的，特征点是指视频图像中灰度变化的局部极值点，含有视频所特有的结构性信息。本实施例中，特征点能代表该手部的RGB视频和深度信息视频对的结构性特征。

待识别特征点表征模块540用于将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。三维网格运动尺度不变特征变换特征描述子是一种基于尺度空间的、对图像缩放、旋转变换保持不变性的图像局部特征描述算子。本实施例中，通过该三维网格运动尺度不变特征变换特征描述子表示手部的RGB-D视频对的特征点。

类别识别模块550用于将该特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出该待识别视频中手部运动类别。

图6为一个实施例中待识别视频对提取模块的内部结构框图。待识别视频对提取模块520包括待识别视频定位子模块522和待识别视频提取子模块524。其中：

待识别视频定位子模块522用于采用自适应窗口定位手部区域。

待识别视频提取子模块524用于采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

具体的，首先选取一帧待识别视频数据，通过自适应窗口定位该所选一帧待识别视频数据的手部区域。然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和；该数据项用于估算手部在各点像素的似然值；该平滑项用于估算两个相邻像素点为不同的标注；该距离项用于约束新的状态估计在预测的空间领域；该空间约束项用于区分手部的相邻区域；该运动约束项用于分割手部和除手部外的其余部分；该图割距离项用于区分手部重叠区域。

该数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项的计算公式如上述手部运动识别方法中所描述，在此不再赘述。

图7为一个实施例中待识别特征点检测模块的内部结构框图。如图7所示，待识别特征点检测模块530包括待识别数据转换子模块532、待识别密度获取子模块534和待识别特征点选取子模块536。其中：

待识别数据转换子模块532用于将该手部的RGB视频和深度信息视频对转换为灰度和深度数据，并将该灰度和深度数据转换为三维网格数据。

待识别密度获取子模块534用于计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度。

{&upsi;}_{m}^{s + 1} = \frac{1}{V n_{m}^{s}} \underset{{&upsi;}_{j}^{s} &Element; V n_{m}^{s}}{Σ} {&upsi;}_{j}^{s} - - - (10)

D_{i} = \frac{1}{| V n_{m}^{s} |} \underset{{&upsi;}_{j}^{s} &Element; V n_{m}^{s}}{Σ} | {&upsi;}_{m}^{s} - {&upsi;}_{j}^{s} | - - - (11)

初始方差σ₀＝D_i。

d_{m}^{s} = \frac{1}{σ^{2}} | {&upsi;}_{m}^{s} - {&upsi;}_{m}^{s + 1} | - - - (12)

待识别特征点选取子模块536用于选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。

在一个实施例中，该待识别特征点表征模块540还用于将该特征点采用三维梯度空间描述子和三维运动空间描述子表示；该三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子；该三维运动空间描述子为速率描述子。

三维梯度空间的描述子通过图3的方式进行计算得到。三维梯度空间的描述子计算如下：待识别特征点表征模块540还用于将坐标轴旋转为特征点的方向，然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口，在每个在r×r的块上计算8个方向的梯度直方图，并求出每个梯度方向的累加值，形成一个种子点，将特征点采用个种子点组成，每个种子点有8个方向向量信息，m和r均为2的整数倍的自然数。

图像梯度沿水平方向和垂直方向计算如式(13)：

\begin{matrix} I_{x} = {&dtri;}_{x} (I) = \frac{&PartialD; I}{&PartialD; x}, I_{y} = {&dtri;}_{y} (I) = \frac{&PartialD; I}{&PartialD; y}, \\ D_{z}^{x} = {&dtri;}_{x} (D) = \frac{&PartialD; D}{&PartialD; x}, D_{z}^{y} = {&dtri;}_{y} (D) = \frac{&PartialD; D}{&PartialD; y} \end{matrix} - - - (13)

V_x＝I_x(p_i+1)-I_x(p_i),V_y＝I_y(p_i+1)-I_y(p_i),V_z＝D(p_i+1)-D(p_i)(14)

图8为一个实施例中类别识别模块的内部结构框图。如图8所示，类别识别模块550包括降维子模块552、距离获取子模块554和类别判定子模块556。其中：

降维子模块552用于将该特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。

\min_{c} {| | Y - BC | |}_{F}^{2}, s . t . {| | c_{i} | |}_{0} \leq k, {&ForAll;}_{i} - - - (15)

式(15)中，||·||_F是Forbenius范数，||·||₀是l₀范数用来计算非零元素数。通过式(15)将特征点的三维网格运动尺度不变特征变换特征描述子降维至与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度。

h_{j} = \frac{1}{N} Σ_{i = 1}^{N} c_{i} - - - (16)

距离获取子模块554用于求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与该正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离。

类别判定子模块556用于选取与该特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的该正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别，作为该待识别视频中手部运动类别。

图9为另一个实施例中手部运动识别装置的结构框图。如图9所示，该手部运动识别装置除了包括待识别视频获取模块510、待识别视频对提取模块520、待识别特征点检测模块530、待识别特征点表征模块540和类别识别模块550，还包括构建模块560。构建模块560用于预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。

图10为一个实施例中构建模块的内部结构框图。如图10所示，该构建模块560包括训练视频获取模块1010、训练视频对提取模块1020、训练特征点检测模块1030、训练特征点表征模块1040和样本构建模块1050。其中：

训练视频获取模块1010用于获取训练视频集。

训练视频对提取模块1020用于对该训练视频集中的视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对。

训练特征点检测模块1030用于对该手部的RGB视频和深度信息视频对进行检测得到特征点。

训练特征点表征模块1040用于将该特征点采用三维网格运动尺度不变特征变换特征描述子表示。

样本构建模块1050用于对该特征点的三维网格运动尺度不变特征变换特征描述子进行判别该训练视频集中手部运动类别，形成正负样本。

上述手部运动识别装置，从视频中提取手部的RGB视频和深度视频对，并对RGB视频和深度视频对进行检测得到特征点，采用三维网格运动尺度不变特征变换特征描述子描述该特征点，对该特征点进行训练得到判断手部运动分类的描述子的正负样本，因采用特征点的提取包括了深度信息，极大的提高了手部识别的准确性，采用三维网格运动尺度不变特征变换特征描述子能精确描述特征点，进一步提高手部运动识别准确性。

图11为一个实施例中训练视频对提取模块的内部结构框图。该训练视频对提取模块1020包括训练视频定位子模块1022和训练视频提取子模块1024。其中：

训练视频定位子模块1022用于采用自适应窗口定位手部区域。

训练视频提取子模块1024用于采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

具体的，首先选取一帧训练视频数据，通过自适应窗口定位该所选一帧训练视频数据的手部区域。然后通过最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

该最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和；该数据项用于估算手部在各点像素的似然值；该平滑项用于估算两个相邻像素点的平滑度；该距离项用于约束新的状态估计在预测的空间领域；该空间约束项用于区分手部的相邻区域；该运动约束项用于分割手部和除手部外的其余部分；该图割距离项用于区分手部重叠区域。其中，数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项具体定义如手部运动识别方法中所描述，在此不再赘述。

图12为一个实施例中训练特征点检测模块的内部结构框图。如图12所示，训练特征点检测模块1030包括训练数据转换子模块1032、训练密度获取子模块1034和训练特征点选取子模块1036。其中：

训练数据转换子模块1032用于将该手部的RGB视频和深度信息视频对转换为灰度和深度数据，并将该灰度和深度数据转换为三维网格数据。

训练密度获取子模块1034用于计算该三维网格数据中预设邻域内各顶点的深度信息的局部密度。

训练特征点选取子模块1036用于选取该预设邻域内的深度信息的局部密度最大值所对应的顶点作为该预设邻域的特征点。

在一个实施例中，该训练特征点表征模块1040还用于对该特征点采用三维梯度空间描述子和三维运动空间描述子表示；该三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子；该三维运动空间描述子为速率描述子。

具体的，特征点的三维网格运动尺度不变特征变换特征描述子包括两个部分：三维梯度空间描述子和三维运动空间描述子。三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子。三维梯度空间的描述子计算如下：待识别特征点表征模块540还用于将坐标轴旋转为特征点的方向，然后以特征点投影到三维空间坐标的xy平面、xz平面和yz平面，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口，在每个在r×r的块上计算8个方向的梯度直方图，并求出每个梯度方向的累加值，形成一个种子点，将特征点采用个种子点组成，每个种子点有8个方向向量信息，m和r均为2的整数倍的自然数。

图像梯度沿水平方向和垂直方向计算如式(13)：

\begin{matrix} I_{x} = {&dtri;}_{x} (I) = \frac{&PartialD; I}{&PartialD; x}, I_{y} = {&dtri;}_{y} (I) = \frac{&PartialD; I}{&PartialD; y}, \\ D_{z}^{x} = {&dtri;}_{x} (D) = \frac{&PartialD; D}{&PartialD; x}, D_{z}^{y} = {&dtri;}_{y} (D) = \frac{&PartialD; D}{&PartialD; y} \end{matrix} - - - (13)

V_x＝I_x(p_i+1)-I_x(p_i),V_y＝I_y(p_i+1)-I_y(p_i),V_z＝D(p_i+1)-D(p_i)(14)

上述采用三维网络运动运动尺度不变特征变换特征描述子表示特征点，可更换的反映运动表面结果和保存更多的判别信息，且三维网络运动运动尺度不变特征变换特征描述子在xy平面、xz平面和yz平面三个正交平面形成网状表20面，连接特征矢量更短，有效改善了手部精细运动的信息表现。

上述手部运动识别方法和装置应用于识别视频的实验如下：基于两个RGB-D(RGB-深度信息)视频数据库。第一个视频数据库中的数据是从ChaLearn姿势数据库中获取的数据，包括20个分支，每一个分支，表示相同的个体，由100个记录姿态组成，该100个姿态的分组序号为1至5。ChaLearn的通用性数据库被用于估算基于RGB和深度视频的不同特征描述子。图13为ChaLearn数据库的一些示例。第二个视频数据库中的数据是由9100个RGB-D视频对组成，通过Kinect的640*480图像尺寸的相机收集的。人行为包含8类手运动，包含来自于不同国家的5名男性和2名女性的不同方向点、鼓掌、挥舞、拳击，从一数到五，大拇指向上、胜利和捕捉手势等。

ChaLearn姿势数据集用于估算上述手部运动识别方法的性能。相似度算法被引入计算预测类别和真实类别之间的分数。相似度算法所考虑的特征包括RGB视频的Cuboid(R)特征，RGB和深度视频的Cuboid(R+D))的特征，RGB视频的stip hog(R))的特征，RGB和深度视频的stip hog(R+D))的特征，RGB视频的stip hof(R))的特征，RGB和深度视频的stip hof(R+D))的特征，RGB视频的stip hoghof(R))的特征，RGB和深度视频的stip hoghof(R+D))的特征[28]，RGB视频的MoSIFT(R))运动尺度不变特征变换[30]，RGB和深度视频的MoSIFT(R+D)运动尺度不变特征变换，RGB和深度视频的三维运动尺度不变特征变换和三维网格运动尺度不变特征变换。

上述三维网格运动尺度不变特征变换特征描述子比其他特征描述子具有较高的相似度均值得分，如表1所示。

表1

方法	0.1	0.2	0.3	0.4	0.5
						Cuboid	0.367	0.365	0.343	0.331	0.314
Cuboid(R+D)	0.337	0.316	0.309	0.308	0.218
						Stip hog	0.301	0.260	0.250	0.236	0.235
Stip hog(R+D)	0.249	0.228	0.224	0.228	0.227
						Stip hof	0.348	0.327	0.313	0.299	0.291

Stip hof(R+D)	0.322	0.292	0.285	0.279	0.271
						Stip hoghof	0.242	0.219	0.200	0.195	0.185
Stip hoghof(R+D)	0.210	0.188	0.183	0.187	0.182
						MoSIFT	0.417	0.396	0.359	0.366	0.335
MoSIFT(R+D)	0.444	0.443	0.436	0.423	0.405
						3D MoSIFT	0.191	0.167	0.162	0.145	0.146
3D Mesh MoSIFT	0.154	0.147	0.142	0.134	0.131

由表1可知，1)形状和几何变化在精细运动识别的准确性方面起到至关重要的作用，加入深度信息能显著减小距离误差。2)上述手部运动识别方法能准确的捕捉到运动的变化，以及手部运动的深度和纹理。3)所采用的三维网格运动尺度不变特征变换特征描述子比其他算法更能表征人的行为，且该三维网格运动尺度不变特征变换特征描述子展示了在空间和时间域内的不变性。

比较HMM模型(隐马尔科夫模型)训练方法、LDA(Linear DiscriminantAnalysis，线性判别式分析)模型训练方法与上述手部运动识别建模方法的训练方法，其比较结果如表2所示。

表2

距离	HMM模型	LDA模型	SOMP
				1米	35.82％	36.02％	45.29％
2米	41.9％	37.92	51.03
				3米	36.0％	35.23％	46.17％
4米	33.73％	34.19％	40.02％

上述比较中所选取的数据库是通过Kinect相机所捕捉的，包括距离相机1米到4米的单手和双手行为数据。比较不同距离下的三维网格运动尺度不变特征变换的性能，从而得出在2米到3米之间识别有一个明显的高准确性，主要是因为：第一Kinect有一个最佳拍摄范围(1.8米到3米)。在该范围内，能得到高质量的深度视频。第二，深度信息的敏感范围为2米到3米。

不同训练方法的性能比较，F1分数较高的有较准确的识别结果。HMM模型方法是对特征点的数量敏感的，当在视频中得到的特征点相对充足式，HMM模型优于LDA模型；当特征点相对稀缺时，HMM模型不能完全被训练，且将得到比LDA模型更差的结果。根据数据库的统计数据可知，在1米条件内，人太靠近Kinect相机将存在盲点，相机将不能捕捉到深度视频所有移动的部分，在4米的条件下，因光的影响，特征点很少。然而，在2米到3米条件下，能得到大量的特征点，因此识别准确度明显增加。

基于不同面部朝向和手的实验结果如表3所示。

表3

结果	左手	右手	双手
				向前	52.15％	51.97％	56.83％
侧边	43.91％	43.10％	47.89％
				向后	55.62％	54.99％	59.76％

由表3可知，1)对于向前和向后的情况，三维网格运动尺度不变特征变换能有效融合深度和视觉信息促使F1-分数提高；2)大量噪声出现在深度视频的外侧边缘，导致识别性能较差；3)通过左手或右手获得的识别结果大致是相似的，通过双手获得的识别结果的准确度明显改善，因为通过双手比通过单手所采集的三维网格运动尺度不变特征变换提取的特征点数量多；4)训练集的大小也影响识别性能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机***的存储介质中，并被该计算机***中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种手部运动识别方法，包括以下步骤：

获取待识别视频；

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别视频进行手部区域定位和跟踪，提取手部的RGB视频和深度信息视频对的步骤包括：

采用自适应窗口定位手部区域；

采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

3.根据权利要求2所述的方法，其特征在于，所述最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和；所述数据项用于估算手部在各点像素的似然值；所述平滑项用于估算两个相邻像素点的平滑度；所述距离项用于约束新的状态估计所预测的空间领域；所述空间约束项用于区分手部的颜色相近区域；所述运动约束项用于分割手部和除手部外的其余部分；所述图割距离项用于区分手部重叠区域。

4.根据权利要求1所述的方法，其特征在于，所述对所述手部的RGB视频和深度信息视频对进行检测得到特征点的步骤包括：

将所述手部的RGB视频和深度信息视频对转换为灰度和深度数据，并将所述灰度和深度数据转换为三维网格数据；

计算所述三维网格数据中预设邻域内各顶点的深度信息的局部密度；

选取所述预设邻域内的深度信息的局部密度最大值所对应的顶点作为所述预设邻域的特征点。

5.根据权利要求1所述的方法，其特征在于，所述将所述特征点采用三维网格运动尺度不变特征变换特征描述子表示的步骤包括：

将所述特征点采用三维梯度空间描述子和三维运动空间描述子表示；所述三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子；所述三维运动空间描述子包括速率描述子。

6.根据权利要求5所述的方法，其特征在于，所述图像梯度沿水平方向和垂直方向的描述子的计算步骤包括：

将坐标轴旋转为特征点的方向，以特征点投影到三维空间坐标的xy平面、xz平面和yz平面，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口，在每个在r×r的块上计算8个方向的梯度直方图，并求出每个梯度方向的累加值，形成一个种子点，将特征点采用个种子点组成，每个种子点有8个方向向量信息，m和r均为2的整数倍的自然数，且m大于r。

7.根据权利要求5所述的方法，其特征在于，所述速率描述子在三维空间xyz坐标轴上的分量包括：

速率描述子在x轴上的分量为特征点在相邻两帧视频投影到x轴的坐标值之差；

速率描述子在y轴上的分量为特征点在相邻两帧视频投影到y轴的坐标值之差；

速率描述子在z轴上的分量为特征点在相邻两帧视频的深度信息投影到z轴的坐标值之差。

8.根据权利要求1所述的方法，其特征在于，将所述特征点的三维网格运动尺度不变特征变换特征描述子与预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子进行比较得出所述待识别视频中手部运动类别的步骤包括：

将所述特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度；

求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与所述正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离；

选取与所述特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的所述正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别，作为所述待识别视频中手部运动类别。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。

10.一种手部运动识别装置，其特征在于，包括：

待识别视频获取模块，用于获取待识别视频；

11.根据权利要求10所述的装置，其特征在于，所述待识别视频对提取模块包括：

待识别视频定位子模块，用于采用自适应窗口定位手部区域；

待识别视频提取子模块，用于采用最小化能量函数结合前一帧的手部状态预测跟踪当前帧手部的区域，提取手部的RGB视频和深度信息视频对。

12.根据权利要求11所述的装置，其特征在于，所述最小化能量函数为数据项、平滑项、距离项、空间约束项、运动约束项和图割距离项之和；所述数据项用于估算手部在各点像素的似然值；所述平滑项用于估算两个相邻像素点的平滑度；所述距离项用于约束新的状态估计所预测的空间领域；所述空间约束项用于区分手部的颜色相近区域；所述运动约束项用于分割手部和除手部外的其余部分；所述图割距离项用于区分手部重叠区域。

13.根据权利要求10所述的装置，其特征在于，所述待识别特征点检测模块包括：

待识别数据转换子模块，用于将所述手部的RGB视频和深度信息视频对转换为灰度数据，并将所述灰度数据转换为三维网格数据；

待识别密度获取子模块，用于计算所述三维网格数据中预设邻域内各顶点的深度信息的局部密度；

待识别特征点选取子模块，用于选取所述预设邻域内的深度信息的局部密度最大值所对应的顶点作为所述预设邻域的特征点。

14.根据权利要求10所述的装置，其特征在于，所述待识别特征点表征模块还用于将所述特征点采用三维梯度空间描述子和三维运动空间描述子表示；所述三维梯度空间描述子包括图像梯度沿水平方向和垂直方向的描述子；所述三维运动空间描述子包括速率描述子。

15.根据权利要求14所述的装置，其特征在于，所述待识别特征点表征模块还用于将坐标轴旋转为特征点的方向，以特征点投影到三维空间坐标的xy平面、xz平面和yz平面，以特征点投影到xy平面、xz平面和yz平面的点为中心分别取m×m的窗口，在每个在r×r的块上计算8个方向的梯度直方图，并求出每个梯度方向的累加值，形成一个种子点，将特征点采用个种子点组成，每个种子点有8个方向向量信息，m和r均为2的整数倍的自然数。

16.根据权利要求14所述的装置，其特征在于，所述速率描述子在三维空间xyz坐标轴上的分量包括：

17.根据权利要求10所述的装置，其特征在于，所述类别识别模块包括：

降维子模块，用于将所述特征点的三维网格运动尺度不变特征变换特征描述子降维至与所述预先训练得到的正样本中的三维网格运动尺度不变特征变换特征描述子相同的维度；

距离获取子模块，用于求取降维处理后的特征点的三维网格运动尺度不变特征变换特征描述子与所述正样本中的三维网格运动尺度不变特征变换特征描述子的欧式距离；

类别判定子模块，用于选取与所述特征点的三维网格运动尺度不变特征变换特征描述子的欧式距离最小的所述正样本中的三维网格运动尺度不变特征变换特征描述子所对应的类别，作为所述待识别视频中手部运动类别。

18.根据权利要求10所述的装置，其特征在于，所述装置还包括：

构建模块，用于预先训练得到包含三维网格运动尺度不变特征变换特征描述子及相应类别的正样本。