CN103839040A

CN103839040A - 基于深度图像的手势识别方法和装置

Info

Publication number: CN103839040A
Application number: CN201210490622.8A
Authority: CN
Inventors: 梁玲燕; 赵颖
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04
Anticipated expiration: 2032-11-27
Also published as: CN103839040B

Abstract

提供了一种基于深度图像的手势识别方法、手势识别装置、开启人机交互***的方法和装置。该手势识别方法，可以包括：基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；以及根据手部候选区域的三维运动轨迹，识别预定手势。本发明实施例的上述手势识别方法和装置充分利用了连续识别图像中的运动信息；由于未使用肤色模型，而是采用连续图像的时空域运动信息和连续的深度值变化信息进行手势识别，因此该手势识别方法性能较鲁棒，所受光照条件影响较小；由于基于运动轨迹进行手势识别，它能在相对较远的距离范围内使用。

Description

基于深度图像的手势识别方法和装置

技术领域

本发明总体地涉及手势识别，更具体地涉及基于深度图像的手势识别方法和装置。

背景技术

已经提出了一些基于图像处理的手势识别技术。

美国专利“US7340077B2”中，提出了一种基于深度传感器的手势识别***。该方法通过对在一定时间范围内姿态的组合进行手势识别，主要针对所识别部分的形状、位置和方向进行手势识别，最后通过识别到的手势对相关的电器设备进行控制。该方法主要采用静态图像信息进行识别，丢掉了连续视频图像中的大量运动信息。另外，手势的识别主要是基于组合姿态，因此用户必须做多个姿态模式去完成一个手势，这对于用户操作不是很方便。

美国专利公开“US20120069168A1”提出了一种对电视进行控制的手势识别***。手势(手掌张开与闭合)用于电视的“选择”和“确定”功能操作。首先，手的姿态(“开”或者“合”)被检测基于手掌中心和手掌底部之间的计算距离，然后手势(手掌张开与闭合)能被识别，基于手的“开”和“合”之间的状态转换关系。在该***中，为了有效判断手的开合状态，用户与电视的距离必须在有效的距离范围内。因此该方法不太适用于远距离操作。同时该***采用肤色模型进行手的检测，检测结果将很容易受到环境光照变化的影响。

题目为“Hand Gesture Recognition for Human-Machine Interaction”，Journal of WSCG，2004的文章提出了一种实时的基于手势识别的视觉应用***。首先，采用肤色模型进行运动手区域分割；然后基于Hausdorff距离进行手的姿态识别。该方法同样容易受到光照的影响。

另外，有些文章使用2D运动轨迹进行手势识别，通常他们都是基于静态图像进行特征提取或者采用肤色模型进行前景分割。

发明内容

根据本发明的实施例，提供了一种基于深度图像的手势识别方法,可以包括：基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；以及根据手部候选区域的三维运动轨迹，识别预定手势。

根据本发明的另一实施例，提供了一种开启人机交互***的方法，包括：获得包括手部区域的深度图像序列；基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；根据手部候选区域的三维运动轨迹，识别抬手手势；以及如果识别到抬手手势，则开启人机交互***，进入人机交互状态中。

根据本发明的另一实施例，提供了一种基于深度图像识别人体部位预定动作的方法，可以包括：基于包括该人体部位区域的深度图像序列，检测人体部位候选区域的三维运动轨迹；以及根据人体部位候选区域的三维运动轨迹，识别人体部位的预定动作。

根据本发明的另一实施例，提供了一种基于深度图像的手势识别装置，可以包括：三维运动轨迹检测部件，用于基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；以及手势识别部件，用于根据手部候选区域的三维运动轨迹，识别预定手势。

根据本发明实施例的基于深度图像的手势识别方法和装置因为将深度域上的运动轨迹纳入手势识别过程，因此充分利用了连续识别图像中的运动信息；由于未使用肤色模型，而是采用连续图像的时空域运动信息和连续的深度值变化信息进行手势识别，因此该手势识别方法性能较鲁棒，所受光照条件影响较小；由于基于运动轨迹进行手势识别，它能在相对较远的距离范围内使用。根据本发明实施例的手势识别方法耗时短且鲁棒性高。

根据本发明实施例的开启人机交互***的技术，提供了一种便利、可靠的***启动控制方式，提示用户是否已经进入***控制状态，防止用户无意识动作被错误识别为可操作手势，从而提供了一种更具用户友好性的人机交互方式。

附图说明

图1示意性地示出了根据本发明一个实施例的手势识别技术用于人机交互的情景示意图。

图2示出了根据本发明第一实施例的手势识别方法的总体流程图。

图3示出了根据本发明一个实施例的无需识别用户手部来检测用户手部候选区域的三维运动轨迹的示例性方法的流程图。

图4示出了根据本发明一个实施例的基于三维运动轨迹识别抬手手势的一个方法的总体流程图。

图5为根据本发明一个实施例的三维运动轨迹在不同维上的运动轨迹分解图。

图6(a)到6(c)示意性地示出了三维运动轨迹的形式和运动特征提取的示意图。

图7示出了根据本发明一个实施例的基于可变大小的滑动窗口从输入的运动轨迹特征来识别手势的方法的流程图。

图8示出根据本发明第二实施例的手势识别方法的流程图。

图9示出了根据本发明一个实施例的人体测量学模型验证预定手势的方法的流程图。

图10(a1)到(a3)、(b1)到(b3)以及(c)示出了根据本发明一个实施例的、使用直方图分析方法的头部中心线定位、肩部水平方向定位、以及作为示例抬手手势末端的手与头部的相互位置关系的示意图。

图11示出了根据本发明一个实施例的一种开启人机交互***的方法的流程图。

图12示出了根据本发明实施例的基于深度图像的手势识别装置的功能配置框图。

图13是示出按照本发明实施例的手势识别***的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

将按下列顺序进行描述：

1、应用场景示例

2、手势识别方法的第一实施例

2.1手势识别方法的总体流程

2.2、三维运动轨迹的获取

2.3、基于三维运动轨迹识别抬手手势

2.4、三维运动轨迹的运动特征提取

2.5、基于三维运动轨迹的运动特征识别预定手势

2.6、利用窗口大小可变的滑动窗口的手势识别

3、手势识别方法的第二实施例

3.1第二实施例的手势识别方法的总体流程

3.2、根据人体测量学模型验证预定手势

4、人机交互***的开启方法

5、基于深度图像的手势识别装置

6、***硬件配置

7、总结

1、应用场景示例

图1示意性地示出了根据本发明一个实施例的手势识别技术用于人机交互的情景的示意图。如图1所示，用户站在诸如计算机的人机交互设备前，诸如双目摄像机的立体摄像机，拍摄人的例如左右图像序列或者直接得到深度图像序列，并将其发给诸如个人计算机的手势识别设备，个人计算机分析深度图像序列而进行手势识别，并基于手势识别的结果进行响应，例如如果识别到这是一个用于启动的抬手手势，则得出这个有效的启动信号，并发出启动信号；反之如果识别到这并非用于启动的抬手手势，则得出这是无效的启动信号，不发出启动信号。当然，这只是一个示意性示例，用于识别手势的设备不限于计算机，可以是例如游戏机，投影仪，电视机等等。

如本领域人员公知的，深度图像(Depth image)是图像中的像素点的值为深度的图像。相比于灰度图像，深度图像具有物体的深度（距离）信息，因此特别适合于需要立体信息的各种应用。

另外，如公知的，一个像素点的深度值和视差值之间具有简单的换算关系，因此本发明的深度图像的含义是广义的，包括视差图像。

2、手势识别方法的第一实施例

2.1手势识别方法的总体流程

图2示出了根据本发明第一实施例的手势识别方法100的总体流程图。

如图2所示，在步骤110中，基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹。

该深度图像序列可以是从诸如双目相机的任何一种可以获取深度图像的相机传递的，或者可以是本地实时从灰度图像计算得到的，或者是通过网络从外部深入的等等。

这里的三维运动轨迹，是指与传统的二维图像的二维轨迹不同，具有深度（距离）信息的运动轨迹，也即轨迹上的每个运动轨迹点具有既平面(x,y)坐标信息，也具有表征深度(距离)的Z坐标信息。

检测手部候选区域的三维运动轨迹的方法可以粗略分为基于手部识别的方法和基于手部过滤的方法。

在基于手部识别的方法中，例如，从最初的深度图像中，首先根据手部区域的特征，通过匹配处理等识别手部区域并确定手部区域的位置，然后利用运动跟踪技术在后续的深度图像中跟踪手部，从而得到手部的三维运动轨迹。这里，为了从识别出手部，如果还存在对应的灰度图像，则也可以结合基于肤色模型的手部识别的技术。

在基于手部过滤的方法中，并不首先进行手部区域识别，而是首先检测深度图像中的运动块区域，然后例如基于手部的特种特征来从运动块区域中选择（或过滤）手部运动块区域。这种方式可以无需识别手部，从而可以更快速的进行手势识别，特别适合实时的人机交互处理。后面将参考图3来描述基于手部过滤的检测手部候选区域的三维运动轨迹。

不过，上述手部候选区域的三维运动轨迹检测方式仅为示例，本发明并不局限于此，任何能够基于深度图像序列，得到某对象的三维运动轨迹的技术均可以应用于本发明。

在步骤120中，根据手部候选区域的三维运动轨迹，识别预定手势。

一般而言，不同的手势对应于不同的三维运动轨迹，因此可以通过分析上述获得的手部候选区域的三维运动轨迹，而进行预定手势的识别。

例如，对于抬手手势，以人自身为参照物来说，其三维运动轨迹是个从下面开始向前凸到上面终止的抛物线；如果分解为深度域和与深度域垂直的二维平面域上的两个运动轨迹，则在深度域上，相对于面前的摄像机而言，为距离从远到近再到远的抛物线，而在二维平面域上，为从下到上的直线运动。

再例如，作为与抬手手势相对的放手手势，以人自身为参照物来说，其三维运动轨迹是个从上面开始向前凸到下面终止的抛物线；如果分解为深度域和与深度域垂直的二维平面域上的两个运动轨迹，则在深度域上，相对于面前的摄像机而言，为距离从远到近再到远的抛物线，而在二维平面域上，为从上到下的直线运动。顺便说一下，关于抬手手势和放手手势之间的区别，还可根据按时间顺序的位置点之间的关系所指示的运动方向、终点时刻的手部位置等来判断。

再例如，对于画圆手势，其三维运动轨迹为近似圆形。对于摆手手势，其运动轨迹为往复的钟摆运动轨迹。

再例如，对于从手部自然下垂到向前推的手部运动，其三维轨迹可以视为半抬手加向前推的结合，其中向前推的动作在深度域中为直线运动，而在平面域中近似不动。

后续，将参考图4、5、6，以抬手手势为例，说明通过分析深度域上的运动轨迹和二维平面域上的运动轨迹两者来识别抬手手势的过程。

上面结合图1说明了根据本发明实施例的基于深度图像识别预定手势的方法。不过，本发明并不局限于手势识别，也可以应用于其他人体部位的动作识别，例如应用于脚部的动作识别，例如向前踢脚的脚步动作识别。显然，本发明也并不局限于应用于人类，也可以应用于其他能动的物体，例如，动物、机器人等。

2.2、三维运动轨迹的获取

图3示出了根据本发明一个实施例的无需识别用户手部来检测用户手部候选区域的三维运动轨迹的示例性方法110的流程图。该示例性方法110可以应用于图2中所示的步骤S110。

如图3所示，在步骤S111中，获取深度图像中的运动块区域。

作为示例，运动块区域的检测和获取可以通过常用的帧间差方法来实现。具体地，例如将当前帧和前一帧相减，将有关区域的差值与预定的运动差分阈值相比，如果当前的区域差值大于预定差分阈值，则将当前区域检测为运动区域块。上面的区域可以例如通过连通域检测得到。

作为替代示例，可以基于背景差来获取运动块区域，具体地，例如通过当前图像减去背景图来进行运动块区域的获取，关于背景图的形成可以通过前面多帧图像的累积和求均值得到。在步骤S112中，根据运动块区域的位置、面积和形状中的至少一个，从运动块区域中选取手部候选区域。

例如，可以根据运动块区域的位置、面积和形状等和预先得知的人手的一般位置、面积和形状的知识，来从运动块区域中选取手部候选区域。具体地，如果该运动块区域可能为手的运动区域，那么该区域面积大小应该接近于人类平均手的面积大小。如果该运动块区域面积过大或者过小，可剔除该区域。类似地，人类的手的形状在长宽比例上也存在一个固定比例，也可以根据运动块区域是否满足该比例关系来过滤运动块区域。再例如，人手和人身体之间的距离一般在一定范围之内，如果运动块区域不在此范围之内，也可以将运动块区域剔除于手部候选运动区域之外。如果一个运动块区域同时满足位置、面积和形状条件，则该运动块为手区域。当然，应该至多选择两个运动块区域作为手部候选运动区域，因此如果存在多于两个运动块区域满足根据人手的位置、面积和形状的过滤条件，则可以评估它们符合人手区域的置信度（或可能性），从中选择至多两个运动块区域来作为手部候选运动区域。下文中，为便于描述，以从所有运动块中选出一个手部候选运动块区域为例加以说明。

此外，上面基于人类手部的位置、面积和形状的预先知识来从运动块区域中选择手部候选运动区域。不过这仅为示例，也可以根据各种其他因素、利用各种技术来选择最可能为手部的运动块区域，例如在存在灰度图像的情况下，可以结合肤色模型来选择手部的运动块区域。

在步骤113中，计算并记录手部候选区域的位置信息。作为示例，可以计算手部候选区域的质心点位置信息，作为手部候选区域的位置信息。所谓手部候选区域的质心点位置可以例如通过对手部候选区域内的所有位置求平均得到。

在步骤114中，得到对应于深度图像序列的位置信息序列。

具体地，例如，可以在每次***获取到当前手部运动块的质心点后，将该质心点根据时间先后顺序放入“运动点位置信息序列”存储器中，“运动点位置信息序列”就形成了三维（3D）运动轨迹。此外，当运动点序列长度大于设定的运动序列长度时，可以通过删除老的运动点，放入新的运动点，进行运动轨迹点更新。

在一个示例中，在运动点位置信息序列中，可以与位置信息相关联地存储对应的时间信息。

在一个示例中，如果运动点序列长度还未达到设定序列长度时，***可以不启动后续的3D运动轨迹分析。

2.3、基于三维运动轨迹识别抬手手势

图4示出了根据本发明一个实施例的基于三维运动轨迹识别抬手手势的一个方法120的总体流程图。该方法120可以应用于图2中所示的步骤S120。

如图4所示，在步骤S121中，对所获得的三维运动轨迹进行运动特征提取。下面将参考图5和图6对此给出示例性具体描述。

在步骤S122中，基于所获取的三维运动轨迹的运动特征，进行手势识别。

例如，可以通过将所获得的三维运动轨迹的运动特征与预定手势对应的运动模型相比较，来识别该三维运动轨迹是否表征预定手势。下面将参考图7对此给出示例性具体描述。

不过，图4所示的基于三维运动轨迹来识别预定手势的方法仅为示例。例如，在某些情况下，可以不进行运动特征提取，而仅通过数值分析来分析该三维运动轨迹是否满足具体的数学形式例如抛物线形式来进行手势识别。

2.4、三维运动轨迹的运动特征提取

三维运动轨迹可以通过以对应于各帧深度图像的各个轨迹点的自己的运动特征和整体三维运动轨迹的特征来刻画，

如图5所示，示例性地，每个轨迹点的自己的运动特征121可以包括：二维时空域特征1211、轨迹点的深度域运动特征1222，每个轨迹点的二维时空域特征和深度域运动特征均和该轨迹点的时间点相关联。二维时空域特征可以包括轨迹点的位置、速度、角度。轨迹点的深度域运动特征可以包括轨迹点的深度值。

下面参考图6(a)到6(c)来示意性地描述三维运动轨迹的形式和运动特征提取。

图6(a)示出了世界坐标系，其中Z轴为深度传感器方向或者说深度方向。图6(b)为从X-Y平面观察到的2D时空域运动轨迹，对应于图6(a)中由标记601指出的部分。图6(c)为Z轴上观察到的1D深度值运动轨迹，对应于图6(a)中由标记602指出的部分。图中的深度值z表示从深度传感器到运动块之间的水平距离。

下面首先描述X-Y平面中的2D运动轨迹的特征提取。

从正视图(X-Y平面)中观察到的抬手2D运动轨迹近似于图6(b)中的直线运动。在时间范围[ts,te]，手部质心点P从开始点P_s运动到终止点P_e，tm为时间范围[ts,te]之间的中间时刻点。由于不同的用户抬手习惯不一样，因此运动轨迹开始点可能不同，运动轨迹终止点也可能不同，可能的多条运动轨迹例如如图6(b)所示。

根据本发明的一个实施例，X-Y平面中的直线运动特征包括：各个轨迹点的位置、运动速度和运动方向，以及整体轨迹而言的运动范围。

每个轨迹点Pi在X-Y平面中的位置可以用2D坐标(x_i,y_i)来表示。

运动速度speed可以由下面的公式(1)计算得到（公式1是否应是计算Y方向的速度）。

{speed}_{i} = \frac{dis (P_{i}, P_{i - 1})}{t_{i} - t_{i - 1}}, i = 1,2, . . . . n, t_{0} = t_{s}, t_{n} = t_{e} - - - (1)

其中，dis(P_i,P_i-1)为当前运动块质心点P_i和上一帧质心点P_i-1之间的空间距离，例如欧式距离，t_i表示当前帧的时刻，t_i-1表示上一帧的时刻，假设要分析的连续轨迹点的数目（等于窗口大小，或者说要分析的帧数）为n，n为大于等于2的整数，可以根据需要选取，例如取15,20等。

运动方向可以用运动角度θ来表示，而运动角度θ的正切tanθ可以用下式(2)表示。

{\tan θ}_{i} = \frac{y_{i} - y_{i - 1}}{x_{i} - x_{i - 1}}, i = 1,2, . . . . n, t_{i - 1} = t_{s}, t_{n} = t_{e} - - - (2)

在公式（2）中，i表示当前帧的编号，x_i，y_i分别表示当前帧中的手部区域质心点p_i的x坐标值和y坐标值，类似地，x_i-1，y_i-1分别表示前一帧中的手部区域质心点pi的x坐标值和y坐标值。

该三维运动轨迹在X-Y平面上的起始点和终点间的运动范围表示在手部运动区域在X方向和Y方向的各自运动范围Range_x和Range_y，可以由公式(3)表示

\{\begin{matrix} {Range}_{X} = | x_{end} - x_{start} | \\ {Range}_{Y} = | y_{end} - y_{start} | \end{matrix} - - - (3)

其中，Range_Y表示运动轨迹终止点和运动轨迹起始点之间的高度差，Rangex表示运动轨迹终止点和运动轨迹起始点之间的水平差

综合以上特征，对于X-Y平面，运动特征为{[2Dfeature_i],2Dfeature_total}，其中每个轨迹点的特征包括时间、位置、速度、角度，即2Dfeature_i=[t_i,(x_i,y_i),speed_i,θ_i],2D平面轨迹的总体特征X方向和Y方向的各自运动范围，2Dfeature_total=[Range_x,Range_y]。

不过，上述运动特征构成仅为示例，而且主要是考虑抬手手势的识别而设计的。基于所希望识别的手势和所希望的精度等因素，可以设计和考虑不同的运动特征构成，例如，每个轨迹点的运动特征还可以包括加速度，2D平面内轨迹的总体特征还可以包括最大速度、最大加速度，最低位置点信息，最高位置点信息，最左位置点信息，最右位置点信息等等。

对于深度域而言，与上述平面域类似，运动特征可以分为每个轨迹点的深度域运动特征和整个轨迹的深度域运动特征。每个轨迹点的深度域运动特征可以包括时间、位置、速度和加速度等，整个轨迹的深度域运动特征可以为运动范围、最大深度值、最小深度值、最大速度、最小速度、最大加速度、最小加速度。同样，可以根据针对识别的手势不同而设计不同的深度域运动特征。根据一个示例，针对抬手手势，考虑如下深度域的运动特征{[Zfeature_i],Zfeature_total}。其中每个轨迹点的特征包括时间、位置、速度、角度，即Zfeature_i=[t_i，z_i,speed_i],深度域轨迹的总体特征，即Z方向的运动范围，Zfeature_total=[Range_z]=[(Zmax-Zmin)]。

另外，需要说明的是，上述运动特征，不管是各个轨迹点的运动特征还是三维运动轨迹在2D X-Y平面上的总体运动特征和深度域上的总体运动特征可以一起提取，然后再进行后续的手势识别；但是也可以一边进行运动特征提取一边实时进行手势识别，这样并行进行特征提取和手势识别的好处是只要发现三维运动轨迹的运动特征不符合预定手势的对应轨迹和/或运动特性，就可以终止当前循环的运动特征分析和手势识别而进入下一循环。

2.5、基于三维运动轨迹的运动特征识别预定手势

在如上所述得到三维运动轨迹的运动特征之后，可以根据所要识别的预定手势，基于三维运动轨迹的运动特征来识别用户是否做出了预定手势。

例如，如果希望识别用户是否做出了抬手手势，可以判断三维运动轨迹的有关运动特征是否满足与抬手手势对应的特点。

该分析可以分别在2D的X-Y平面域和深度域进行。

例如，对于抬手手势，在2D的X-Y平面域中，应该满足：

（1）各个轨迹点在Y方向上的速度始终大于0，即手始终是向上运动的，如公式(4)所示；

Speed_yi>0i=1,2，...,n (4)

(2)由于X-Y平面上的运动轨迹近似于直线运动，因此在整个运动过程[ts,te]中，运动角度应该保持近似不变，即各个轨迹点的角度应该近似相等，如公式(5)所示。

θ₁≈θ₂≈...≈θ_n (5)

(3)x方向和y方向上的运动范围应该满足预定的范围阈值，如公式(6)所示。

\{\begin{matrix} h_{thres \min} < {Range}_{Y} < h_{thres \max} \\ L_{thres \min} < | {Range}_{X} | < L_{thres \max} \end{matrix} - - - (6)

其中，h_thresmin和h_thresmax是高度方向上的预定下阈值和上阈值，L_thresmin，L_thresmax表示开始点和终止点之间的水平差范围，视情况，L_thresmin可以设置为0。h_thresmin、h_thresmax、L_thresmin、L_thresmax的取值与人类前臂平均长度相关，能通过收集多数用户的抬手操作习惯而分析计算得到。

（4）y方向上的最大值和最小值应该为终止点的y坐标值和起始点的y坐标值，如公式(7)所示。

\{\begin{matrix} y_{\max} = y_{end} \\ y_{\min} = y_{start} \end{matrix} - - - (7)

另外，对于抬手手势，在深度域中，应该满足：

(5)运动质心点的深度值变化规律为：先从大到小，后从小到大，且运动质心点在时间范围[ts,te]中在Z轴上的运动近似于抛物线运动，如图6(c)所示。运动轨迹方程近似如式(8)所示，其中d表示Z轴上的坐标值，即深度值。

d=at²+bt+c其中ts<t<te,d_min≤d≤d_max,另外D_thresmin<(d_max-d_min)<D_thresmax (8)

在公式(8)中，ts为轨迹开始点对应的时刻，te为轨迹结束点对应的时刻，dmin表示在该时间范围内深度值的最小值，d_max表示在该时间范围内深度值的最大值，深度值d在时间范围[ts,te]内，应落入[d_max,d_min]范围内，以及深度值范围(d_max-d_min)应该落入人体手臂长度的阈值范围[D_thresmin,D_thresmax]之内，人体手臂长度的阈值范围可以通过对许多人的手臂长度进行统计而得到，在一个实施例中，被设置为[200mm,500mm]。

关于，深度域上轨迹的运动特征是否符合公式(8)可以通过数值分析例如最小二乘法的方法来确定，即相当于已知了各个数据点(ti，di)，来以二次函数进行轨迹拟合。

上述公式(8)为一般公式，在一个实施例中，认为该抛物线应该关于t_m时刻的轨迹点基本对称，此时公式(8)将变为d=a(t-tm)²+b(t-tm)+d_min，其中t_m为中间时刻点，在时刻点tm，手部区域的质心点的深度值达到最小即d=d_min。

另外，对于预定手势，2D的X-Y平面上运动轨迹和1D深度域上的运动轨迹间，通常不是完全独立的，而是应该存在一定的关联关系。例如，对于抬手手势，应该满足：

(6)在中间时刻点tm，在深度域的运动轨迹上，手部区域的质心点深度值达到最小，同时，在2D的X-Y平面上运动轨迹上，手部区域的质心点的高度值（y_m）应近似等于高度hstart(即，起始点的y坐标y_s)和hend(即，终止点的y坐标ye)的平均值，即如公式(9)所示。

\{\begin{matrix} d_{m} = d_{\min} \\ y_{m} = (y_{s} + y_{e}) / 2 \end{matrix} - - - (9)

由此，根据一个实施例，为了识别一个手部区域的三维运动轨迹是否表示了一个抬手手势，分析和该三维运动轨迹有关的2D的X-Y平面运动轨迹（运动特征）、1D深度域上的运动轨迹（运动特征）、以及两者之间是否满足上述条件(1)-(6)。如果满足，则判定用户做出了抬手手势，否则判定用户没有做出抬手手势。

上述对于抬手手势进行的各种操作可以通过简单的修改而适用于与抬手手势相对的放手手势的识别。

另外，上述手势识别可以类似地应用于腿部动作的识别，例如踢腿和收腿。

2.6、利用窗口大小可变的滑动窗口的手势识别

为了检测连续视频中是否存在某种连续运动模式，根据一个实施例，可以考虑采用滑动窗口，即对窗口内的所有视频帧进行分析并识别手势，如果一个窗口内没有识别出手势，则按照预定步长如一帧滑动窗口，然后对下一窗口内的所有视频帧进行分析并识别手势。

由于不同用户的抬手习惯各不相同，因此诸如运动时间的长短等多方面各不相同，而且即便是同一用户，不同时候所做出的抬手手势也不尽相同。例如，对于某些用户可以在例如15帧内做出抬手手势，而另一些用户可能需要在例如20帧内做出抬手手势等等。

考虑到以上情况，在一个实施例中，采用窗口大小可变的滑动窗口来决定基于哪些以及多少深度图像来进行三维运动轨迹检测和分析，窗口的大小表示以连续多少帧的深度图像作为手势识别的输入；如果基于预定大小的滑动窗口内的深度图像序列的三维运动轨迹不能同时匹配与预定手势对应的深度域上的运动模型和与深度域垂直的平面上的二维运动轨迹模型，则增大该滑动窗口的大小以便将更多的深度图像帧作为手势识别的输入，并继续进行该增大后的滑动窗口的大小对应的三维运动轨迹与该预定手势对应的运动轨迹模型的匹配。

例如，在一个例子中，大小可变的滑动窗口系列如式10所示。

Sliding window size=[15,20,25,30,35,40,45,50,55](10)

形象的说，这种情况类似于对于一个窗口，给定起始端，起始大小确定为15帧，如果基于该15帧的窗口内的视频分析的运动轨迹没有识别出例如抬手手势，则通过终止端一次向后延伸例如5帧使得窗口大小扩大为20帧，并继续以该20帧的视频作为分析对象来提取运动轨迹、进行抬手手势识别；如果在某个窗口大小识别到抬手手势，则窗口变化停止并不再滑动，除非要继续进行另一手势的识别；如果通常重复上述过程直到窗口大小为55帧仍未识别到抬手手势，则将窗口起始端向后移动预定步长，例如移动2帧，然后继续利用上面的大小可变的滑动窗口系列进行一轮新的识别处理。

图7示出了根据本发明一个实施例的基于可变大小的滑动窗口从输入的运动轨迹特征来识别手势的方法122的流程图。该方法122可以应用于图4所示的步骤S122。

在步骤S1221中，输入3D运动轨迹特征，其中运动特征例如来自于图4所示的步骤S121的处理结果。

在步骤S1222中，将当前窗口范围内的3D运动轨迹与预定手势例如抬手手势的运动模型相匹配。

在步骤S1223中，判断该运动轨迹是否匹配预定手势的运动模型，例如是否符合2D平面上的直线运动和1D深度域上的抛物线运动，比如判断是否符合上述2.5小节中的条件(1)到(6)。如果在步骤S1223中判断该运动轨迹满足本发明中的运动轨迹模型，则3D运动轨迹识别过程结束，否则前进到步骤S1224。

在步骤S1224中，判断滑动窗口大小是否已为最大值。

如果在步骤S1224中，确定滑动窗口模板未达到最大值，则前进到步骤S1225；否则前进到步骤S1226。

在步骤S1225中，改变滑动窗口的大小值，并返回到步骤S1221，输入新增加帧的运动特征，以继续进行运动轨迹模板匹配。

在步骤S1226中，判断运动是否结束。

如果在步骤S1226中确定运动还未结束，则前进到步骤S1227，否则3D运动轨迹识别过程结束。

在步骤S1227中，将滑动窗口复位，即将滑动窗口大小重新调到最小值，然后前进到步骤S1228。

在步骤S1228，将轨迹移动到下一个运动质心点，然后返回到步骤S1221，输入新增加帧的运动特征，以继续进行运动轨迹匹配。

需要说明的是，上述式（10）中所示的滑动窗口大小系列仅为示例，可以根据图像采集设备的帧率、计算机的性能等任意设置合适的滑动窗口大小系列。

在上述实施例，通过利用上述窗口大小可变的滑动窗口来检测预定手势，可以更好地适应不同人的运动习惯差别，更准确地进行手势检测。

3、手势识别方法的第二实施例

3.1第二实施例的手势识别方法的总体流程

图8示出根据本发明第二实施例的手势识别方法200的流程图。根据第二实施例的手势识别方法200与根据第一实施例的手势识别方法100的不同在于多了人体测量学验证步骤S230，而其中的三维运动轨迹检测步骤S210、基于三维运动轨迹识别预定手势的步骤S220与第一实施例中的步骤S110、S120相同，这里省略对其的重复描述。

在步骤S230中，如果根据手部候选区域的三维运动轨迹识别出预定手势，则确定手部候选区域与人体其他部位之间的位置关系是否符合做出预定手势情况下的人体测量学模型，以验证该预定手势。

人体测量学模型用于进一步对所识别出的诸如抬手手势的预定手势进行验证。人体测量学是用测量和观察的方法来描述人类的体质特征状况的学科。人体测量学已经被结合用于图像识别等计算机视频领域。

根据人体测量学知识，通常情况下，在抬手手势末端，手的高度一般将达到人体的某一高度区域，将接近头的高度区域，同时在手中心点与头部中心点之间也存在一定距离值。

下面将结合图9给出根据人体测量学模型验证预定手势的一个具体示例性实施例。

3.2、根据人体测量学模型验证预定手势

图9示出了根据本发明一个实施例的人体测量学模型验证预定手势的方法230的流程图。该方法可以应用于图8所示的步骤S230。

如图9所示，在步骤S231中，对深度图像进行前景分割，以得到人体区域。例如，如前所述的采用连通域分析方法进行前景分割，然后合并相关领域区域，根据身体区域先验指示，得到正确的前景图像，在本例中即人体区域。得到的前景图像如图10(a1)所示。

在步骤S232中，从人体区域中检测头部区域，计算头部区域的位置。

根据一个实施例我们使用直方图分析方法进行头部定位。不过，直方图分析方法仅是示例，任何能够进行头部定位的方法均可以用于本发明，如利用“Ω”头肩检测模型的方法。

图10示出了根据本发明一个实施例的、使用直方图分析方法的头部中心线定位、肩部水平方向定位、以及作为示例抬手手势末端的手与头部的相互位置关系的示意图。

下面将结合图10说明根据本发明一个实施例如何进行头部中心线定位和肩部水平方向定位，以及如何根据例如抬手手势末端的手应该与头部满足的相互位置关系来进行抬手手势的验证。

根据一个实施例，可以通过下述操作实现步骤S232中的头部定位。

1)对前景图像进行垂直方向上的直方图统计，或者换句话说对前景图像的各列统计从上往下的像素值不为零的个数的和，以找到头部垂直中线。如图10中(a2)所示，在垂直统计直方图中，头部区域的统计直方图值最大，因此通过查找局部最大统计值将能得到图10(a3)中的头部垂直中线。

2)基于头部的垂直中线，对抬手一边（在本示例中，即右边）的身体区域进行水平方向上的直方图统计，或者换句话说对图像的横向各行统计像素值不为零的个数的和，以通过寻找最小统计值位置点来定位颈部区域在水平方向上的位置(由H2指示)。如图10(b1)所示，图10的(b1)中的左侧部分表示水平直方图，右侧部分表示是人的前景图像，左侧的水平直方图是对抬手一侧的人体前景图做水平统计直方图的结果，这样的直方图统计方式将不会受到另一边手运动的影响。

3)可选地，在一个实施例中，为了更加准确的定位到颈部区域在水平方向上的位置，可以对水平统计直方图进行变换,变换公式如式(11)，实验结果如图10(b2)所示。在变换后的水平统计直方图中，颈部区域比图10(b1)中的颈部区域更加明显，有利于颈部定位。基于图10(b2)，颈部区域能通过寻找最大统计值位置点进行定位。

\{\begin{matrix} {hist_mean}_{i} = ({hist}_{i - c} + {hist}_{i + c}) / 2 & i = c, c + 1, . . ., n - c; \\ hist_ne w_{i} = (hist_mea n_{i} - {hist}_{i}) \end{matrix} - - - (11)

在公式(11)中，hist_i表示水平统计直方图，i为直方图的索引值，hist(i-c)和hist(i+c)为初始水平统计直方图，见图10(b1)。hist_new为通过公式(11)变换得到的新直方图，c为步长常数值，n为最大索引值。

4)根据颈部在水平方向上的位置(由H2指示)和头部上边界在水平方向上的位置（由H1指示），得到头部区域。在定位出头部区域后，能够计算得到头部宽度和头部质心点的位置。

在步骤S233中，基于头部位置和手部位置之间的垂直距离是否落入第一预定范围，以及头部位置和手部位置之间的空间距离是否落入第二预定范围，验证手势是否为预定手势。

一般地，对于预定手势，根据人体测量学，头部位置和手部位置之间的垂直距离应落入预定范围。以抬手手势为例，根据头与手之间的位置关系，能够判断出运动手的位置高度是否符合抬手手势的最终高度。下面结合图10(c)对此将进行详细说明。

在图10(c)中，P1为头部质心点，P2为手质心点。头部宽度/高度为h，肩部宽度为2h。通常情况下，抬手手势的最终高度在高度H1和H3之间。

根据一个示例性实施例，可以采用公式(12)通过检查头部质心点P1和手质心点P2在y坐标轴上的距离是否小于一定高度范围，来验证手的最终高度是否符合要求。

abs(p1.y-p2.y)<a*h (12)

在公式(12)中，p1.y表示头部质心点P1的y坐标值，p2.y表示手质心点的y坐标值，a为常系数，a的取值可以通过收集用户的抬手习惯进行数据分析统计得到

另外，对于预定手势，根据人体测量学，头部位置和手部位置之间的空间距离应落入预定范围。

根据一个示例性实施例，可以采用手质心点P2和头部质心点P1在真实空间坐标系中的欧式距离来验证抬手手势的有效性，如公式(13)所示。

D_{p 1 - p 2} = \sqrt[2]{{(x_{p 1} - x_{p 2})}^{2} + {(y_{p 1} - y_{p 2})}^{2} + {(z_{p 1} - z_{p 2})}^{2}}, c_{1} < D_{p 1 - p 2} < c_{2} - - - (13)

在公式(13)中，D_p1-p2为头部质心点P1和手质心点P2之间的欧式距离。c₁和c₂为预定阈值，该阈值可以通过采集用户信息，反复实验计算得到。欧式距离D_p1-p2用于判断手的位置点，是否在人体区域范围内。不过欧式距离仅为示例，可以采用其它距离度量来衡量手部和头部之间的空间距离。

另外，可选地，在一个实施例中，以抬手手势末尾处手的停留时间作为抬手手势有效性的一个验证条件。一般地，作为一个抬手手势，在抬手手势的末尾，应该停留至少预定时间，例如可以根据下述公式(14)判断在给定的时间范围内，手是否处于静止状态。

\{\begin{matrix} D_{p 2} = dis ({P 2}_{last} - {P 2}_{current}) \\ D_{p 2} < c_{3} \\ {Count}_{stayingtime} > T_{thres} \end{matrix} - - - (14)

在公式(14)中，D_p2表示手部质心点在上一时刻last的位置P2_last和在当前时刻current的位置P2_current之间的空间距离；c₃为预定阈值，为一较小值，如果手部质心点和上一时刻和当前时刻的位置之间的空间距离D_p2小于该阈值，则确定手处于静止状态。数值c₃可以根据***性能需要设置不同的数值，如可以设置为1cm或者5cm，在1cm情况下，***要求操作者的手基本保持静止；如果设置为5cm，用户的手在人体测量学分析期间可以保持轻微的移动，这样可以防止***点抖动情况。为了增强***的鲁棒性，可以设定停留时间的计时Count_stayingtime应大于预定时间阈值T_thres，时间阈值T_thres可以根据应用适当地设置，例如1秒。

利用上述基于人体测量学模型的手势验证过程，如果确定该抬手手势符合人体测量学模型，那么确定该抬手手势是一个有效的抬手手势。

4、人机交互***的开启方法

上述基于深度图像的手势识别方法和装置可以具有许多特定应用，例如，可以应用于作为人机交互***的开启方法。

目前，很多***都是在特定环境下对一些特殊的手势进行识别，而对用户是否已进入***手势可控制状态，很少给出相应提示信息。这导致用户在操作过程中的一些无意识行为被识别为可操作手势，对人机交互***的控制带来很大不便，降低了人机交互***的友好性。

如果在人机交互***中，加入一种启动控制信号来提示用户是否已进入***控制状态，防止用户无意识动作的出现，那么人机交互方式将更加友好。因此***启动控制信号在人机交互中是非常重要的，而一种便利、可靠的***启动控制方式将很好的改进用户体验。

一个简单、自然和稳定的启动手势在人机交互***中是非常重要的。抬手手势是一种非常方便有效的用户操作手势，能被使用于人机交互***中，作为***启动控制，提高人机交互***的用户体验。

下面结合图11描述根据本发明一个实施例的一种通过识别抬手手势开启人机交互***的方法。

图11示出了根据本发明一个实施例的一种开启人机交互***的方法300的流程图。

如图11所示，在步骤S310中，获得包括手部区域的深度图像序列，例如通过诸如双目相机来拍摄得到、从外部经过有线连接或者无线连接传输得到等。

在步骤S320中，基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹.

在步骤S330中，根据手部候选区域的三维运动轨迹，识别抬手手势。

上述步骤S320和S330的具体实现可以参考前面关于图2的步骤S110和S120、以及图的实现，只不过，此处具体识别的是抬手手势。

在步骤S340中，如果识别到抬手手势，则开启人机交互***，进入人机交互状态中。

同样类似地，在此人机交互***的开启方法中，对于手势识别也可以应用人体测量学模型进行验证，具体可以参考上述结合图8、9、10的描述，这里不再赘述。

在通过上述过程以抬手手势启动***之后，用户可采用其他手势进行***控制操作。

在上述的场景中，快速、稳定、实时、鲁棒地识别出抬手手势是非常重要的。本发明实施例基于3D运动轨迹分析和可选地还基于人体测量学模型分析，提供了一种快速、鲁棒的手势识别方法。

该发明未使用肤色模型，而是采用连续图像的时空域运动信息和连续的深度值变化信息进行手势识别。因此该手势识别方法性能较鲁棒，所受光照条件影响较小。另外该发明基于运动轨迹进行手势识别，它能在相对较远的距离范围内使用。该手势识别方法耗时短且鲁棒性高，用于人机交互***中，将有效提高用户体验性。

5、基于深度图像的手势识别装置

下面参考图12描述根据本发明实施例的基于深度图像的手势识别装置。

图12示出了根据本发明实施例的基于深度图像的手势识别装置400的功能配置框图。

如图12所示，手势识别装置400可以包括：三维运动轨迹检测部件410，用于基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；以及手势识别部件420，用于根据手部候选区域的三维运动轨迹，识别预定手势。

上述三维运动轨迹检测部件410和手势识别部件420，的具体功能和操作可以参考上述图1到图3相关的描述。这里省略有关重复描述。

6、***硬件配置

本发明还可以通过一种视差图改善硬件***来实施。图13是示出按照本发明实施例的手势识别***1000的总体硬件框图。如图13所示，视差图改善***1000可以包括：输入设备1100，用于从外部输入有关图像或信息，例如摄像机拍摄的左图像和右图像、摄像机的参数、或深度图、初始视差图等，例如可以包括键盘、鼠标器、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的基于深度图的手势识别方法，或者实施为上述的手势识别装置，或者实施上述人机交互***的开启方法，例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络（未示出），根据处理过程的需要向远程传送处理后的图像等等；输出设备1300，用于向外部输出实施上述手势识别过程或者人机交互***的开启过程所得的结果，例如可以包括显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储上述手势识别过程或人机交互***的开启所涉及的诸如深度图、前景图、背景图、运动质心点位置和对应时刻、三维运动轨迹、2D平面运动轨迹的特征、深度域上的运动轨迹特征等数据，例如可以包括随机存取存储器（RAM）、只读存储器（ROM）、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

7、总结

根据本发明的另一实施例，提供了一种开启人机交互***的装置，包括：深度图像序列获得部件，用于获得包括手部区域的深度图像序列；三维运动轨迹检测部件，用于基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；抬手手势识别部件，用于根据手部候选区域的三维运动轨迹，识别抬手手势；以及人机交互***开启部件，用于如果识别到抬手手势，则开启人机交互***，进入人机交互状态中。

根据本发明的另一实施例，提供了一种基于深度图像识别人体部位预定动作的装置，可以包括：三维运动轨迹检测部件，用于基于包括该人体部位区域的深度图像序列，检测人体部位候选区域的三维运动轨迹；以及人体部位运动识别部件，用于根据人体部位候选区域的三维运动轨迹，识别人体部位的预定动作。

利用根据本发明实施例的基于深度图像的手势识别方法和装置，因为将深度域上的运动轨迹纳入手势识别过程，从而充分利用了连续识别图像中的运动信息；由于未使用肤色模型，而是采用连续图像的时空域运动信息和连续的深度值变化信息进行手势识别，因此该手势识别方法性能较鲁棒，所受光照条件影响较小；由于基于运动轨迹进行手势识别，它能在相对较远的距离范围内使用。根据本发明实施例的手势识别方法耗时短且鲁棒性高。

根据本发明实施例的通过基于深度图像来识别抬手手势从而开启人机交互***的技术，提供了一种便利、可靠的***启动控制方式，提示用户是否已经进入***控制状态，防止用户无意识动作被错误识别为可操作手势，从而提供了一种更具用户友好性的人机交互方式。

前述描述仅为说明性的，可以进行很多修改和/或替换。

前面的附图和描述中以抬手手势的识别为例进行说明，但是本发明并不局限于此，基于手部候选区域的三维运动轨迹来识别手势的技术可以应用于其它手势的识别，例如向下放手的手势、从放手到将手放到胸前的手势、摆手的手势等等。更进一步地，本发明并不限于手部动作的识别，而是可以应用于其它人体部位的动作的识别，例如脚步、腿部、臀部、头部等等。再进一步地，本发明的基于三维运动轨迹识别动作的方法并不限于仅识别人的动作，也可以应用于识别例如动物、机器人、机器手等等可运动物体的动作的识别。

另外，前文中，以开启人机交互***为例说明了手势识别的应用，但是本发明并不局限于此。基于深度图像的手势识别可以用于投影仪控制、游戏机中的人机交互等等。

另外，前文中在对手部的三维运动轨迹进行分析时，将其分解为深度域上的运动轨迹和与深度域垂直的2D运动轨迹，不过这仅为示例。可以不进行分解，直接分析3D空间中的运动轨迹。或者，也可以进一步地进行分解，例如分解为深度域上的运动轨迹、2D平面上x轴上的运动轨迹和y轴上的运动轨迹等。

另外，前文描述中的深度图应该理解为广义概念，即包括了距离信息的图像，其含义涵盖通常所说的视差图，因为本领域技术人员清楚，视差和深度之间是可以通过简单的相互转换得到的。

另外，前文描述中，手势识别中以手部质心点的位置来表征手部区域的位置，不过这仅为示例，可以根据需要采用其它的代表点如关节点等。另外，这里仅采用一个质心点进行分析，但是这仅为示例，可以想见，在某些情况下，对于复杂的手势，可以既分析手部的质心点、也分析腕部的关节点、肘部的关节点等。

另外，前文的描述中的手势识别技术，仅仅基于深度图像，不过该基于深度图像的手势识别可以结合基于灰度图像的技术，例如基于肤色模型进行手部识别等。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于深度图像的手势识别方法,包括：

基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；以及

根据手部候选区域的三维运动轨迹，识别预定手势。

2.根据权利要求1的手势识别方法，还包括：

如果根据手部候选区域的三维运动轨迹识别出预定手势，则确定手部候选区域与人体其他部位之间的位置关系是否符合做出预定手势情况下的人体测量学模型，以验证该预定手势。

3.根据权利要求1的手势识别方法，其中，如果手部候选区域的三维运动轨迹在深度方向上符合抛物线运动模型，以及在垂直于深度方向的平面上的二维运动轨迹符合直线运动模型，则识别出向上抬手手势或向下放手手势。

4.根据权利要求1的手势识别方法，基于深度图像序列，检测手部候选区域的三维运动轨迹包括：

获取深度图像中的运动块区域；

从运动块区域中选取手部候选区域；计算并记录手部候选区域的位置信息；以及

得到对应于深度图像序列的位置信息序列。

5.根据权利要求4的手势识别方法，其中三维运动轨迹包括对应于各帧深度图像的各个轨迹点的自己的运动特征，

每个轨迹点的自己的运动特征包括：包括轨迹点的位置、速度、角度的二维时空域特征、包括轨迹点的深度值的深度域运动特征，每个轨迹点的二维时空域特征和深度域运动特征均和该轨迹点的时间点相关联。

6.根据权利要求5的手势识别方法，其中，采用窗口大小可变的滑动窗口来决定基于哪些以及多少深度图像来进行三维运动轨迹检测和分析，窗口的大小表示以连续多少帧的深度图像作为手势识别的输入；

如果基于预定大小的滑动窗口内的深度图像序列的三维运动轨迹不能同时匹配与预定手势对应的深度域上的运动模型和与深度域垂直的平面上的二维运动轨迹模型，则增大该滑动窗口的大小以便将更多的深度图像帧作为手势识别的输入，并继续进行该增大后的滑动窗口的大小对应的三维运动轨迹与该预定手势对应的运动轨迹模型的匹配。

7.根据权利要求2的手势识别方法，其中确定手部候选区域与人体其他部位之间的位置关系是否符合做出预定手势情况下的人体测量学模型包括：

对深度图像进行前景分割，以得到人体区域；

从人体区域中检测头部区域，计算头部区域的位置；

基于头部位置和手部位置之间的垂直距离是否落入第一预定范围，以及头部位置和手部位置之间的空间距离是否落入第二预定范围，验证手势是否为预定手势。

8.一种开启人机交互***的方法，包括：

获得包括手部区域的深度图像序列；

基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；

根据手部候选区域的三维运动轨迹，识别抬手手势；以及

如果识别到抬手手势，则开启人机交互***，进入人机交互状态中。

9.一种基于深度图像的手势识别装置,包括：

三维运动轨迹检测部件，用于基于包括手部区域的深度图像序列，检测手部候选区域的三维运动轨迹；以及

手势识别部件，用于根据手部候选区域的三维运动轨迹，识别预定手势。

10.一种基于深度图像识别人体部位预定动作的方法,包括：

基于包括该人体部位区域的深度图像序列，检测人体部位候选区域的三维运动轨迹；以及

根据人体部位候选区域的三维运动轨迹，识别人体部位的预定动作。