CN103577793B

CN103577793B - 手势识别方法及装置

Info

Publication number: CN103577793B
Application number: CN201210264265.3A
Authority: CN
Inventors: 罗圣美; 王高浩; 耿卫东
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-07-27
Filing date: 2012-07-27
Publication date: 2017-04-05
Anticipated expiration: 2032-07-27
Also published as: CN103577793A

Abstract

本发明公开了一种手势识别方法，捕捉常见的人体基本动作并存储为样本动作；根据所述样本动作得到最终的训练动作；对训练动作进行图形渲染生成初步的深度图及相应部位标识图；根据所生成的深度图合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型；通过基于平滑度约束的区域生长提取精确深度人像轮廓；基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量，通过随机森林模型确定每个像素的部位标识概率；基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录骨架节点的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。本发明同时公开了一种手势识别装置。

Description

手势识别方法及装置

技术领域

本发明涉及手势识别技术，尤其涉及一种手势识别方法及装置。

背景技术

基于视觉的体感交互技术近年来越来越多地受到研究人员的关注，特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来，更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究，大致可分为两个方面：一为近景动作交互，捕获区域和对象较小，集中在手部姿态，如SixthSense等；一为全身动作交互，动作的幅度也更大，需要更大的捕获区域和软硬件处理能力，但用户与虚拟空间的联系感更为强烈，如Kinect、Wii以及一些大型虚拟实境***。

实时姿态估计技术是体感交互的关键技术之一，一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中，提取和估计人物的姿态。在具体交互语境中，***就能够根据姿态结合上下文识别具体的动作语义。

传统的基于色彩光度图的姿态估计技术，容易受光照等多种环境因素的影响，很难同时达到对实时性能与精度的较高要求，并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息，这大大降低了姿态估计的难度。

微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别，该方法虽然能够准确的识别出手势动作，但计算量大、耗时久，不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时，微软的骨架聚合识别工具NITE中间件并未对外开源，在动作识别的开发上存在困难。

发明内容

有鉴于此，本发明的主要目的在于提供一种手势识别方法及装置，能快速、准确的识别出体感动作，适用于计算性能并不强大终端如电视机顶盒中。

为达到上述目的，本发明的技术方案是这样实现的：

一种手势识别方法，包括：

实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；

基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率；

基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；

记录骨架节点的时序序列形成骨架运动轨迹；

抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。

优选地，基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前，所述方法还包括：

捕捉常见的人体基本动作并存储为样本动作；

对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；

对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；

利用合成样本计算对应深度特征向量，训练得到随机森林模型。

优选地，所述利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括：

定义深度变化差异特征为：定义深度凹凸差异特征为：

其中，u，v为所述深度特征的随机参数，为像素x在u，v方向的位移；d_I(x)为深度图I上的像素x的深度值；

随机挑选合成样本，并随机抽取合成样本中的若干像素作为训练样本，并读取对应部位标识图获取部位标识；

从根节点开始生成单棵随机决策树，对于当前***节点进行以下处理：计算当前节点训练样本中样本数量最多的类别，作为该节点的类别，同时计算更新交叉验证错误率；确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时，停止***；确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时，继续***，寻找最优***；所有节点停止***时停止训练。

优选地，所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率，包括：

读入轮廓提取后的人物深度图；

对于图中的所有像素中的每一个非背景像素，计算深度特征向量；

调用随机森林识别模型，单棵决策树的终叶子节点给出类别c概率分布为P_t(c|I，x)，则整个随机森林的最终预测结果为：

取其中概率最大的类作为当前像素的类别：C(I，x)＝argmaxP(c|I，x)。

优选地，所述基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点，包括：

初始化搜索窗口为整个人像范围；

对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点；

定义每个部位的密度分布估计为：

其中，x是像素对应的三维空间位置，N为人像像素总数，x₁为对应于深度值d将x重投影到三维空间的位置，b_c未通过离线训练获得的每个部位的宽度，Exp()为指数运算，“‖‖”表示二范数，为欧几里得距离，w_i为像素权重，w_t＝P(c|I，x_t).d_I(x_t)²；

对于被腐蚀的标识点，计算腐蚀窗口的质心，根据当前帧率确定迭代次数，完成骨架节点的聚合，并计算部位的大小和轴方向，确定下一帧的窗口位置和大小；

对于落于搜索窗口外的像素，记录其为错误标识，制作错误标识蒙版；对于未被腐蚀且落于搜索窗口内的像素，记录其为正确标识，制作正确标识模板；

在下一帧图像中，使用获得的搜索窗口，对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点，生成骨架节点。

优选地，所述实时获取人体深度图片为：使用深度相机获取人体深度图片；

捕捉常见的人体基本动作时，还捕捉人体手部的动作。

一种手势识别装置，包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元，其中：

人像轮廓获取单元，实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；

部位标识概率确定单元，用于通过随机森林模型确定每个像素的部位标识概率；

骨架节点生成单元，用于基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；

记录单元，用于记录骨架节点的时序序列形成骨架运动轨迹；

识别单元，用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。

优选地，所述装置还包括：

训练单元，用于捕捉常见的人体基本动作并存储为样本动作；对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型；

优选地，所述训练单元利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括：

定义深度变化差异特征为：

定义深度凹凸差异特征为：

其中，u,v为所述深度特征的随机参数，为像素x在u,v方向的位移；d_I(x)为深度图I上的像素x的深度值；

随机挑选合成样本，并随机抽取合成样本中的若干像素作为训练样本，并读取对应部位标识图从而获取对应像素的部位标识；

优选地，所述部位标识概率确定单元还用于：

读入轮廓提取后的人物深度图；

对于图中的所有像素中的每一个非背景像素，计算深度特征向量；调用随机森林识别模型，单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x)，则整个随机森林的最终预测结果为：

取其中概率最大的类作为当前像素的类别：C(I，x)＝argmaxP(c|I,x)。

优选地，所述骨架节点生成单元还用于：

初始化搜索窗口为整个人像范围；

定义每个部位的密度分布估计为：

其中，x是像素对应的三维空间位置，N为人像像素总数，x₁为对应于深度值d将x重投影到三维空间的位置，b_c未通过离线训练获得的每个部位的宽度，Exp()为指数运算，“‖‖”表示二范数，为欧几里得距离，w_i为像素权重，w_t＝P(c|I，x_i).d_I(x_t)²；

本发明的技术方案利用深度相机，在无标识无需定标的情况下能准确识别出人体姿态，捕获姿态轨迹，然后通过模板匹配出手势动作。基于深度特征向量和时序模板匹配的手势识别方法，本发明能够快速、准确的识别出体感动作，适用于计算性能并不强大的终端中，如适用于IPTV电视机顶盒中。

附图说明

图1为本发明实施例的手势识别方法的流程图；

图2(a)为人体部位划分示意图；

图2(b)为合成深度示意图；

图2(c)为合成部位标识示意图；

图3为渲染深度图重采样、加噪后与真实采集的深度图对比示意图；

图4(a)为深度变化差异特征示意图(x为待识别的像素，图中“o”表示像素在u、v方向的位移示意)；

图4(b)为深度凹凸差异特征示意图(x为待识别的像素，图中“o”表示像素在u、v方向的位移示意)；

图5为部分测试集识别结果展示示意图；

图6为从深度图中提取轮廓示意图；

图7为随机森林示意图；

图8为实时部位识别结果示意图；

图9为时序优化的骨架生成算法与Mean Shift算法结果对比示意图；

图10为本发明实施例的手势识别装置的组成结构示意图。

具体实施方式

为使本发明的目的，技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。

图1为本发明实施例的手势识别方法的流程图，如图1所示，本示例的手势识别方法具体包括两部分处理流程，如图1中左侧所示，为离线训练基本动作的确定流程，其主要包括以下步骤：

1)使用动作捕捉设备捕获常见人体动作，尤其针对交互应用需求，添加了典型的手部动作；

2)确定一个适当阈值，对样本动作做关键帧聚类，剔除重复和相似的动作，得到最终的训练姿态；图2(a)示出了本示例的人体部位划分，其主要是依据人体运动学的特征对人体各部位进行了划分。图2(b)示出了本示例的最终的训练姿态。

3)配合不同体态、着装、性别、发型的人体模型，使用计算机图形渲染技术渲染生成初步的深度图及相应部位标识图；如图2(c)所示。

4)对3)中生成的深度图进行重采样、加噪等后处理，合成与实时采集的深度图尽量相似的样本；如图3所示。

5)利用合成数据计算对应深度特征向量，训练得到随机森林模型。

如图1中右侧所示，为在线的人体手势识别流程，具体包括以下步骤：

6)从深度相机端获取如图6所示的深度图片，使用简单的阈值分割前背景确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；

7)从人像深度图基于随机森林模型，计算每个像素的深度特征，形成特征向量，再通过离线训练获得的随机森林模型确定每个像素的部位标识概率；

8)基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；

9)在获得姿态骨架后，记录姿态骨架的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。

其中，上述利用合成数据计算对应深度特征向量，训练得到随机森林模型，包括：

1a)定义两类深度特征，分别为：

深度变化差异特征f_a(I，x)：

如图4(a)所示，通过计算像素邻域内随机在两个方向位移的深度变化差异特征f_a(I，x)，体现部位的局部相对位置和边缘关系；

深度凹凸差异特征f_b(I，x)：

如图4(b)所示；其中u,v为该深度特征的随机参数，是指像素x在u,v方向位移；d_t(x)为深度图I上的像素x的深度值；深度凹凸差异特征fb()在深度变化差异特征的基础上，考虑这两个位移像素间部位表面的凹凸性，取两者的深度均值与其连线中点的深度差异；

2a)对于单棵决策树，随机挑选训练数据库中的合成数据，并随机抽取每张图片中的若干像素作为训练样本，并读取对应标识图获取对应像素的部位标识；

3a)从根节点开始生成单棵随机决策树，对于当前***节点，按下述方式处理：

a)计算当前节点训练样本中样本数量最多的类别，作为该节点的类别，同时计算更新交叉验证错误率；

b)作终止条件判断：训练样本数量是否过少；深度是否大于最大指定深度；节点是否只存在一种类别。若上述判断项的结果均为是，则停止***；

c)若上述判断项的结果有至少一项不为是，则节点可***，寻找最优***：

4a)直至所有节点停止***，停止训练，最终生成如图7所示的随机森林。

上述从人像深度图基于识别模型，计算每个像素的深度特征，形成特征向量，再通过离线训练获得的随机森林模型确定每个像素的部位标识概率，包括：

1b)读入上述步骤6)轮廓提取后的人物深度图，如图6所示；

2b)对于图中的所有像素，若为背景像素，则标识类别为背景，对于所有非背景像素，计算深度特征向量；

3b)调用离线训练得到的随机森林识别模型，单棵决策树的终叶子节点给出类别c(I，x)概率分布P_t(c|I,x)，则深度图I上的像素x的整个随机森林P(c|I,x)的最终预测结果为：

取其中概率最大类作为当前像素的类别：

C(I，x)＝argmaxP(c|I，x)；

其中，T为随机森林模型中单棵决策树的棵树。

4b)重复2b)直至遍历所有像素，最终输出如图8所示的部位识别图。

上述基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点，包括：

1c)初始化搜索窗口为整个图像范围；

2c)对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点；

3c)定义每个部位的密度分布估计f_c(x)：

其中，x是像素对应的三维空间位置，N指人物像素总数，x₁是对应于深度值d将x重投影到三维空间的位置，b_c指通过离线训练获得的每个部位的宽度，w_i为像素权重，Exp()为指数运算，“‖‖”表示二范数，为欧几里得距离，同时考虑像素的部位标识概率及其三维空间表面信息：

w_t＝P(c|I,x_t).d_I(x_t)²；

4c)对于被腐蚀的标识点，计算腐蚀窗口的质心，根据当前帧率确定迭代次数，完成骨架节点的聚合，并计算部位的大小和轴方向，确定下一帧的窗口位置和大小；若丢失目标，则重新初始化搜索窗口为整个图像范围；

5c)对于落于搜索窗口外的像素，记录其为错误标识，制作错误标识蒙版；对于未被腐蚀且落于搜索窗口内的像素，记录其为正确标识，制作正确标识模板；

6c)在下一帧图像中，使用3c)获得的搜索窗口，重复2c)生成骨架节点。如图9所示。

本发明的手势识别方法利用深度相机，在无标识无需定标的情况下能准确识别出人体姿态，捕获姿态轨迹，然后通过模板匹配出手势动作。基于深度特征向量和时序模板匹配的手势识别方法，本发明能够快速、准确的识别出体感动作，适用于计算性能并不强大的终端中，如适用于IPTV电视机顶盒中。

图10为本发明实施例的手势识别装置的组成结构示意图，如图10所示，本发明实施例的手势识别装置包括人像轮廓获取单元1002、部位标识概率确定单元1003、骨架节点生成单元1004、记录单元1005和识别单元1006，其中：

人像轮廓获取单元1002，实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；

部位标识概率确定单元1003，用于基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率；

骨架节点生成单元1004，用于基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；

记录单元1005，用于记录骨架节点的时序序列形成骨架运动轨迹；

识别单元1006，用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。

在图10所示的手势识别装置的基础上，还包括有训练单元1001，用于捕捉常见的人体基本动作并存储为样本动作；对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应对应像素的部位标识图；对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型；其中，训练单元1001主要是通过采样人体的基本动作，进行相应的动作训练，确定出人体最基本的手势动作，以便在进行手势识别时，从训练手势工作中进行相关匹配，确定出待识别手势属于哪种手势。

本领域技术人员应当理解，上述训练单元1001是为优化本发明实施例的手势识别装置而设置的，并非是实现本发明实施例的手势识别装置的必需的技术手段。

上述训练单元1001利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括：

定义深度变化差异特征为：

定义深度凹凸差异特征为：

其中，u,v为所述深度特征的随机参数，为像素x在u,v方向的位移；d_I(x)为深度图I上的像素x的深度值；上述函数中各字母及运算符的含义可参见前文，这里不再赘述。

上述部位标识概率确定单元1003还用于：

读入轮廓提取后的人物深度图；

调用随机森林识别模型，单棵决策树的终叶子节点给出类别c概率分布为P_t(c|I,x)，则整个随机森林的最终预测结果为：

上述骨架节点生成单元1004还用于：

初始化搜索窗口为整个人像范围；

定义每个部位的密度分布估计为：

其中，x是像素对应的三维空间位置，N为人像像素总数，x₁为对应于深度值d将x重投影到三维空间的位置，b_c未通过离线训练获得的每个部位的宽度，w_i为像素权重，w_t＝P(c|I,x_t).d_t(x_t)²；上述函数中各字母及运算符的含义可参见前文，这里不再赘述。

本领域技术人员应当理解，图10中所示的手势识别装置中的各处理单元的实现功能可参照前述手势识别方法的相关描述而理解。本领域技术人员应当理解，图10所示的手势识别装置中各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

记录骨架节点的时序序列形成骨架运动轨迹；

2.根据权利要求1所述的方法，其特征在于，基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前，所述方法还包括：

捕捉常见的人体基本动作并存储为样本动作；

3.根据权利要求2所述的方法，其特征在于，所述利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括：

定义深度变化差异特征为：

定义深度凹凸差异特征为：其中，u，v为所述深度特征的随机参数，为像素x在u，v方向的位移；d_I(x)为深度图I上的像素x的深度值；

4.根据权利要求1或2所述的方法，其特征在于，所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率，包括：

读入轮廓提取后的人物深度图；

5.根据权利要求1或2所述的方法，其特征在于，所述基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点，包括：

初始化搜索窗口为整个人像范围；

定义每个部位的密度分布估计为：

其中，x是像素对应的三维空间位置，N为人像像素总数，x_l为对应于深度值d将x重投影到三维空间的位置，b_c未通过离线训练获得的每个部位的宽度，Exp()为指数运算，“|| ||”表示二范数，为欧几里得距离；

6.根据权利要求1所述的方法，其特征在于，所述实时获取人体深度图片为：使用深度相机获取人体深度图片；

捕捉常见的人体基本动作时，还捕捉人体手部的动作。

7.一种手势识别装置，其特征在于，所述装置包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元，其中：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练单元，用于捕捉常见的人体基本动作并存储为样本动作；对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型。

9.根据权利要求8所述的装置，其特征在于，所述训练单元利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括：

定义深度变化差异特征为：

10.根据权利要求7或8所述的装置，其特征在于，所述部位标识概率确定单元还用于：

读入轮廓提取后的人物深度图；

11.根据权利要求7或8所述的装置，其特征在于，所述骨架节点生成单元还用于：

初始化搜索窗口为整个人像范围；

定义每个部位的密度分布估计为：