CN103577793B - 手势识别方法及装置 - Google Patents
手势识别方法及装置 Download PDFInfo
- Publication number
- CN103577793B CN103577793B CN201210264265.3A CN201210264265A CN103577793B CN 103577793 B CN103577793 B CN 103577793B CN 201210264265 A CN201210264265 A CN 201210264265A CN 103577793 B CN103577793 B CN 103577793B
- Authority
- CN
- China
- Prior art keywords
- depth
- pixel
- training
- node
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 77
- 230000009471 action Effects 0.000 claims abstract description 57
- 238000007637 random forest analysis Methods 0.000 claims abstract description 47
- 230000033001 locomotion Effects 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 3
- 239000003550 marker Substances 0.000 claims description 22
- 238000003066 decision tree Methods 0.000 claims description 14
- 238000005260 corrosion Methods 0.000 claims description 11
- 230000007797 corrosion Effects 0.000 claims description 11
- 238000006073 displacement reaction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000003993 interaction Effects 0.000 description 9
- 230000003238 somatosensory effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种手势识别方法,捕捉常见的人体基本动作并存储为样本动作;根据所述样本动作得到最终的训练动作;对训练动作进行图形渲染生成初步的深度图及相应部位标识图;根据所生成的深度图合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量,通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。本发明同时公开了一种手势识别装置。
Description
技术领域
本发明涉及手势识别技术,尤其涉及一种手势识别方法及装置。
背景技术
基于视觉的体感交互技术近年来越来越多地受到研究人员的关注,特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来,更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究,大致可分为两个方面:一为近景动作交互,捕获区域和对象较小,集中在手部姿态,如SixthSense等;一为全身动作交互,动作的幅度也更大,需要更大的捕获区域和软硬件处理能力,但用户与虚拟空间的联系感更为强烈,如Kinect、Wii以及一些大型虚拟实境***。
实时姿态估计技术是体感交互的关键技术之一,一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中,提取和估计人物的姿态。在具体交互语境中,***就能够根据姿态结合上下文识别具体的动作语义。
传统的基于色彩光度图的姿态估计技术,容易受光照等多种环境因素的影响,很难同时达到对实时性能与精度的较高要求,并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息,这大大降低了姿态估计的难度。
微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别,该方法虽然能够准确的识别出手势动作,但计算量大、耗时久,不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时,微软的骨架聚合识别工具NITE中间件并未对外开源,在动作识别的开发上存在困难。
发明内容
有鉴于此,本发明的主要目的在于提供一种手势识别方法及装置,能快速、准确的识别出体感动作,适用于计算性能并不强大终端如电视机顶盒中。
为达到上述目的,本发明的技术方案是这样实现的:
一种手势识别方法,包括:
实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录骨架节点的时序序列形成骨架运动轨迹;
抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
优选地,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:
捕捉常见的人体基本动作并存储为样本动作;
对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;
对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;
利用合成样本计算对应深度特征向量,训练得到随机森林模型。
优选地,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为:定义深度凹凸差异特征为:
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;
从根节点开始生成单棵随机决策树,对于当前***节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止***;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续***,寻找最优***;所有节点停止***时停止训练。
优选地,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
优选地,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,wi为像素权重,wt=P(c|I,xt).dI(xt)2;
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
优选地,所述实时获取人体深度图片为:使用深度相机获取人体深度图片;
捕捉常见的人体基本动作时,还捕捉人体手部的动作。
一种手势识别装置,包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元,其中:
人像轮廓获取单元,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
部位标识概率确定单元,用于通过随机森林模型确定每个像素的部位标识概率;
骨架节点生成单元,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录单元,用于记录骨架节点的时序序列形成骨架运动轨迹;
识别单元,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
优选地,所述装置还包括:
训练单元,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;
优选地,所述训练单元利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为:
定义深度凹凸差异特征为:
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图从而获取对应像素的部位标识;
从根节点开始生成单棵随机决策树,对于当前***节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止***;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续***,寻找最优***;所有节点停止***时停止训练。
优选地,所述部位标识概率确定单元还用于:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
优选地,所述骨架节点生成单元还用于:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,wi为像素权重,wt=P(c|I,xi).dI(xt)2;
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
本发明的技术方案利用深度相机,在无标识无需定标的情况下能准确识别出人体姿态,捕获姿态轨迹,然后通过模板匹配出手势动作。基于深度特征向量和时序模板匹配的手势识别方法,本发明能够快速、准确的识别出体感动作,适用于计算性能并不强大的终端中,如适用于IPTV电视机顶盒中。
附图说明
图1为本发明实施例的手势识别方法的流程图;
图2(a)为人体部位划分示意图;
图2(b)为合成深度示意图;
图2(c)为合成部位标识示意图;
图3为渲染深度图重采样、加噪后与真实采集的深度图对比示意图;
图4(a)为深度变化差异特征示意图(x为待识别的像素,图中“o”表示像素在u、v方向的位移示意);
图4(b)为深度凹凸差异特征示意图(x为待识别的像素,图中“o”表示像素在u、v方向的位移示意);
图5为部分测试集识别结果展示示意图;
图6为从深度图中提取轮廓示意图;
图7为随机森林示意图;
图8为实时部位识别结果示意图;
图9为时序优化的骨架生成算法与Mean Shift算法结果对比示意图;
图10为本发明实施例的手势识别装置的组成结构示意图。
具体实施方式
为使本发明的目的,技术方案和优点更加清楚明白,以下举实施例并参照附图,对本发明进一步详细说明。
图1为本发明实施例的手势识别方法的流程图,如图1所示,本示例的手势识别方法具体包括两部分处理流程,如图1中左侧所示,为离线训练基本动作的确定流程,其主要包括以下步骤:
1)使用动作捕捉设备捕获常见人体动作,尤其针对交互应用需求,添加了典型的手部动作;
2)确定一个适当阈值,对样本动作做关键帧聚类,剔除重复和相似的动作,得到最终的训练姿态;图2(a)示出了本示例的人体部位划分,其主要是依据人体运动学的特征对人体各部位进行了划分。图2(b)示出了本示例的最终的训练姿态。
3)配合不同体态、着装、性别、发型的人体模型,使用计算机图形渲染技术渲染生成初步的深度图及相应部位标识图;如图2(c)所示。
4)对3)中生成的深度图进行重采样、加噪等后处理,合成与实时采集的深度图尽量相似的样本;如图3所示。
5)利用合成数据计算对应深度特征向量,训练得到随机森林模型。
如图1中右侧所示,为在线的人体手势识别流程,具体包括以下步骤:
6)从深度相机端获取如图6所示的深度图片,使用简单的阈值分割前背景确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
7)从人像深度图基于随机森林模型,计算每个像素的深度特征,形成特征向量,再通过离线训练获得的随机森林模型确定每个像素的部位标识概率;
8)基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
9)在获得姿态骨架后,记录姿态骨架的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
其中,上述利用合成数据计算对应深度特征向量,训练得到随机森林模型,包括:
1a)定义两类深度特征,分别为:
深度变化差异特征fa(I,x):
如图4(a)所示,通过计算像素邻域内随机在两个方向位移的深度变化差异特征fa(I,x),体现部位的局部相对位置和边缘关系;
深度凹凸差异特征fb(I,x):
如图4(b)所示;其中u,v为该深度特征的随机参数,是指像素x在u,v方向位移;dt(x)为深度图I上的像素x的深度值;深度凹凸差异特征fb()在深度变化差异特征的基础上,考虑这两个位移像素间部位表面的凹凸性,取两者的深度均值与其连线中点的深度差异;
2a)对于单棵决策树,随机挑选训练数据库中的合成数据,并随机抽取每张图片中的若干像素作为训练样本,并读取对应标识图获取对应像素的部位标识;
3a)从根节点开始生成单棵随机决策树,对于当前***节点,按下述方式处理:
a)计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;
b)作终止条件判断:训练样本数量是否过少;深度是否大于最大指定深度;节点是否只存在一种类别。若上述判断项的结果均为是,则停止***;
c)若上述判断项的结果有至少一项不为是,则节点可***,寻找最优***:
4a)直至所有节点停止***,停止训练,最终生成如图7所示的随机森林。
上述从人像深度图基于识别模型,计算每个像素的深度特征,形成特征向量,再通过离线训练获得的随机森林模型确定每个像素的部位标识概率,包括:
1b)读入上述步骤6)轮廓提取后的人物深度图,如图6所示;
2b)对于图中的所有像素,若为背景像素,则标识类别为背景,对于所有非背景像素,计算深度特征向量;
3b)调用离线训练得到的随机森林识别模型,单棵决策树的终叶子节点给出类别c(I,x)概率分布Pt(c|I,x),则深度图I上的像素x的整个随机森林P(c|I,x)的最终预测结果为:
取其中概率最大类作为当前像素的类别:
C(I,x)=argmaxP(c|I,x);
其中,T为随机森林模型中单棵决策树的棵树。
4b)重复2b)直至遍历所有像素,最终输出如图8所示的部位识别图。
上述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:
1c)初始化搜索窗口为整个图像范围;
2c)对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
3c)定义每个部位的密度分布估计fc(x):
其中,x是像素对应的三维空间位置,N指人物像素总数,x1是对应于深度值d将x重投影到三维空间的位置,bc指通过离线训练获得的每个部位的宽度,wi为像素权重,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,同时考虑像素的部位标识概率及其三维空间表面信息:
wt=P(c|I,xt).dI(xt)2;
4c)对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;若丢失目标,则重新初始化搜索窗口为整个图像范围;
5c)对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
6c)在下一帧图像中,使用3c)获得的搜索窗口,重复2c)生成骨架节点。如图9所示。
本发明的手势识别方法利用深度相机,在无标识无需定标的情况下能准确识别出人体姿态,捕获姿态轨迹,然后通过模板匹配出手势动作。基于深度特征向量和时序模板匹配的手势识别方法,本发明能够快速、准确的识别出体感动作,适用于计算性能并不强大的终端中,如适用于IPTV电视机顶盒中。
图10为本发明实施例的手势识别装置的组成结构示意图,如图10所示,本发明实施例的手势识别装置包括人像轮廓获取单元1002、部位标识概率确定单元1003、骨架节点生成单元1004、记录单元1005和识别单元1006,其中:
人像轮廓获取单元1002,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
部位标识概率确定单元1003,用于基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
骨架节点生成单元1004,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录单元1005,用于记录骨架节点的时序序列形成骨架运动轨迹;
识别单元1006,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
在图10所示的手势识别装置的基础上,还包括有训练单元1001,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应对应像素的部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;其中,训练单元1001主要是通过采样人体的基本动作,进行相应的动作训练,确定出人体最基本的手势动作,以便在进行手势识别时,从训练手势工作中进行相关匹配,确定出待识别手势属于哪种手势。
本领域技术人员应当理解,上述训练单元1001是为优化本发明实施例的手势识别装置而设置的,并非是实现本发明实施例的手势识别装置的必需的技术手段。
上述训练单元1001利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为:
定义深度凹凸差异特征为:
其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;上述函数中各字母及运算符的含义可参见前文,这里不再赘述。
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;
从根节点开始生成单棵随机决策树,对于当前***节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止***;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续***,寻找最优***;所有节点停止***时停止训练。
上述部位标识概率确定单元1003还用于:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
上述骨架节点生成单元1004还用于:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,wi为像素权重,wt=P(c|I,xt).dt(xt)2;上述函数中各字母及运算符的含义可参见前文,这里不再赘述。
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
本领域技术人员应当理解,图10中所示的手势识别装置中的各处理单元的实现功能可参照前述手势识别方法的相关描述而理解。本领域技术人员应当理解,图10所示的手势识别装置中各处理单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (11)
1.一种手势识别方法,其特征在于,所述方法包括:
实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;
基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录骨架节点的时序序列形成骨架运动轨迹;
抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
2.根据权利要求1所述的方法,其特征在于,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:
捕捉常见的人体基本动作并存储为样本动作;
对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;
对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;
利用合成样本计算对应深度特征向量,训练得到随机森林模型。
3.根据权利要求2所述的方法,其特征在于,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为:
定义深度凹凸差异特征为:其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;
从根节点开始生成单棵随机决策树,对于当前***节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止***;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续***,寻找最优***;所有节点停止***时停止训练。
4.根据权利要求1或2所述的方法,其特征在于,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
5.根据权利要求1或2所述的方法,其特征在于,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
其中,x是像素对应的三维空间位置,N为人像像素总数,xl为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“|| ||”表示二范数,为欧几里得距离;
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
6.根据权利要求1所述的方法,其特征在于,所述实时获取人体深度图片为:使用深度相机获取人体深度图片;
捕捉常见的人体基本动作时,还捕捉人体手部的动作。
7.一种手势识别装置,其特征在于,所述装置包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元,其中:
人像轮廓获取单元,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;
部位标识概率确定单元,用于通过随机森林模型确定每个像素的部位标识概率;
骨架节点生成单元,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;
记录单元,用于记录骨架节点的时序序列形成骨架运动轨迹;
识别单元,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练单元,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型。
9.根据权利要求8所述的装置,其特征在于,所述训练单元利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:
定义深度变化差异特征为:
定义深度凹凸差异特征为:其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;
随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图从而获取对应像素的部位标识;
从根节点开始生成单棵随机决策树,对于当前***节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止***;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续***,寻找最优***;所有节点停止***时停止训练。
10.根据权利要求7或8所述的装置,其特征在于,所述部位标识概率确定单元还用于:
读入轮廓提取后的人物深度图;
对于图中的所有像素中的每一个非背景像素,计算深度特征向量;
调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:
取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。
11.根据权利要求7或8所述的装置,其特征在于,所述骨架节点生成单元还用于:
初始化搜索窗口为整个人像范围;
对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;
定义每个部位的密度分布估计为:
其中,x是像素对应的三维空间位置,N为人像像素总数,xl为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“|| ||”表示二范数,为欧几里得距离;
对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;
对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;
在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210264265.3A CN103577793B (zh) | 2012-07-27 | 2012-07-27 | 手势识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210264265.3A CN103577793B (zh) | 2012-07-27 | 2012-07-27 | 手势识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103577793A CN103577793A (zh) | 2014-02-12 |
CN103577793B true CN103577793B (zh) | 2017-04-05 |
Family
ID=50049548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210264265.3A Active CN103577793B (zh) | 2012-07-27 | 2012-07-27 | 手势识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103577793B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866083B (zh) | 2014-02-25 | 2020-03-17 | 中兴通讯股份有限公司 | 手势识别方法、装置和*** |
CN104866084B (zh) | 2014-02-25 | 2021-04-30 | 中兴通讯股份有限公司 | 手势识别方法、装置和*** |
CN103927016B (zh) * | 2014-04-24 | 2017-01-11 | 西北工业大学 | 一种基于双目视觉的实时三维双手手势识别方法及其*** |
US9552070B2 (en) * | 2014-09-23 | 2017-01-24 | Microsoft Technology Licensing, Llc | Tracking hand/body pose |
CN104392210A (zh) * | 2014-11-13 | 2015-03-04 | 海信集团有限公司 | 一种手势识别方法 |
CN104517100B (zh) * | 2014-12-15 | 2017-09-29 | 中国科学院深圳先进技术研究院 | 手势预判方法和*** |
CN104881640B (zh) * | 2015-05-15 | 2018-06-15 | 华为技术有限公司 | 一种获取向量的方法及装置 |
US10599919B2 (en) | 2015-12-31 | 2020-03-24 | Microsoft Technology Licensing, Llc | Detection of hand gestures using gesture language discrete values |
CN105894533A (zh) * | 2015-12-31 | 2016-08-24 | 乐视移动智能信息技术(北京)有限公司 | 基于智能设备实现体感控制的方法、***以及智能设备 |
CN105550667B (zh) * | 2016-01-25 | 2019-01-25 | 同济大学 | 一种基于立体相机的骨架信息动作特征提取方法 |
CN107203756B (zh) * | 2016-06-06 | 2020-08-28 | 亮风台(上海)信息科技有限公司 | 一种识别手势的方法与设备 |
CN106250852A (zh) * | 2016-08-01 | 2016-12-21 | 乐视控股(北京)有限公司 | 虚拟现实终端及手型识别方法和装置 |
CN106845513B (zh) * | 2016-12-05 | 2019-10-15 | 华中师范大学 | 基于条件随机森林的人手检测器及方法 |
CN107301370B (zh) * | 2017-05-08 | 2020-10-16 | 上海大学 | 一种基于Kinect三维骨架模型的肢体动作识别方法 |
CN107357426A (zh) * | 2017-07-03 | 2017-11-17 | 南京江南博睿高新技术研究院有限公司 | 一种用于虚拟现实设备的体感控制方法 |
CN107704190B (zh) * | 2017-11-06 | 2020-07-10 | Oppo广东移动通信有限公司 | 手势识别方法、装置、终端及存储介质 |
CN107766842B (zh) * | 2017-11-10 | 2020-07-28 | 济南大学 | 一种手势识别方法及其应用 |
CN108399367B (zh) * | 2018-01-31 | 2020-06-23 | 深圳市阿西莫夫科技有限公司 | 手部动作识别方法、装置、计算机设备及可读存储介质 |
CN108932053B (zh) * | 2018-05-21 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 基于手势的绘图方法、装置、存储介质和计算机设备 |
CN109375766A (zh) * | 2018-09-13 | 2019-02-22 | 何艳玲 | 一种基于手势控制的新型学习方法 |
CN109858524B (zh) | 2019-01-04 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 手势识别方法、装置、电子设备及存储介质 |
CN110147737B (zh) * | 2019-04-25 | 2021-06-18 | 北京百度网讯科技有限公司 | 用于生成视频的方法、装置、设备和存储介质 |
CN110543892B (zh) * | 2019-08-05 | 2023-08-25 | 青岛理工大学 | 一种基于多层随机森林的零部件识别方法 |
CN110458235B (zh) * | 2019-08-14 | 2022-04-01 | 广州大学 | 一种视频中运动姿势相似度比对方法 |
CN110516638B (zh) * | 2019-08-30 | 2022-09-27 | 大连海事大学 | 一种基于轨迹和随机森林的手语识别方法 |
CN110705552B (zh) * | 2019-10-11 | 2022-05-06 | 沈阳民航东北凯亚有限公司 | 行李托盘识别方法及装置 |
CN111046825A (zh) * | 2019-12-19 | 2020-04-21 | 杭州晨鹰军泰科技有限公司 | 人体姿态识别方法、装置、***及计算机可读存储介质 |
CN111240486B (zh) * | 2020-02-17 | 2021-07-02 | 河北冀联人力资源服务集团有限公司 | 一种基于边缘计算的数据处理方法及*** |
TWI738315B (zh) * | 2020-05-04 | 2021-09-01 | 光時代科技有限公司 | 基於光標籤的自動追蹤拍攝系統 |
CN111596767B (zh) * | 2020-05-27 | 2023-05-30 | 广州市大湾区虚拟现实研究院 | 一种基于虚拟现实的姿态捕获方法和装置 |
CN111667005B (zh) * | 2020-06-05 | 2023-09-12 | 镇江傲游网络科技有限公司 | 一种采用rgbd视觉传感的人体交互*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007084374A2 (en) * | 2006-01-13 | 2007-07-26 | Cytokinetics, Inc. | Random forest modeling of cellular phenotypes |
CN102122350A (zh) * | 2011-02-24 | 2011-07-13 | 浙江工业大学 | 基于骨架化和模板匹配的交警手势识别方法 |
-
2012
- 2012-07-27 CN CN201210264265.3A patent/CN103577793B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007084374A2 (en) * | 2006-01-13 | 2007-07-26 | Cytokinetics, Inc. | Random forest modeling of cellular phenotypes |
CN102122350A (zh) * | 2011-02-24 | 2011-07-13 | 浙江工业大学 | 基于骨架化和模板匹配的交警手势识别方法 |
Non-Patent Citations (2)
Title |
---|
Real-time Human Pose Recognition in Parts from Single Depth Images;Shotton J;《IEEE press》;20110625;期刊第2节、第3节 * |
基于深度图像技术的手势识别方法;曹雏清;《计算机工程》;20120430;第38卷(第8期);期刊第2.1、2.2、2.4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN103577793A (zh) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103577793B (zh) | 手势识别方法及装置 | |
CN108564616B (zh) | 快速鲁棒的rgb-d室内三维场景重建方法 | |
CN109934847B (zh) | 弱纹理三维物体姿态估计的方法和装置 | |
US20140204084A1 (en) | Systems and Methods for Animating the Faces of 3D Characters Using Images of Human Faces | |
KR101257207B1 (ko) | 헤드 트래킹 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
CN110689573B (zh) | 一种基于边缘模型的增强现实无标识跟踪注册方法及装置 | |
JP2016099982A (ja) | 行動認識装置、行動学習装置、方法、及びプログラム | |
KR20130073812A (ko) | 객체 포즈 추정을 위한 장치 및 방법 | |
CN112562081B (zh) | 一种用于视觉分层定位的视觉地图构建方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN108510520B (zh) | 一种图像处理方法、装置及ar设备 | |
CN108428249A (zh) | 一种基于光流跟踪和双几何模型的初始位姿估计方法 | |
CN111382613A (zh) | 图像处理方法、装置、设备和介质 | |
CN110895683B (zh) | 一种基于Kinect的单视点手势姿势识别方法 | |
CN112419497A (zh) | 基于单目视觉的特征法与直接法相融合的slam方法 | |
CN112287906A (zh) | 一种基于深度特征融合的模板匹配跟踪方法及*** | |
CN106023256B (zh) | 面向增强现实辅助维修***平面目标粒子滤波跟踪的状态观测方法 | |
CN110516638B (zh) | 一种基于轨迹和随机森林的手语识别方法 | |
Darujati et al. | Facial motion capture with 3D active appearance models | |
CN113436251B (zh) | 一种基于改进的yolo6d算法的位姿估计***及方法 | |
CN117870659A (zh) | 基于点线特征的视觉惯性组合导航算法 | |
CN116894876A (zh) | 基于实时图像的6-dof的定位方法 | |
CN110647925A (zh) | 基于改进的line-mod模板匹配的刚性物体识别方法及装置 | |
CN110895684B (zh) | 一种基于Kinect的手势动作识别方法 | |
Xu et al. | MultiView-based hand posture recognition method based on point cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |