CN103530619B - 基于rgb-d数据构成的少量训练样本的手势识别方法 - Google Patents

基于rgb-d数据构成的少量训练样本的手势识别方法 Download PDF

Info

Publication number
CN103530619B
CN103530619B CN201310522370.7A CN201310522370A CN103530619B CN 103530619 B CN103530619 B CN 103530619B CN 201310522370 A CN201310522370 A CN 201310522370A CN 103530619 B CN103530619 B CN 103530619B
Authority
CN
China
Prior art keywords
rgb
training
gesture
training sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310522370.7A
Other languages
English (en)
Other versions
CN103530619A (zh
Inventor
万军
阮秋琦
安高云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201310522370.7A priority Critical patent/CN103530619B/zh
Publication of CN103530619A publication Critical patent/CN103530619A/zh
Application granted granted Critical
Publication of CN103530619B publication Critical patent/CN103530619B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于RGB‑D数据构成的少量训练样本的手势识别方法。本发明包含了:特征提取单元,其基于RGB‑D相机得到的对齐的RGB‑D图像序列中提取三维稀疏SIFT特征;训练单元,其用于基于少量的手势训练样本来学习模型;识别单元,其用于对输入的连续手势进行识别。本发明能够应用在任何提供RGB‑D数据的相机或设备,比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时,可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。

Description

基于RGB-D数据构成的少量训练样本的手势识别方法
技术领域
本发明涉及手势识别方法,可以应用到人机交互、手语翻译、智能家居、游戏开发以及虚拟现实。
背景技术
在传统手势识别中,通常都是利用普通摄像头采集手势,然后对RGB视频流进行特征提取。在基于单目的手势识别中,由于只能够提供RGB图像,通常需要大量的训练样本才能够达到较好的识别效果;在多目视觉中,由于需要对多个相机进行标定以及构建三维模型,这些都需要复杂的运算量,无法达到实时的效果。
近年来,越来越多的公司开发了RGB-D相机。该相机的特点是能够实时的提供RGB图像和深度图像。比如2010年微软发布了能够实时采集RGB-D图像的摄像头(即Kinect);2011年华硕发布了Xtion PRO;2013年体感控制器制造公司Leap发布的Leap Motion。
由于RGB-D相机比普通相机能够提供更加丰富的信息,为少量训练样本达到较好的识别效果提供了可能。因此,当只有少量训练样本条件下,手势识别所面临的困难是如何从深度信息和颜色信息中提取有效的特征。
而在现有方法中,没有基于RGB-D数据的少量样本数据来预测手势的。
发明内容
本发明针对现有手势识别方式上存在的缺陷,提供一种新的手势识别方法。
本发明解决其技术问题所采用的技术方案是:
本发明手势识别方法由特征提取单元、训练单元和识别单元组成。
在特征提取单元中,首先,对连续两帧RGB-D图像序列检测特征点;然后对特征点邻域区域进行特征向量计算,这样每个训练或者待识别样本可以用这些特征向量表示。特征提取单元应用到了后续的训练和识别单元中。
在训练单元中,首先,训练样本提取时空特征;其次,把所有的时空特征组成一个大矩阵;再次,对该大矩阵进行聚类获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典,该字典会应用到识别单元中;最后,每一个训练样本的时空特征利用该字典进行量化得到一个直方图,即每个训练样本可以由一个直方图表示。
在识别单元中,首先,对连续的手势分割成孤立手势,其次,对每个孤立手势提取时空特征;再次,利用训练单元中的字典对提取的待识别孤立手势的时空特征进行量化,使每个孤立手势由一个直方图表示;最后,把该直方图输入到最近邻分类器得到最终的识别结果。
进一步,本发明中的特征提取单元所提取的特征名为三维稀疏SIFT特征算子。
本发明需要的硬件包括RGB-D相机(如Kinect),电脑主机及常规配件(如鼠标,键盘等)。
这里,本发明有下面六个优点:第一,可从少量训练样本中提取有效的特征;第二,提供了一套完整的手势识别***方法,包含了训练和识别过程;第三,能够应用到所有的能够提供RGB-D数据的相机;第四,该识别方法对手势发生旋转或尺度变化具有很好的鲁棒性;第五,该识别方法对手势中发生部分遮挡具有较好的识别效果;第六,该识别方法能够达到实时。
本发明能够应用在任何提供RGB-D数据的相机或设备,比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时,可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。
附图说明
图1为本发明的特征提取单元流程图;
图2为本发明的训练单元流程图;
图3为本发明的识别单元流程图。
具体实施方式
下面将结合附图对本发明方法作进一步说明。
本发明手势识别方法由特征提取单元、训练单元和识别单元组成。
如图1所示,本发明中,特征提取单元具体步骤如下:
步骤(1).对输入的图像序列中的每一帧都建立金字塔,包括了灰度图金子塔和深度图金字塔。其中灰度图金字塔是由RGB图经过灰度转换而来的,而深度图金字塔是由深度图计算而来的。该金字塔的第一层是原图,第n层是第n-1层经过下采样得到的。
步骤(2).对t时刻的深度图金字塔,利用角点检测器(如Harris、Shi-Tomasi等)检测金字塔每层图像中的角点。由此可以知道这些角点位于金字塔图像中的位置信息。
步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置。由此可以知道这些角点的速度。当角点的速度小于某个阈值K的时候,该角点舍弃。同时保留速度大于该阈值K的角点,这些保留的角点即为特征点。
在该步骤中,所述阈值的取值为K=max{Sm*0.2,0.5},其中Sm是指同一层金字塔中所有检测到角点速度的最大值。
步骤(4).检测完感特征点后,可以知道这些特征点所处金字塔的位置。在t和t+1时刻,从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一小块图像区域。这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2。然后对这四个图像进行高斯滤波,得到对应的滤波后的图像G1',D1',G2',D2'。利用G1'求水平梯度图像G1x和垂直梯度图像G1y;利用D1'也求水平和垂直梯度图像Zx,Zy;利用G1'和G2'计算灰度图的水平光流场V1x和垂直光流场V1y;同样利用D1'和D2'计算深度图的水平和垂直光流场VZx,VZy
步骤(5).利用G1x,G1y,Zx和Zy构建三维梯度空间,其中三维坐标中,X方向为G1x,Y方向为G1y,Z方向由Zx和Zy构成。同样的,利用V1x,V1y,VZx和VZx构建三维运动空间,其中三维坐标中,X方向为V1x,Y方向为V1y,Z方向由VZx和VZy构成。
步骤(6).在三维梯度和运动空间,分别在XY,YZ,XZ平面,求取SIFT描绘算子,这样就可以计算6个SIFT描绘算子。最后这6个算子组成一个长的特征算子,即三维稀疏SIFT算子。三维稀疏SIFT算子就是提取的特征向量。
如图2所示,本发明中,训练单元具体步骤如下:
步骤(1).对每个训练样本利用特征提取单元的方法提取特征.
步骤(2).把所有训练样本提取的特征组成一个大矩阵。
步骤(3).对该大矩阵进行聚类(如Kmeans,稀疏编码等)获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典。
步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化,计算每个矢量出现的次数,得到每个矢量的频数,最终得到归一化后的向量(即直方图)。
如图3所示,本发明中,识别单元具体步骤如下:
步骤(1).对连续的RGB-D图像序列,利用动态时间规整算法进行时间上的分割,使每一段只包含一个训练手势。
步骤(2).对每个孤立手势利用特征提取单元的方法提取特征。
步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化,这样每个孤立手势可以由一个直方图表示。
步骤(4).该直方图输入到最近邻分类器(即找到与训练样本的直方图距离最近的类别)得到最终的识别结果。

Claims (3)

1.基于RGB-D数据构成的少量训练样本的手势识别方法,包括:
特征提取单元,其用于对RGB-D相机采集到的对齐的RGB-D数据进行特征提取;
训练单元,其用于对少量的手势训练样本提取的特征进行训练,得到训练后的模型;
识别单元,其用于对输入的连续的RGB-D数据利用训练单元生成的模型进行识别;
在特征提取单元中,首先,对连续两帧RGB-D图像序列检测特征点;然后对特征点邻域区域进行特征向量计算,这样每个训练或者待识别样本可以用这些特征向量表示;所述的特征提取单元具体步骤为:
步骤(1).对输入的图像序列中的每一帧都建立金字塔,包括了灰度图金子塔和深度图金字塔;其中灰度图金字塔是由RGB图经过灰度转换而来的,而深度图金字塔是由深度图计算而来的;该金字塔的第一层是原图,第n层是第n-1层经过下采样得到的;
步骤(2).对t时刻的深度图金字塔,利用角点检测器检测金字塔每层图像中的角点,由此可以知道这些角点位于金字塔图像中的位置信息;
步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置,由此可以知道这些角点的速度;当角点的速度小于某个阈值K的时候,该角点舍弃;同时保留速度大于该阈值K的角点,这些保留的角点即为特征点;
在该步骤中,所述阈值的取值为K=max{Sm*0.2,0.5},其中Sm是指同一层金字塔中所有检测到角点速度的最大值;
步骤(4).检测完特征点后,即可知道这些特征点所处金字塔的位置;在t和t+1时刻,从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一小块图像区域,这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2;然后对这四个图像进行高斯滤波,得到对应的滤波后的图像G1',D1',G2',D2';利用G1'求水平梯度图像G1x和垂直梯度图像G1y;利用D1'也求水平和垂直梯度图像Zx,Zy;利用G1'和G2'计算灰度图的水平光流场V1x和垂直光流场V1y;同样利用D1'和D2'计算深度图的水平和垂直光流场VZx,VZy
步骤(5).利用G1x,G1y,Zx和Zy构建三维梯度空间,其中三维坐标中,X方向为G1x,Y方向为G1y,Z方向由Zx和Zy构成;
利用V1x,V1y,VZx和VZy构建三维运动空间,其中三维坐标中,X方向为V1x,Y方向为V1y,Z方向由VZx和VZy构成;
步骤(6).在三维梯度和运动空间,分别在XY,YZ,XZ平面,求取SIFT描绘算子,这样就可以计算6个SIFT描绘算子;最后这6个算子组成一个长的特征算子,即三维稀疏SIFT算子;三维稀疏SIFT算子就是提取的特征向量。
2.根据权利要求1所述的基于RGB-D数据构成的少量训练样本的手势识别方法,其特征在于:
在训练单元中,首先,训练样本提取时空特征;其次,把所有的时空特征组成一个大矩阵;再次,对该大矩阵进行聚类获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典;最后,每一个训练样本的时空特征利用该字典进行量化得到一个直方图,即每个训练样本可以由一个直方图表示;所述的训练单元具体步骤为:
步骤(1).对每个训练样本利用特征提取单元的方法提取特征;
步骤(2).把所有训练样本提取的特征组成一个大矩阵;
步骤(3).对该大矩阵进行聚类,获取该聚类中心矩阵,该聚类中心矩阵即为训练后的字典;
步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化,计算每个矢量出现的次数,得到每个矢量的频数,最终得到归一化后的向量——即直方图。
3.根据权利要求1或2所述的基于RGB-D数据构成的少量训练样本的手势识别方法,其特征在于:在识别单元中,首先,对连续的手势分割成孤立手势,其次,对每个孤立手势提取时空特征;再次,利用训练单元中的字典对提取的待识别孤立手势的时空特征进行量化,使每个孤立手势由一个直方图表示;最后,把该直方图输入到最近邻分类器得到最终的识别结果;所述的识别单元具体步骤为:
步骤(1).对连续的RGB-D图像序列,利用动态时间规整算法进行时间上的分割,使每一段只包含一个训练手势;
步骤(2).对每个孤立手势利用特征提取单元的方法提取特征;
步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化,这样每个孤立手势可以由一个直方图表示;
步骤(4).该直方图输入到最近邻分类器——即找到与训练样本的直方图距离最近的类别,得到最终的识别结果。
CN201310522370.7A 2013-10-29 2013-10-29 基于rgb-d数据构成的少量训练样本的手势识别方法 Expired - Fee Related CN103530619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310522370.7A CN103530619B (zh) 2013-10-29 2013-10-29 基于rgb-d数据构成的少量训练样本的手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310522370.7A CN103530619B (zh) 2013-10-29 2013-10-29 基于rgb-d数据构成的少量训练样本的手势识别方法

Publications (2)

Publication Number Publication Date
CN103530619A CN103530619A (zh) 2014-01-22
CN103530619B true CN103530619B (zh) 2016-08-31

Family

ID=49932618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310522370.7A Expired - Fee Related CN103530619B (zh) 2013-10-29 2013-10-29 基于rgb-d数据构成的少量训练样本的手势识别方法

Country Status (1)

Country Link
CN (1) CN103530619B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814626A (zh) * 2020-06-29 2020-10-23 中南民族大学 一种基于自注意力机制的动态手势识别方法和***

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886295B (zh) * 2014-03-25 2017-10-24 中科创达软件股份有限公司 手势检测方法及***
CN103914149B (zh) * 2014-04-01 2017-02-08 复旦大学 一种面向互动电视的手势交互方法和***
CN103971116A (zh) * 2014-04-24 2014-08-06 西北工业大学 基于Kinect的感兴趣区域检测方法
CN104156690B (zh) * 2014-06-27 2017-09-29 辽宁石油化工大学 一种基于图像空间金字塔特征包的手势识别方法
CN104268507A (zh) * 2014-09-15 2015-01-07 南京邮电大学 一种基于rgb-d图像的手语字母识别方法
CN105654103B (zh) * 2014-11-12 2020-03-24 联想(北京)有限公司 一种图像识别方法及电子设备
US9672418B2 (en) 2015-02-06 2017-06-06 King Fahd University Of Petroleum And Minerals Arabic sign language recognition using multi-sensor data fusion
CN104866824A (zh) * 2015-05-17 2015-08-26 华南理工大学 一种基于Leap Motion的手语字母识别方法
CN104915009B (zh) * 2015-06-25 2018-04-13 深圳先进技术研究院 手势预判的方法及***
CN105353634B (zh) * 2015-11-30 2018-05-08 北京地平线机器人技术研发有限公司 利用手势识别控制操作的家电设备与方法
CN106019973A (zh) * 2016-07-30 2016-10-12 杨超坤 一种具有情感识别功能的智能家居
CN106815578A (zh) * 2017-01-23 2017-06-09 重庆邮电大学 一种基于深度运动图‑尺度不变特征变换的手势识别方法
CN108044625B (zh) * 2017-12-18 2019-08-30 中南大学 一种基于多Leapmotion虚拟手势融合的机器人机械臂操控方法
CN108345852A (zh) * 2018-02-05 2018-07-31 四川东鼎里智信息技术有限责任公司 一种用于手势远程控制物体的高度的控制算法
CN108804715A (zh) * 2018-07-09 2018-11-13 北京邮电大学 融合视听感知的多任务协同识别方法及***
CN110728191A (zh) * 2019-09-16 2020-01-24 北京华捷艾米科技有限公司 手语翻译方法、基于mr的手语-语音交互方法及***
CN112308910B (zh) * 2020-10-10 2024-04-05 达闼机器人股份有限公司 一种数据生成方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345626A (zh) * 2013-07-18 2013-10-09 重庆邮电大学 一种智能轮椅静态手势识别方法
CN103353935A (zh) * 2013-07-19 2013-10-16 电子科技大学 一种用于智能家居***的3d动态手势识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180114B2 (en) * 2006-07-13 2012-05-15 Northrop Grumman Systems Corporation Gesture recognition interface system with vertical display

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345626A (zh) * 2013-07-18 2013-10-09 重庆邮电大学 一种智能轮椅静态手势识别方法
CN103353935A (zh) * 2013-07-19 2013-10-16 电子科技大学 一种用于智能家居***的3d动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
One-shot Learning Gesture Recognition from RGB-D Data Using Bag of Features;Jun Wan等;《Journal of Machine Learning Research》;20130131;第14卷(第1期);第2549-2582页 *
基于Kinect深度信息的手势提取与识别研究;邓瑞等;《计算机应用研究》;20130430;第30卷(第4期);全文 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814626A (zh) * 2020-06-29 2020-10-23 中南民族大学 一种基于自注意力机制的动态手势识别方法和***
CN111814626B (zh) * 2020-06-29 2021-01-26 中南民族大学 一种基于自注意力机制的动态手势识别方法和***

Also Published As

Publication number Publication date
CN103530619A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103530619B (zh) 基于rgb-d数据构成的少量训练样本的手势识别方法
CN107808131B (zh) 基于双通路深度卷积神经网络的动态手势识别方法
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
Garcia-Garcia et al. A review on deep learning techniques applied to semantic segmentation
CN105069746B (zh) 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其***
CN107168527B (zh) 基于区域卷积神经网络的第一视角手势识别与交互方法
WO2020119661A1 (zh) 一种目标检测方法、装置以及行人检测方法、***
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
Joo et al. Panoptic studio: A massively multiview system for social motion capture
CN105718878B (zh) 基于级联卷积神经网络的第一视角空中手写和空中交互方法
Xu et al. Hierarchical semantic propagation for object detection in remote sensing imagery
CN109711413A (zh) 基于深度学习的图像语义分割方法
CN105139004B (zh) 基于视频序列的人脸表情识别方法
CN106598226A (zh) 一种基于双目视觉和深度学习的无人机人机交互方法
WO2019157344A1 (en) Real-time gesture recognition method and apparatus
CN107784291A (zh) 基于红外视频的目标检测跟踪方法和装置
CN107527054B (zh) 基于多视角融合的前景自动提取方法
CN107203745A (zh) 一种基于跨域学习的跨视角动作识别方法
US20210256707A1 (en) Learning to Segment via Cut-and-Paste
CN109657634A (zh) 一种基于深度卷积神经网络的3d手势识别方法及***
CN108364302A (zh) 一种无标记的增强现实多目标注册跟踪方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN115359406A (zh) 一种邮局场景人物交互行为识别方法及***
CN106980823A (zh) 一种基于帧间自相似的动作识别方法
Tang et al. Position-free hand gesture recognition using single shot multibox detector based neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160831

Termination date: 20211029