CN108388882A - 基于全局-局部rgb-d多模态的手势识别方法 - Google Patents

基于全局-局部rgb-d多模态的手势识别方法 Download PDF

Info

Publication number
CN108388882A
CN108388882A CN201810216977.5A CN201810216977A CN108388882A CN 108388882 A CN108388882 A CN 108388882A CN 201810216977 A CN201810216977 A CN 201810216977A CN 108388882 A CN108388882 A CN 108388882A
Authority
CN
China
Prior art keywords
rgb
depth
gesture
global
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810216977.5A
Other languages
English (en)
Other versions
CN108388882B (zh
Inventor
郑伟诗
李伟宏
李本超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810216977.5A priority Critical patent/CN108388882B/zh
Publication of CN108388882A publication Critical patent/CN108388882A/zh
Application granted granted Critical
Publication of CN108388882B publication Critical patent/CN108388882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局‑局部RGB‑D多模态的手势识别方法,本发明主要通过包括骨骼位置、RGB图像、深度图像和光流图像等数据模态对输入的手势视频进行表示,得到多模态的手势数据表示后,利用卷积神经网络和递归神经网络的方法把不同模态的手势数据分别进行特征表达,并且利用不同模态下得到的特征进行手势的分类。最终将不同模态下得到的不同类别的手势得分进行融合,得到最终基于多模态的手势分类结果。本发明可以应用于客户端或云端对用户输入的手势视频进行识别,通过手势的输入使计算机或手机软硬件做出对应的响应。

Description

基于全局-局部RGB-D多模态的手势识别方法
技术领域
本发明涉及手势识别的技术领域,尤其是涉及一种基于全局-局部RGB-D多模态的手势识别方法。
背景技术
随着科技的发展,手势识别技术被运用得越来越广泛,现有的技术发明主要是通过RGB摄像头或RGB-D摄像头获得手势视频,根据RGB的单个模态或者RGB-D两个模态进行手势识别。但是现有技术也存在着诸多的缺点,主要缺点是单靠RGB和RGB-D的输入数据对手势视频进行全局的描述。然而基于全局描述的方法在手势识别问题上准确率远远没达到要求,并且目前没有很好的针对手势进行RGB-D特征提取的方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于全局-局部RGB-D多模态的手势识别方法,本发明通过多模态特征全局描述和局部描述的结合,有效地提升了手势识别的准确率,使之能够在现实生活场景中进行一定程度的应用。
为了达到上述目的,本发明采用以下技术发明:
本发明基于全局-局部RGB-D多模态的手势识别方法,包括下述步骤:
S1、骨骼序列生成及基于骨骼数据的全局-局部手势识别:
给定输入的RGB-D视频图片,利用多人姿态估计方法估计出每帧图片中人体骨骼的坐标位置,并根据整个视频获得的上半身的骨骼点,利用长短时记忆网络对上半身的骨骼点进行特征进行时序建模和分类,得到基于全局骨骼的手势分类得分Ss-g
S2、基于全局-局部的RGB-D模态手势识别:
对于RGB数据和深度数据的全局手势表示,首先分别将T帧的RGB和T帧深度图在通道沿时间进行堆叠,分别得到堆叠后的RGB图IRGB和T帧深度图IDepth,并且对VGG16卷积神经网络的输入通道进行改进,使其能够接受对应通道数目的数据输入;通过卷积神经网络的特征提取处理,分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征xRGB-g和全局深度特征和xDepth-g;最后,利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分SRGB-g和全局的深度手势分类得分SDepth-g
S3、基于全局-局部的RGB光流和深度光流模态手势识别;
分别在RGB视频数据和深度视频数据中提取光流信号,从而分别获得RGB光流和深度光流图片数据,光流是一种记录像素运动的方式,其主要记录了每个像素沿时间帧之间的运动方向和强度;
S4、多模态的手势分类得分融合;
在获得骨骼、RGB图、深度图、RGB光流图和深度光流图5种不同的数据模态的全局和局部手势分类得分Ss-g,Ss-l,SRGB-g,SRGB-l,SDepth-g,SDepth-l,SRGB-f-g,SRGB-f-l,SDepth-f-g和Sdepth-f-l后;基于以上的手势分类得分进行平均,并且利用归一化函数进行类别得分的归一化,最终获得不同手势类别的概率。
作为优选的技术方案,步骤S1中,还包括下述对手势做进一步的描述的步骤,具体为:
获取手部、肘部和肩部的骨骼点对骨骼数据进行局部描述,同样利用长短时记忆网络对获得的局部骨骼数据进行时序建模和分类,得到基于局部骨骼的手势分类得分Ss-l
作为优选的技术方案,步骤S2中,局部RGB特征xRGB-l和局部深度特征和xDepth-l的提取采用下述方法:
首先,通过将左右手、左右肘部和左右肩部对应的RGB图和深度图区域裁剪;
其次,将裁剪后的图片拼合成新的图片数据;
最后,根据拼接后得到的RGB图和深度图,同样先通过时间堆叠成多通道图片,再利用VGG16卷积神经网络进行特征提取和分类,最终获得基于局部RGB图和局部深度图的手势分类得分SRGB-l和SDepth-l
作为优选的技术方案,步骤S3中,利用TV-L1光流算法对光流图片进行计算,通过对RGB光流和深度光流的提取,分别获得全局和局部的RGB光流图片和全局和局部的深度光流图片,并且利用VGG16卷积神经网络对其进行分类,最终获得基于全局和局部的RGB光流的手势分类得分SRGB-f-g和SRGB-f-l,和基于全局和局部的深度光流的手势分类得分SDepth-f-g和Sdepth-f-l
作为优选的技术方案,步骤S4中,所述归一化函数采用softmax归一化函数。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明所提出的基于全局-局部RGB-D多模态的手势识别方法,是一种新的局部多模态手势数据的提取方式,并且通过与全局多模态手势数据的结合,得到全局-局部RGB-D多模态的手势识别模型,从而带来手势识别性能上的提升。
2、在目前通用的ChaLearn LAP大规模手势识别数据上,本发明提出的方法的手势识别准确率为67.02%,因此,本技术发明提出了一种通用的可靠的手势识别方法,能够在如家庭环境、公共环境下对智能设备进行手势操控,或者在体感游戏上进行手势操作等,具有广泛的应用背景和应用场景。
附图说明
图1是本发明基于多模态手势识别方法总体框架图;
图2是本发明全局-局部多模态数据表示方法;
图3是本发明基于骨骼坐标的局部图片数据裁剪与拼接方法。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
术语定义:
RGB-D:RGB是常用的图片颜色表示方法。D指的是Depth Image,即深度图片的表示,其格式为图片,数据内容是摄像头拍摄到的物体距离摄像头距离的数值,先以毫米的形式表达在通过线性变换到图片能表示的数值范围[0,255]。
如图1所示,本发明基于全局-局部RGB-D多模态的手势识别方法,主要针对RGB-D输入的手势视频,通过基于RGB-D的人体骨骼提取技术对视频中的人体及手的骨骼进行估计,通过估计得到的骨骼分别构造5种不同数据模态(骨骼、RGB图、深度图、RGB光流图和深度光流图)的局部数据表达。并且通过与上述模态的全局数据表达进行结合,得到每个模态的全局-局部数据进行手势类别得分计算,最终进行多模态手势类别得分融合或者对输入手势类别的分类结果。
本发明的具体技术发明如下:
(1)骨骼序列生成及基于骨骼数据的全局-局部手势识别
给定输入的RGB-D视频图片,本发明首先利用多人姿态估计方法(multi-personpose estimation,RMPE)估计出每帧图片中人体骨骼的坐标位置,并且只取上半身的骨骼点。如图2左所表示的骨骼点,根据整个视频获得的上半身的骨骼点,利用长短时记忆网络(Long-Short Term Memory network,LSTM),对其进行特征进行时序建模,并且进行分类,得到基于全局骨骼的手势分类得分Ss-g
作为对手势细节的补充,本发明获取手部、肘部和肩部的骨骼点对骨骼数据进行局部描述。同样利用长短时记忆网络对获得的局部骨骼数据进行时序建模及分类,得到基于局部骨骼的手势分类得分Ss-l
(2)基于全局-局部的RGB-D模态手势识别
本发明中主要使用的是基于RGB-D的摄像头进行手势视频数据的采集,因此RGB图和深度图是本技术的基础数据源。对于RGB数据和深度数据的全局手势表示,本发明首先分别将T帧的RGB(数据维度为3*图像高度*图像长度)和T帧深度图(数据维度为1*图像高度*图像长度)在通道沿时间进行堆叠,分别得到堆叠后的RGB图IRGB(数据维度为3T*图像高度*图像长度)和T帧深度图IDepth(数据维度为T*图像高度*图像长度),并且对VGG16卷积神经网络的输入通道进行改进,使其能够接受对应通道数目(3T和T)的数据输入。通过卷积神经网络的特征提取处理,分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征xRGB-g和全局深度特征和xDepth-g。然后,利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分SRGB-g和全局的深度手势分类得分SDepth-g
进一步的,局部RGB特征xRGB-l和局部深度特征和xDepth-l的提取,首先通过将左右手、左右肘部和左右肩部对应的RGB图和深度图区域裁剪,裁剪大小分别为66*66像素、33*33像素和33*33像素,如图3所示。再将其拼合成新的图片数据,如图2右所示。根据拼接后得到的RGB图和深度图,同样先通过时间堆叠成多通道图片,再利用VGG16卷积神经网络进行特征提取和分类,最终获得基于局部RGB图和局部深度图的手势分类得分SRGB-l和SDepth-1
(3)基于全局-局部的RGB光流和深度光流模态手势识别
为了进一步描述摄像头捕捉到的运动信息,本发明分别在RGB视频数据和深度视频数据中提取光流信号,从而分别获得RGB光流和深度光流图片数据。光流是一种记录像素运动的方式,其主要记录了每个像素沿时间帧之间的运动方向和强度。本发明利用TV-L1光流算法对光流图片进行计算。通过对RGB光流和深度光流的提取,与第(2)部分中的方法相似,同样可以分别获得全局和局部的RGB光流图片和全局和局部的深度光流图片,并且利用VGG16卷积神经网络对其进行分类,最终获得基于全局和局部的RGB光流的手势分类得分SRGB-f-g和SRGB-f-l,和基于全局和局部的深度光流的手势分类得分SDepth-f-g和Sdepth-f-l
(4)多模态的手势分类得分融合
在获得5种不同的数据模态(骨骼、RGB图、深度图、RGB光流图和深度光流图)的全局和局部手势分类得分Ss-g,Ss-l,SRGB-g,SRGB-l,SDepth-g,SDepth-l,SRGB-f-g,SRGB-f-l,SDepth-f-g和Sdepth-f-l。基于以上的手势分类得分进行平均,并且利用softmax归一化函数进行类别得分的归一化,最终获得不同手势类别的概率。
综上,本技术方案利用RGB-D的图片数据对手势及人体的骨骼进行估计,获得骨骼数据的特征表示。并且根据估计的骨骼位置,在RGB,Depth和光流的数据中提取相应的目标区域,如手、肘和肩等区域,构造局部的RGB,Depth和光流的数据表达。最后根据每个模态的全局和局部的表达对手势计算类别得分,最终将多个模态类别得分进行综合从而得到基于多模态的手势分类方法。通过多模态特征全局描述和局部描述的结合,本技术方案有效地提升了手势识别的准确率,使之能够在现实生活场景中进行一定程度的应用。
同时,本发明可以提供基于摄像头输入手势识别服务。用户可以在摄像头捕捉到的范围内进行与计算机***的手势交互行为,以完成如智能家居的手势控制操作,或者是计算机的手势交互等,具有广泛的应用场景。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,除了上述说明的全局-局部多模态手势方式,其他的利用本文提出的基于骨骼点对RGB图、深度图和光流图的局部数据表达的构造也在本专利保护范围之内;同时,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于全局-局部RGB-D多模态的手势识别方法,其特征在于,包括下述步骤:
S1、骨骼序列生成及基于骨骼数据的全局-局部手势识别:
给定输入的RGB-D视频图片,利用多人姿态估计方法估计出每帧图片中人体骨骼的坐标位置,并根据整个视频获得的上半身的骨骼点,利用长短时记忆网络对上半身的骨骼点进行特征进行时序建模和分类,得到基于全局骨骼的手势分类得分Ss-g
S2、基于全局-局部的RGB-D模态手势识别:
对于RGB数据和深度数据的全局手势表示,首先分别将T帧的RGB和T帧深度图在通道沿时间进行堆叠,分别得到堆叠后的RGB图IRGB和T帧深度图IDepth,并且对VGG16卷积神经网络的输入通道进行改进,使其能够接受对应通道数目的数据输入;通过卷积神经网络的特征提取处理,分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征xRGB-g和全局深度特征和xDepth-g;最后,利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分SRGB-g和全局的深度手势分类得分SDepth-g
S3、基于全局-局部的RGB光流和深度光流模态手势识别;
分别在RGB视频数据和深度视频数据中提取光流信号,从而分别获得RGB光流和深度光流图片数据,光流是一种记录像素运动的方式,其主要记录了每个像素沿时间帧之间的运动方向和强度;
S4、多模态的手势分类得分融合;
在获得骨骼、RGB图、深度图、RGB光流图和深度光流图5种不同的数据模态的全局和局部手势分类得分Ss-g,Ss-l,SRGB-g,SRGB-l,SDepth-g,SDepth-l,SRGB-f-g,SRGB-f-l,SDepth-f-g和Sdepth-f-l后;基于以上的手势分类得分进行平均,并且利用归一化函数进行类别得分的归一化,最终获得不同手势类别的概率。
2.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S1中,还包括下述对手势做进一步的描述的步骤,具体为:
获取手部、肘部和肩部的骨骼点对骨骼数据进行局部描述,同样利用长短时记忆网络对获得的局部骨骼数据进行时序建模和分类,得到基于局部骨骼的手势分类得分Ss-l
3.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S2中,局部RGB特征xRGB-l和局部深度特征和xDepth-l的提取采用下述方法:
首先,通过将左右手、左右肘部和左右肩部对应的RGB图和深度图区域裁剪;
其次,将裁剪后的图片拼合成新的图片数据;
最后,根据拼接后得到的RGB图和深度图,同样先通过时间堆叠成多通道图片,再利用VGG16卷积神经网络进行特征提取和分类,最终获得基于局部RGB图和局部深度图的手势分类得分SRGB-l和SDepth-l
4.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S3中,利用TV-L1光流算法对光流图片进行计算,通过对RGB光流和深度光流的提取,分别获得全局和局部的RGB光流图片和全局和局部的深度光流图片,并且利用VGG16卷积神经网络对其进行分类,最终获得基于全局和局部的RGB光流的手势分类得分SRGB-f-g和SRGB-f-l,和基于全局和局部的深度光流的手势分类得分SDepth-f-g和Sdepth-f-l
5.根据权利要求1所述的基于全局-局部RGB-D多模态的手势识别方法,其特征在于,步骤S4中,所述归一化函数采用softmax归一化函数。
CN201810216977.5A 2018-03-16 2018-03-16 基于全局-局部rgb-d多模态的手势识别方法 Active CN108388882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810216977.5A CN108388882B (zh) 2018-03-16 2018-03-16 基于全局-局部rgb-d多模态的手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810216977.5A CN108388882B (zh) 2018-03-16 2018-03-16 基于全局-局部rgb-d多模态的手势识别方法

Publications (2)

Publication Number Publication Date
CN108388882A true CN108388882A (zh) 2018-08-10
CN108388882B CN108388882B (zh) 2021-09-21

Family

ID=63068059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810216977.5A Active CN108388882B (zh) 2018-03-16 2018-03-16 基于全局-局部rgb-d多模态的手势识别方法

Country Status (1)

Country Link
CN (1) CN108388882B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409246A (zh) * 2018-09-30 2019-03-01 中国地质大学(武汉) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109685797A (zh) * 2018-12-25 2019-04-26 北京旷视科技有限公司 骨骼点检测方法、装置、处理设备及存储介质
CN110135237A (zh) * 2019-03-24 2019-08-16 北京化工大学 一种手势识别方法
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110569779A (zh) * 2019-08-28 2019-12-13 西北工业大学 基于行人局部和整体属性联合学习的行人属性识别方法
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及***
CN111814626A (zh) * 2020-06-29 2020-10-23 中南民族大学 一种基于自注意力机制的动态手势识别方法和***
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质
CN113269068A (zh) * 2021-05-18 2021-08-17 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113297955A (zh) * 2021-05-21 2021-08-24 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113469018A (zh) * 2021-06-29 2021-10-01 中北大学 基于rgb与三维骨骼的多模态交互行为识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130294651A1 (en) * 2010-12-29 2013-11-07 Thomson Licensing System and method for gesture recognition
US20140210704A1 (en) * 2013-01-29 2014-07-31 Wistron Corporation Gesture recognizing and controlling method and device thereof
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130294651A1 (en) * 2010-12-29 2013-11-07 Thomson Licensing System and method for gesture recognition
US20140210704A1 (en) * 2013-01-29 2014-07-31 Wistron Corporation Gesture recognizing and controlling method and device thereof
CN103970264A (zh) * 2013-01-29 2014-08-06 纬创资通股份有限公司 手势辨识与控制方法及其装置
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIGUANG MIAO 等: "Multimodal Gesture Recognition Based on the ResC3D Network", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW)》 *
陈克虎: "融合RGB_D视频中多模态特征的人体行为识别", 《中国优秀硕士学问论文全文数据库信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409246B (zh) * 2018-09-30 2020-11-27 中国地质大学(武汉) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
CN109409246A (zh) * 2018-09-30 2019-03-01 中国地质大学(武汉) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109685797A (zh) * 2018-12-25 2019-04-26 北京旷视科技有限公司 骨骼点检测方法、装置、处理设备及存储介质
CN110135237A (zh) * 2019-03-24 2019-08-16 北京化工大学 一种手势识别方法
CN110135237B (zh) * 2019-03-24 2021-11-26 北京化工大学 一种手势识别方法
CN110210383A (zh) * 2019-05-31 2019-09-06 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110210383B (zh) * 2019-05-31 2021-08-17 北京工业大学 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110399850B (zh) * 2019-07-30 2021-10-15 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110569779A (zh) * 2019-08-28 2019-12-13 西北工业大学 基于行人局部和整体属性联合学习的行人属性识别方法
CN110569779B (zh) * 2019-08-28 2022-10-04 西北工业大学 基于行人局部和整体属性联合学习的行人属性识别方法
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及***
CN111814626B (zh) * 2020-06-29 2021-01-26 中南民族大学 一种基于自注意力机制的动态手势识别方法和***
CN111814626A (zh) * 2020-06-29 2020-10-23 中南民族大学 一种基于自注意力机制的动态手势识别方法和***
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质
CN113269068A (zh) * 2021-05-18 2021-08-17 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113269068B (zh) * 2021-05-18 2022-04-22 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113297955A (zh) * 2021-05-21 2021-08-24 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113469018A (zh) * 2021-06-29 2021-10-01 中北大学 基于rgb与三维骨骼的多模态交互行为识别方法
CN113469018B (zh) * 2021-06-29 2024-02-23 中北大学 基于rgb与三维骨骼的多模态交互行为识别方法

Also Published As

Publication number Publication date
CN108388882B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN108388882A (zh) 基于全局-局部rgb-d多模态的手势识别方法
US10657652B2 (en) Image matting using deep learning
US11455495B2 (en) System and method for visual recognition using synthetic training data
US9547908B1 (en) Feature mask determination for images
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
CN102332095B (zh) 一种人脸运动跟踪方法和***以及一种增强现实方法
US8692830B2 (en) Automatic avatar creation
Liu et al. Real-time robust vision-based hand gesture recognition using stereo images
WO2016011834A1 (zh) 一种图像处理方法及***
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN110413816A (zh) 彩色草图图像搜索
WO2024001095A1 (zh) 面部表情识别方法、终端设备及存储介质
WO2022267653A1 (zh) 图像处理方法、电子设备及计算机可读存储介质
Gonzalez-Sosa et al. Enhanced self-perception in mixed reality: Egocentric arm segmentation and database with automatic labeling
KR20230085931A (ko) 얼굴 이미지에서 색상을 추출하기 위한 방법 및 시스템
JP2023546607A (ja) 画像処理の方法、装置、デバイス及びコンピュータプログラム
CN114723888A (zh) 三维发丝模型生成方法、装置、设备、存储介质及产品
CN110390724B (zh) 一种带有实例分割的slam方法
Zeng et al. Deep recognition of vanishing-point-constrained building planes in urban street views
CN109166172B (zh) 服装模型的构建方法、装置、服务器和存储介质
CN110766645A (zh) 基于人物识别与分割的目标人物复现图生成方法
CN111080748B (zh) 基于互联网的图片自动合成***
CN117115917A (zh) 基于多模态特征融合的教师行为识别方法、设备以及介质
Patterson et al. Landmark-based re-topology of stereo-pair acquired face meshes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant