CN116543452A - 手势识别、手势交互方法及装置 - Google Patents
手势识别、手势交互方法及装置 Download PDFInfo
- Publication number
- CN116543452A CN116543452A CN202310363839.0A CN202310363839A CN116543452A CN 116543452 A CN116543452 A CN 116543452A CN 202310363839 A CN202310363839 A CN 202310363839A CN 116543452 A CN116543452 A CN 116543452A
- Authority
- CN
- China
- Prior art keywords
- gesture
- key point
- point data
- hand key
- gesture recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000003993 interaction Effects 0.000 title claims abstract description 72
- 230000006870 function Effects 0.000 claims abstract description 31
- 238000010606 normalization Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000033001 locomotion Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 210000003811 finger Anatomy 0.000 description 24
- 210000002569 neuron Anatomy 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 5
- 244000060701 Kaempferia pandurata Species 0.000 description 4
- 235000016390 Uvaria chamae Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000003813 thumb Anatomy 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003238 somatosensory effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000203475 Neopanax arboreus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种手势识别、手势交互方法及装置,手势识别方法包括:确定待识别手部关键点数据;将所述待识别手部关键点数据输入手势识别模型,得到所述待识别手部关键点数据对应的目标手势类别;其中,所述手势识别模型是基于样本手部关键点数据以及所述样本手部关键点数据对应的手势类别标签训练得到的,所述样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。本发明能够实现准确且快速的手势识别,还可以实现多种功能的人机交互,具有较高的稳定性和鲁棒性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种手势识别、手势交互方法及装置。
背景技术
裸眼3D显示技术可以通过立体显示设备将具有空间深度信息的三维立体图像再现出来,观看者可以在不佩戴任何辅助设备的前提下通过裸眼观测到立体成像,大大降低了三维立体显示用户端的观测难度,因此,裸眼3D显示技术被认为是未来显示领域的重要发展方向。在与裸眼3D显示器交互的过程中,键盘和鼠标等传统交互方式难以满足用户进行信息交换的需求和更加新颖的体验,新型交互方式逐渐成为优先选择,如语音交互,眼动跟踪,手势交互等。由于人与人之间能通过手势能够传达大量的信息,实现高速的通信交互,因此,手势交互是3D光场的重要交互技术,手势识别也是人机交互领域专家和学者重点研究内容。
传统的手势识别方法常采用RGBD图像序列通过深度学习分类手势,然而该方法存在图片处理的时间较长,图像清晰度不高等方面的问题,使得传统方法无法保证复杂手势的识别准确率,这对于后续基于手势识别结果进行的裸眼3D光场人机交互存在负面影响。
发明内容
本发明提供一种手势识别、手势交互方法及装置,用以解决现有技术中复杂手势识别准确率不高以及人机交互困难的缺陷,实现准确且快速的手势识别,还可以实现多种功能的人机交互,具有较高的稳定性和鲁棒性。
本发明提供一种手势识别方法,包括:
确定待识别手部关键点数据;
将所述待识别手部关键点数据输入手势识别模型,得到所述待识别手部关键点数据对应的目标手势类别;
其中,所述手势识别模型是基于样本手部关键点数据以及所述样本手部关键点数据对应的手势类别标签训练得到的,所述样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
根据本发明提供的一种手势识别方法,确定所述样本手部关键点数据,包括:
确定目标坐标系;
基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到所述样本手部关键点数据。
根据本发明提供的一种手势识别方法,所述基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到所述样本手部关键点数据,包括:
基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到归一化手部关键点数据;
获取各手势类别的归一化手部关键点数据的类内数据差异,将所述类内数据差异小于等于第一阈值的归一化手部关键点数据确定为所述样本手部关键点数据。
根据本发明提供的一种手势识别方法,所述基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到归一化手部关键点数据,包括:
获取所述初始样本手部关键点数据的掌心关键点、掌心方向向量和手指方向向量;
将所述掌心关键点位移至所述目标坐标系的原点,并将所述掌心方向向量和所述手指方向向量旋转至所述目标坐标系的坐标轴所在方向,得到所述归一化手部关键点数据。
根据本发明提供的一种手势识别方法,所述手势识别模型通过如下方式训练得到:
确定多层感知器神经网络;
将所述样本手部关键点数据输入至所述多层感知器神经网络,得到所述样本手部关键点数据对应的预测手势类别标签;
根据所述手势类别标签和所述预测手势类别标签,更新所述多层感知器神经网络的模型参数,以训练得到所述手势识别模型。
本发明还提供一种手势交互方法,包括:
获取待识别手部关键点数据,并基于所述手势识别方法确定所述待识别手部关键点数据对应的目标手势类别;
基于预定义的手势类别和人机交互功能的对应关系,确定所述目标手势类别对应的目标人机交互功能。
本发明还提供一种手势识别装置,包括:
采集模块,用于确定待识别手部关键点数据;
识别模块,用于将所述待识别手部关键点数据输入手势识别模型,得到所述待识别手部关键点数据对应的目标手势类别;
其中,所述手势识别模型是基于样本手部关键点数据以及所述样本手部关键点数据对应的手势类别标签训练得到的,所述样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
根据本发明提供的一种手势识别装置,所述采集模块采用体感控制器,所述待识别手部关键点数据包括手部关键点的三维坐标和手部瞬时运动方向向量。
本发明还提供一种手势交互装置,包括:
手势识别模块,用于获取待识别手部关键点数据,并基于所述手势识别方法确定所述待识别手部关键点数据对应的目标手势类别;
手势交互模块,用于基于预定义的手势类别和人机交互功能的对应关系,确定所述目标手势类别对应的目标人机交互功能。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述手势识别方法或所述手势交互方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述手势识别方法或所述手势交互方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述手势识别方法或所述手势交互方法。
本发明提供的手势识别、手势交互方法及装置,通过采集手部关键点数据取代传统的图像,可以提高手势数据和手势分类识别的准确性和鲁棒性。同时,由于手势识别模型是样本手部关键点数据以及所述样本手部关键点数据对应的手势类别标签通过训练得到的,因此手势识别模型对于复杂手势数据具有很好的识别效果。此外,训练时使用的样本手部关键点数据是是初始样本手部关键点数据进行位姿归一化后获得的,能够有效提高手势分类识别的准确性和鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的手势识别方法的流程示意图;
图2是本发明实施例提供的MLP神经网络深度学习的原理示意图;
图3是本发明实施例提供的手势识别装置的结构示意图;
图4是本发明实施例提供的手势交互方法的流程示意图;
图5是本发明实施例提供的光场显示与人机交互示意图;
图6是本发明实施例提供的手势识别装置的结构示意图;
图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明的手势识别方法,如图1所示,本发明实施例公开了一种手势识别方法,至少包括如下步骤:
步骤101、确定待识别手部关键点数据;
步骤102、将待识别手部关键点数据输入手势识别模型,得到待识别手部关键点数据对应的目标手势类别;
其中,手势识别模型是基于样本手部关键点数据以及样本手部关键点数据对应的手势类别标签训练得到的,样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
需要说明的是,待识别手部关键点数据是通过体感控制器(Leap Motion)采集的,体感控制器可以在有效可识别范围内采集人体手部骨骼关键点的三维坐标以及手部在采集设备采样时的瞬时运动方向。瞬时运动方向具体是指手部瞬时运动方向向量。体感控制器可追踪双手10只手指的关键点数据,具体的,每只手的骨骼关键点的三维坐标包括手腕中心点,拇指近节指骨、中节指骨、远节指骨末端,食指掌骨、近节指骨、中节指骨、远节指骨末端,中指掌骨、近节指骨、中节指骨、远节指骨末端,无名指掌骨、近节指骨、中节指骨、远节指骨末端,小拇指掌骨、近节指骨、中节指骨和远节指骨末端等的关键点三维坐标。作为示例的,手部瞬时运动方向向量可以包括每个手上并获得手掌掌心向下以及手掌掌心到中指指根的方向向量。
初始样本手部关键点数据中,由于手势采集位置和初始旋转姿态角度的不同,可能会导致同一种手势类别的数据差异很大,如果直接将这样的数据送入神经网络进行深度学习识别手势,会导致对于某一种手势的特征学习不充分,无法得到准确的深度学习手势识别结果。而本发明实施例的手势识别模型采用传统神经网络模型作为基础模型,并基于大量样本手部关键点数据训练得到,由于样本关键点数据是初始样本手部关键点数据进行位姿归一化后获得的,因此用于训练模型的数据是经过位姿归一化后的有效输入,大大降低了每个手势类别标签下数据的差别,有效提高输入训练数据的可靠性以及模型识别精度。
由于本发明采集到的数据为手部关键点数据,因此基于所有的关键点位置可以确定当前采集数据对应的手势位姿,在本发明实施例中,位姿统一化是指将初始样本手部关键点数据对应的各位姿统一在同一个坐标系中,减小因采集差异而造成的手势差异。输入待识别手部关键点数据至训练好的手势识别模型后,输出检测到的目标手势类型,然后可以将该目标手势类型送入光场应用于光场人机交互领域。
另外,需要说明的是,本发明实施例定义手势为人手产生的各种姿态和动作,手势识别模型主要针对静态手势对应的姿态进行识别。手势类别可以是常用人机交互手势,例如握拳和五指张开等手势。还可以是使用者为了适应复杂人机交互场景定义的自定义手势,例如C字型手势、伸出某一个手指等。
本发明实施例的手势识别方法,相比于传统方法采集手势图片进行图像识别从而获得手势的类别,通过采集手部关键点数据获得手势各关键点的三维信息,不需要大量图片做训练数据集,手势关键点数据的数据量小,可以有效提升模型训练的速度。同时,针对复杂手势,本发明具有更好的识别准确度,可以广泛应用于后续的人机交互场景中。
在一些实施例中,确定样本手部关键点数据,包括:
确定目标坐标系;
基于目标坐标系对初始样本手部关键点数据进行位姿归一化,得到样本手部关键点数据。
需要说明的是,初始样本手部关键点数据可以通过调用现有数据库获得,也可以通过人工采集初始样本手部关键点数据并自定义其对应的不同手势类别标签获得。初始样本手部关键点数据在采集时,一组初始样本手部关键点对应一个手势,而目标坐标系是以采集到的任意一个手势对应的初始样本手部关键点确定的,例如可以是采集到的第一个手势对应的初始样本手部关键点所在坐标系。基于目标坐标系进行位姿归一化是指,将每个手势对应的初始样本手部关键点数据统一至目标坐标系中,这样可以避免每个手势之间因采集空间位置差异导致的误差。
具体的,目标坐标系以该组中初始样本手部关键点中掌心位置的关键点作为坐标原点,由于每个手上并获得掌心方向向量和手指指根方向向量保持垂直关系,掌心方向向量为垂直于手掌平面的方向向量,因此将掌心方向向量和手指指根方向向量所在方向作为目标坐标系的两个坐标轴,获得目标坐标系。
本发明实施例的手势识别方法,可以通过设置目标坐标系,将采集到的各个手势的初始样本手部关键点数据统一至同一个坐标系下实现位姿的归一化,减小训练数据的组内波动提高模型识别精度。
在一些实施例中,基于目标坐标系对初始样本手部关键点数据进行位姿归一化,得到样本手部关键点数据,包括:
基于目标坐标系对初始样本手部关键点数据进行位姿归一化,得到归一化手部关键点数据;
获取各手势类别的归一化手部关键点数据的类内数据差异,将类内数据差异小于等于第一阈值的归一化手部关键点数据确定为样本手部关键点数据。
需要说明的是,归一化手部关键点数据虽然经过了归一化,但是其中可能还会包含因采集时抖动或者采集的手势姿势变形的数据。为了避免这些数据影响模型训练结果,因此,本发明实施例会在获取训练所需的样本数据前,通过设置第一阈值对这些不符合归一化要求的阈值进行筛除。第一阈值是每种手势类别的差异最大值。
作为示例性的,对于任一种手势,可以计算该种手势对应的多组归一化手部关键点数据中,每两组数据之间相同位置关键点的坐标差异,也可以计算该种手势对应的多组归一化手部关键点数据分别与该手势的标准关键点数据之间相同位置关键点的坐标差异。并取每组数据所有关键点的坐标差异平均值,将坐标差异平均值作为该手势类别的类内数据差异与第一阈值进行对比,若该手势类别的类内数据差异小于等于第一阈值,则将该手势类别的所有组归一化手部关键点数据确定为该手势类别的样本手部关键点数据。依次对所有手势类别的归一化手部关键点数据利用第一阈值进行筛选,最终得到样本手部关键点数据。
具体的,第一阈值可以设置为5mm~1cm。
本发明实施例的手势识别方法,通过设置第一阈值对归一化手部关键点数据进行进一步筛选,最终得到的样本手部关键点数据每个手势类别内数据波动更小,并能有效提升后续模型训练后分类的精度。
在一些实施例中,基于目标坐标系对初始样本手部关键点数据进行位姿归一化,得到归一化手部关键点数据,包括:
获取初始样本手部关键点数据的掌心关键点、掌心方向向量和手指方向向量;
将掌心关键点位移至目标坐标系的原点,并将掌心方向向量和手指方向向量旋转至目标坐标系的坐标轴所在方向,得到归一化手部关键点数据。
需要说明的是,由于初始样本手部关键点数据中,包含所有关键点的三维坐标信息,以及掌心方向向量和手指方向向量,其中,掌心方向向量包括掌心关键点处垂直于掌心平面向下的方向向量,手指方向向量包括从掌心关键点到同一手掌中任意一根手指指根关键点的方向向量。一般情况下,掌心方向向量和手指方向向量互相垂直。本发明实施例通过位移变换和旋转变换对采集得到的初始样本手部关键点数据进行归一化。由于采集得到的关键点骨骼数据全都基于同一右手笛卡尔坐标系,因此,通过对空间中的手势进行位姿变换,将同一手势的数据进行约束,从而达到对手部关键点骨骼数据预处理的效果。
具体的,首先将每种手势对应的所有关键点进行坐标位移,经过位移后,空间中所有的手势都在目标坐标系(XYZ)的原点附近,并以掌心关键点与坐标系原点重合作为位移结束的标志。三维坐标点位置调整结束,但由于姿态并未得到调整,在该空间内,同一手势仍然保留不同姿态,数据之间的显著性差异并未降低,需要继续对手势旋转进行姿态变化处理。本发明实施例是将掌心方向向量和手指方向向量旋转至目标坐标系的坐标轴所在的同一方向,例如,将掌心方向向量旋转至X轴正轴方向,将手指方向向量旋转至Z轴正轴方向。或将掌心方向向量旋转至X轴负轴方向,将手指方向向量旋转至Y轴正轴方向
本发明实施例的手势识别方法,令初始样本手部关键点数据经过位移变化和姿态变换,使得同一个手势对应的归一化手部关键点数据的掌心关键点坐标位于目标坐标系的坐标轴原点,同一个手势的多组数据中,除掌心外其余关键点骨骼数据均在小范围内波动,实现同一种手势的归一化,采集得到的同一种手势数据中,手势与手势之间的显著性差异消失,提升了训练数据的可靠性。
在一些实施例中,手势识别模型通过如下方式训练得到:
确定多层感知器神经网络;
将样本手部关键点数据输入至多层感知器神经网络,得到样本手部关键点数据对应的预测手势类别标签;
根据手势类别标签和预测手势类别标签,更新多层感知器神经网络的模型参数,以训练得到手势识别模型。
需要说明的是,本发明实施例的多层感知器(Multilayer Perceptron,,MLP)神经网络如图2所示,其中Input layer是网络的输入层,负责输入数据,Hidden layer是网络的隐藏层,与输入层全连接,模拟神经元,Output layer是网络的输出层,输出分类结果。P0是样本手部关键点数据中的任一个关键点。本发明实施例的MLP神经网络通过学习数据点之间的跳变规律关系,以该数据跳变关系视为手势特征,最终用于手势分类识别。
由于神经网络是对动物神经元***的仿真和模拟,因此基于生物神经元模型可得到多层感知器MLP的基本结构,最典型的MLP包括三层:输入层、隐藏层和输出层。MLP神经网络不同层之间是全连接的,即上一层的任何一个神经元与下一层的所有神经元都有连接。MLP由多个的节点层所组成,每一层都完全连接到下一层,除了输入节点,每个节点都是一个带有非线性激活函数的神经元,多层感知器与人类神经元工作原理相似,可以模拟人类学习时神经元的变化,它首先进行学习,然后使用权重存储数据,并使用算法来调整权重并减少训练过程中的偏差,最终达到数据预测的效果。
具体的,本发明实施例中MLP神经网络的手势输出层节点数目为识别手势的种类数,可以通过用户设置。每个手势均采集其中的手部关键点,每个关键点可以被展开成一组包含三个x,y,z的集合,所有采集得到的手部关键点的x,y,z集合总数对应神经网络InputLayer输入层节点数,Output Layer输出层节点数等于需要进行分类识别的手势种类数。
本发明实施例的手势识别方法通过对手势数据进行归一化处理,能够提升训练数据的可靠性,从而实现后续MLP神经网络的特征学习。
下面对本发明提供的手势识别装置进行描述,下文描述的手势识别装置与上文描述的手势识别方法可相互对应参照。如图3所示,本发明实施例的手势识别装置,包括:
采集模块301,用于确定待识别手部关键点数据;
识别模块302,用于将待识别手部关键点数据输入手势识别模型,得到待识别手部关键点数据对应的目标手势类别;
其中,手势识别模型是基于样本手部关键点数据以及样本手部关键点数据对应的手势类别标签训练得到的,样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
本发明实施例的手势识别装置,相比于传统方法采集手势图片进行图像识别从而获得手势的类别,通过采集手部关键点数据获得手势各关键点的三维信息,针对复杂手势,本发明具有更好的识别准确度。此外,训练时使用的样本手部关键点数据是是初始样本手部关键点数据进行位姿归一化后获得的,能够有效提高手势分类识别的准确性和鲁棒性。
在一些实施例中,采集模块301采用体感控制器,待识别手部关键点数据包括手部关键点的三维坐标和手部瞬时运动方向向量。
需要说明的是,体感控制器可以采集人体骨骼关键点的三维信息,相比于传统图像采集方法获得的RGBD图像,在有阴影和遮挡的情况下能够采集到更准确的手势信息。
同时,传统的手势识别装置虽然也有采用体感控制器进行手势识别的方案,但是往往是通过采集到手势中手指角度等信息实现不同手势识别,在识别其不具备时需要提前对手势进行定义,自定义过程中很难处理手指空间结构复杂的手势,而本发明的装置在采集模块301后还设置有识别模块302,通过深度学习的方法进行各种手势的识别,可以避开传统单纯利用体感控制器进行手势识别时需要对手势进行自定义的繁琐步骤,实现对复杂手势的准确分类。
本发明实施例还公开了一种手势交互方法,如图4所示,至少包括如下步骤:
步骤401、获取待识别手部关键点数据,并基于上述实施例的手势识别方法确定待识别手部关键点数据对应的目标手势类别;
步骤402、基于预定义的手势类别和人机交互功能的对应关系,确定目标手势类别对应的目标人机交互功能。
需要说明的是,预定义的手势类别和人机交互功能的对应关系是用户提前设定并预先存储在控制器中的,通常情况下手势类别和人机交互功能一一对应,如图5所示,可以定义第一行的握拳手势类型对应3D模型A的展示功能,定义第二行的C字型手势类型对应3D模型B的展示功能,除此之外还可以定义其他手势类型,例如五指张开为对应缩放功能等。在获取待识别手部关键点数据后,本方法通过深度学习方式进行手势识别,并将识别结果送入光场,应用于光场人机交互中。
具体的,步骤401包括:
获取待识别手部关键点数据,并输入手势识别方法确定的手势识别模型,通过手势识别模型的输出层将目标手势类别以标签的形式输出;其中,不同手势对应不同标签。
步骤402包括:
通过数据传递将标签信息对应的目标手势类别输入光场设备;
光场设备接收到标签信息后,与提前设定标签表对比,光场设备根据不同的标签触发不同人机交互功能;
其中,标签表中存储手势类别与人机交互功能的对应关系。
本发明实施例的手势交互方法,针对现有技术中通过图像识别手势方案中图片处理的时间较长,同时受限于采集设备得到的图像清晰度等方面的问题。设计了高精度的手势识别方法得到目标手势类别,提高对于后续的裸眼3D光场人机交互的功能扩展度和识别准确度的影响。
下面对本发明提供的手势交互装置进行描述,下文描述的手势交互装置与上文描述的手势交互方法可相互对应参照。如图6所示,本发明实施例的手势交互装置,包括:
手势识别模块601,用于获取待识别手部关键点数据,并基于上述实施例的手势识别方法确定待识别手部关键点数据对应的目标手势类别;
手势交互模块602,用于基于预定义的手势类别和人机交互功能的对应关系,确定目标手势类别对应的目标人机交互功能。
本发明实施例的手势交互装置,针对现有技术中通过图像识别手势方案中图片处理的时间较长,同时受限于采集设备得到的图像清晰度等方面的问题。设计了高精度的手势识别方法得到目标手势类别,提高对于后续的裸眼3D光场人机交互的功能扩展度和识别准确度的影响。
在一些实施例中,装置还包括光场设备,例如可以选用光场显示器,可实现人机交互功能。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行手势识别方法,该方法包括:
确定待识别手部关键点数据;
将待识别手部关键点数据输入手势识别模型,得到待识别手部关键点数据对应的目标手势类别;
其中,手势识别模型是基于样本手部关键点数据以及样本手部关键点数据对应的手势类别标签训练得到的,样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
或执行手势交互方法,该方法包括:
获取待识别手部关键点数据,并基于任一种手势识别方法确定待识别手部关键点数据对应的目标手势类别;
基于预定义的手势类别和人机交互功能的对应关系,确定目标手势类别对应的目标人机交互功能。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的手势识别方法,该方法包括:
确定待识别手部关键点数据;
将待识别手部关键点数据输入手势识别模型,得到待识别手部关键点数据对应的目标手势类别;
其中,手势识别模型是基于样本手部关键点数据以及样本手部关键点数据对应的手势类别标签训练得到的,样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
或执行手势交互方法,该方法包括:
获取待识别手部关键点数据,并基于任一种手势识别方法确定待识别手部关键点数据对应的目标手势类别;
基于预定义的手势类别和人机交互功能的对应关系,确定目标手势类别对应的目标人机交互功能。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的手势识别方法,该方法包括:
确定待识别手部关键点数据;
将待识别手部关键点数据输入手势识别模型,得到待识别手部关键点数据对应的目标手势类别;
其中,手势识别模型是基于样本手部关键点数据以及样本手部关键点数据对应的手势类别标签训练得到的,样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
或执行手势交互方法,该方法包括:
获取待识别手部关键点数据,并基于任一种手势识别方法确定待识别手部关键点数据对应的目标手势类别;
基于预定义的手势类别和人机交互功能的对应关系,确定目标手势类别对应的目标人机交互功能。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种手势识别方法,其特征在于,包括:
确定待识别手部关键点数据;
将所述待识别手部关键点数据输入手势识别模型,得到所述待识别手部关键点数据对应的目标手势类别;
其中,所述手势识别模型是基于样本手部关键点数据以及所述样本手部关键点数据对应的手势类别标签训练得到的,所述样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
2.根据权利要求1所述的手势识别方法,其特征在于,确定所述样本手部关键点数据,包括:
确定目标坐标系;
基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到所述样本手部关键点数据。
3.根据权利要求2所述的手势识别方法,其特征在于,所述基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到所述样本手部关键点数据,包括:
基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到归一化手部关键点数据;
获取各手势类别的归一化手部关键点数据的类内数据差异,将所述类内数据差异小于等于第一阈值的归一化手部关键点数据确定为所述样本手部关键点数据。
4.根据权利要求3所述的手势识别方法,其特征在于,所述基于所述目标坐标系对所述初始样本手部关键点数据进行位姿归一化,得到归一化手部关键点数据,包括:
获取所述初始样本手部关键点数据的掌心关键点、掌心方向向量和手指方向向量;
将所述掌心关键点位移至所述目标坐标系的原点,并将所述掌心方向向量和所述手指方向向量旋转至所述目标坐标系的坐标轴所在方向,得到所述归一化手部关键点数据。
5.根据权利要求1至4任一所述的手势识别方法,其特征在于,所述手势识别模型通过如下方式训练得到:
确定多层感知器神经网络;
将所述样本手部关键点数据输入至所述多层感知器神经网络,得到所述样本手部关键点数据对应的预测手势类别标签;
根据所述手势类别标签和所述预测手势类别标签,更新所述多层感知器神经网络的模型参数,以训练得到所述手势识别模型。
6.一种手势交互方法,其特征在于,包括:
获取待识别手部关键点数据,并基于权利要求1至5的任一种所述手势识别方法确定所述待识别手部关键点数据对应的目标手势类别;
基于预定义的手势类别和人机交互功能的对应关系,确定所述目标手势类别对应的目标人机交互功能。
7.一种手势识别装置,其特征在于,包括:
采集模块,用于确定待识别手部关键点数据;
识别模块,用于将所述待识别手部关键点数据输入手势识别模型,得到所述待识别手部关键点数据对应的目标手势类别;
其中,所述手势识别模型是基于样本手部关键点数据以及所述样本手部关键点数据对应的手势类别标签训练得到的,所述样本手部关键点数据是初始样本手部关键点数据进行位姿归一化后获得的。
8.根据权利要求7所述的手势识别装置,其特征在于,所述采集模块采用体感控制器,所述待识别手部关键点数据包括手部关键点的三维坐标和手部瞬时运动方向向量。
9.一种手势交互装置,其特征在于,包括:
手势识别模块,用于获取待识别手部关键点数据,并基于权利要求1至5的任一种所述手势识别方法确定所述待识别手部关键点数据对应的目标手势类别;
手势交互模块,用于基于预定义的手势类别和人机交互功能的对应关系,确定所述目标手势类别对应的目标人机交互功能。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述手势识别方法或权利要求6所述的手势交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310363839.0A CN116543452A (zh) | 2023-04-06 | 2023-04-06 | 手势识别、手势交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310363839.0A CN116543452A (zh) | 2023-04-06 | 2023-04-06 | 手势识别、手势交互方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543452A true CN116543452A (zh) | 2023-08-04 |
Family
ID=87447955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310363839.0A Pending CN116543452A (zh) | 2023-04-06 | 2023-04-06 | 手势识别、手势交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543452A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118131915A (zh) * | 2024-05-07 | 2024-06-04 | 中国人民解放军国防科技大学 | 基于手势识别的人机交互方法、装置、设备和存储介质 |
-
2023
- 2023-04-06 CN CN202310363839.0A patent/CN116543452A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118131915A (zh) * | 2024-05-07 | 2024-06-04 | 中国人民解放军国防科技大学 | 基于手势识别的人机交互方法、装置、设备和存储介质 |
CN118131915B (zh) * | 2024-05-07 | 2024-07-12 | 中国人民解放军国防科技大学 | 基于手势识别的人机交互方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohandes et al. | Arabic sign language recognition using the leap motion controller | |
WO2013027091A1 (en) | Systems and methods of detecting body movements using globally generated multi-dimensional gesture data | |
Qi et al. | Computer vision-based hand gesture recognition for human-robot interaction: a review | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
CN108073851B (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
CN107832736B (zh) | 实时人体动作的识别方法和实时人体动作的识别装置 | |
CN111460976B (zh) | 一种数据驱动的基于rgb视频的实时手部动作评估方法 | |
CN111222486A (zh) | 手部姿态识别模型的训练方法、装置、设备及存储介质 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN116543452A (zh) | 手势识别、手势交互方法及装置 | |
Ansar et al. | Robust hand gesture tracking and recognition for healthcare via Recurent neural network | |
CN112990154B (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
Nayakwadi et al. | Natural hand gestures recognition system for intelligent hci: A survey | |
KR20230080938A (ko) | 컨볼루션 블록 어텐션 모듈을 이용한 동작 인식 및 분류 방법 및 장치 | |
Kajan et al. | Comparison of algorithms for dynamic hand gesture recognition | |
Xu et al. | A novel method for hand posture recognition based on depth information descriptor | |
John et al. | Hand gesture identification using deep learning and artificial neural networks: A review | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
Soroni et al. | Hand Gesture Based Virtual Blackboard Using Webcam | |
Dhamanskar et al. | Human computer interaction using hand gestures and voice | |
Karthik et al. | Survey on Gestures Translation System for Hearing Impaired People in Emergency Situation using Deep Learning Approach | |
Farouk | Principal component pyramids using image blurring for nonlinearity reduction in hand shape recognition | |
KR100457928B1 (ko) | 소그룹 기반 분류에 의한 수신호 인식 방법 및 이를기록한 기록매체 | |
CN113553884A (zh) | 手势识别方法、终端设备及计算机可读存储介质 | |
Maurya et al. | Analysis on hand gesture recognition using artificial neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |