CN113052112A - 基于混合神经网络的手势动作识别互动***及方法 - Google Patents
基于混合神经网络的手势动作识别互动***及方法 Download PDFInfo
- Publication number
- CN113052112A CN113052112A CN202110361015.0A CN202110361015A CN113052112A CN 113052112 A CN113052112 A CN 113052112A CN 202110361015 A CN202110361015 A CN 202110361015A CN 113052112 A CN113052112 A CN 113052112A
- Authority
- CN
- China
- Prior art keywords
- gesture
- neural network
- video
- data set
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000003993 interaction Effects 0.000 title abstract description 17
- 230000009471 action Effects 0.000 title abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 230000000306 recurrent effect Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 11
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于3D CNN和RNN混合神经网络的投影手势动作识别互动方法及***,首先通过深度相机获取手部的深度图像视频、彩色图像视频、和红外图像视频,将这些视频进行进行格式的统一,后将这些视频文件分组送入3DCNN(三维卷积神经网络)的网络进行视频的动作学习后输出图像特征,后需要用RNN(递归神经网络)网络进行循环训练,最终输出识别结果。本发明能够得到手部信息的深度信息,能够提升识别的准确率,在自己搭建的数据集上达到了最先进的性能,结合3DCNN和RNN混合神经网络,融合效果较以往CNN+RNN的算法效果有较大提升。
Description
技术领域
本发明属于图像识别技术领域,涉及基于混合神经网络的手势动作识别互动***及方法。
背景技术
近年来,随着人工智能的崛起,机器学习、深度学习卷起了计算机的浪潮。人机交互已经成为如今机器视觉领域研究的重中之重。带有人机交互功能的智能设备在市场中飞速发展。手势作为人们日常生活中最常用的人体交互方式,已经被应用到了许多的智能设备上。
手势和手势是人类交流的一种常见形式。因此,人类使用这种交流方式与机器进行互动也是很自然的。例如,简单交互的人机交互可以提高汽车的舒适性和安全性;简单的手势交互可以更方便的进行智能家居的交互;高识别精度的手势识别可以让VR\AR手势识别运行的更加流畅。
手势识别又被分为静态手势识别和动态手势识别。静态手势识别训练的样本为静态的图片。动态的手势识别训练的样本为动态的手部动作,即在实时的视频中检测到手部进行的动作。手势识别是解释人手动作的意义。现如今手势识别***中,许多研究人员已经提出了各种基于如深度相机、彩色相机、距离传感器、可穿戴惯性传感器或其他模态类型传感器数据进行手势识别技术。基于计算机视觉的手势识别中,有一部分是静态手势识别,这些方法只能还是别静态的手势,做手势识别时会显得不自然。在用于人机交互的真实***中,动态手势的自动检测和分类具有挑战性,因为(1)人们在做手势、识别和分类方面存在很大的差异;(2)***必须在线工作,以避免在执行手势和分类之间出现明显的延迟。
发明内容
为解决上述问题,本发明提供了一种基于3D CNN和RNN混合神经网络的投影手势动作识别互动方法及***,首先通过深度相机获取手部的深度图像视频、彩色图像视频、和红外图像视频,将这些视频进行进行格式的统一,后将这些视频文件分组送入3DCNN(三维卷积神经网络)的网络进行视频的动作学习后输出图像特征,后需要用RNN(递归神经网络)网络进行循环训练,最终输出识别结果。
为了达到上述目的,本发明提供如下技术方案:
基于3D CNN和RNN混合神经网络的投影手势动作识别方法,包括如下步骤:
步骤一,图像视频数据集采集
采用深度相机采集手部数据,创建数据集;
在模型输入时将RGB三通道的模型输入,转换为了RGB+HSV六通道的模型输入,HSV分别代表色调、饱和度、明度,其表达式如下:
max=max(R/255,G/255,B/255) (1)
min=min(R/255,G/255,B/255) (2)
V=max (5)
其中R、G、B为每帧图像的红绿蓝分量数值;
步骤二,采用三维卷积神经网络对数据集中的视频数据进行视频学习,输出图像特征。
步骤三,采用递归神经网络对步骤二输出的图像特征进行循环训练。
进一步的,所述步骤一包括如下子步骤:
1)使用深度相机在每一个手势场景都拍摄深度视频、彩***、红外视频各10段,数据集预设10个手势操作,分别为:手势A、手势B、手势C、手势D、手势E、手势F、手势G、手势H、手势I、手势J;
2)调节这些视频大小使其保持统一大小;
3)将上一步中得到的视频放入不同的文件夹中,生成手势标签文件。
4)将这些文件夹进行整合,完成数据集的创建。
进一步的,所述步骤二中三维卷积神经网络进行如下操作:
三维卷积神经网络对视频进行帧抽样,每秒抽取7帧图像作为网络输入;其中每帧提取5个通道信息,gray、gradient-x、gradient-y这三个通道的信息直接对每帧分别操作获取,optflow-x、(optflow-y)两个通道的信息则需要利用两帧的信息提取;
以上一层的输出作为输入,对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作,这一层采用了两种不同的3D卷积核;
进行max pooling操作,降采样之后的特征maps数量保持不变;
对之前分的两组特征maps分别采用7 6 3的卷积核进行操作,同样为了增加特征maps的数量,3D CNN采用了三种不同的卷积核分别对两组特征map进行卷积操作;
进行采样工作,对每个特征maps采用3*3的核进行降采样操作,对每个特征maps采用7*4的2D卷积核进行卷积操作。
基于3D CNN和RNN混合神经网络的投影手势动作识别***,包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络;其中,图像视频数据集采集模块用于采用深度相机采集手部数据;三维卷积神经网络用于对数据集中的视频数据进行视频学习输出图像特征;递归神经网络用于对三维卷积神经网络输出的图像特征进行循环训练。
与现有技术相比,本发明具有如下优点和有益效果:
本发明采用TOF深度相机采集手部数据,相比大部分公共手势数据集使用的RGB视频,深度图像和IR视频可以得到手部信息的深度信息。本发明引入了一种新的具有挑战性的多模态动态手势数据集,该数据集由深度、颜色和立体红外传感器捕获,在模型输入时将RGB三通道的模型输入,转换为了RGB+HSV六通道的模型输入,这样能够提升识别的准确率,为手势识别控制方案提供了保障。本发明在自己搭建的数据集上达到了最先进的性能,结合3DCNN和RNN混合神经网络,融合效果较以往CNN+RNN的算法效果有较大提升。本发明通过简单的交互操作使得手势识别更加有效简单,识别效果明显。
附图说明
图1为基于混合神经网络的手势动作识别互动方法流程示意图。
图2为图像视频数据集采集步骤示意图。
图3为3D CNN对图像序列(视频)采用3D卷积核进行卷积操作示意图。
图4为3D CNN架构示意图。
图5为简单的循环神经网络结构示意图。
图6为循环神经网络的输入输出原理示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的基于混合神经网络的手势动作识别互动方法,如图所示,包括如下步骤:
步骤一,图像视频数据集采集
相比大部分公共手势数据集使用的RGB视频,深度图像和IR视频可以得到手部信息的深度信息,本文采用TOF深度相机采集手部数据,采集步骤如图2所示,具体包括如下步骤:
1)使用深度相机在每一个手势场景都拍摄深度视频、彩***、红外视频各10段。数据集预设10个手势操作,分别为:手势A、手势B、手势C、手势D、手势E、手势F、手势G、手势H、手势I、手势J。
2)调节这些视频大小,使它们保持统一大小,本例中大小为640*420。
3)将上一步中得到的视频放入不同的文件夹中,生成手势标签文件。
4)将这些文件夹进行整合,完成数据集的创建。
为了增强模型识别的准确率,本发明在模型输入时将RGB三通道的模型输入,转换为了RGB+HSV六通道的模型输入,这样能够提升识别的准确率。HSV分别代表Hue色调,Saturation饱和度,Value明度。
max=max(R/255,G/255,B/255) (1)
min=min(R/255,G/255,B/255) (2)
V=max (5)
其中R、G、B为每帧图像的红绿蓝分量数值。
步骤二,采用3DCNN(三维卷积神经网络)的网络对数据集中的视频数据进行视频学习
传统的2DCNN对视频的每一帧图像分别利用CNN来进行识别,采用2D卷积核进行卷积操作,没有考虑到时间维度的帧间运动信息。使用3D CNN能更好的捕获视频中的时间和空间的特征信息,如图3所示,3D CNN对图像序列(视频)采用3D卷积核进行卷积操作。
图3中,进行卷积操作的时间维度为3,即对连续的三帧图像进行卷积操作,3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。在这个结构中,卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连,因此捕捉运动信息。
3D CNN非常适合于时空特征学习。与2D CNN相比,3D CNN能够通过3D卷积和3D池化操作更好地建模时间信息。在3D CNN中,卷积和池化操作在时空上执行,而在2D CNN中,它们仅在空间上完成。而3D卷积能保留输入信号的时间信息。3D CNN结构如图4所示。
3D CNN网络对视频进行帧抽样,每秒抽取7帧大小为60*40的图像作为网络输入。其中每帧提取5个通道信息,gray、gradient-x、gradient-y这三个通道的信息可以直接对每帧分别操作获取,optflow-x、(optflow-y)两个通道的信息则需要利用两帧的信息才能提取,因此H1层的特征maps数量:(7+7+7+6+6=33),特征maps的大小依然是60*40。
之后以上一层的输出作为输入,对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作。为了增加特征maps的个数,在这一层采用了两种不同的3D卷积核,因此C2层的特征maps数量为:((7-3)+1)*3+((6-30+1)*2)*2=23*2,特征maps的大小为:
((60-7)+1)*((40-7)+1)=54*34。
接下来进行max pooling操作,降采样之后的特征maps数量保持不变,所以S3层的特征maps数量保持为:23*2,特征maps的大小为:((54/2)*(34/2)=27*17。
接下来对之前分的两组特征maps分别采用7 6 3的卷积核进行操作,同样为了增加特征maps的数量,3D CNN采用了三种不同的卷积核分别对两组特征map进行卷积操作。C4层的特征maps数量:13*3*2=13*6,C4层的特征maps的大小为:((27-7)+1)*((17-6)+1)=21*12。
接下来需要将采样工作,对每个特征maps采用3*3的核进行降采样操作,此时每个maps的大小:7*4。对每个特征maps采用7*4的2D卷积核进行卷积操作,每个maps的大小:1*1。
本发明提出了一个使用3D CNN和连接主义时间分类(CTC)的网络。CTC使手势分类能够基于手势的核期间,而不需要明确的预分割。解决了检测手势准确率低的问题,和延迟严重的问题,这是手势交互的关键要素。
通过上述步骤进行视频的动作学习后输出图像特征。
步骤三,采用RNN(递归神经网络)网络对步骤二输出的图像特征进行循环训练
RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。
一个简单的循环神经网络如图5所示,由输入层、一个隐藏层和一个输出层组成。图中,x是一个向量,它表示输入层的值;s是一个向量,它表示隐藏层的值;U是输入层到隐藏层的权重矩阵,o也是一个向量,它表示输出层的值;V是隐藏层到输出层的权重矩阵。
图6为循环神经网络的输入输出原理,该图中X为数据输入,h(hidden state)用来提取特征并输出y,并传递向下一层,使得每个前一层都在后一层有体现。循环神经网络处理序列的方式是:遍历所有序列元素,并保存一个状态,其中包含与已查看内容相关的信息。RNN是一个for循环,它重复使用循环前一次迭代的计算结果。这样的结构使得我们可以有效的处理3D CNN提取的序列数据。
本步骤用RNN网络进行循环训练,最终输出识别结果。
本发明还提供了基于混合神经网络的手势动作识别互动***,包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络;其中,图像视频数据集采集模块用于采用深度相机采集手部数据,具体实现步骤一内容;三维卷积神经网络对数据集中的视频数据进行视频学习输出图像特征,具体实现步骤二内容,递归神经网络对三维卷积神经网络输出的图像特征进行循环训练,具体实现步骤三内容。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.基于3D CNN和RNN混合神经网络的投影手势动作识别方法,其特征在于,包括如下步骤:
步骤一,图像视频数据集采集
采用深度相机采集手部数据,创建数据集;
在模型输入时将RGB三通道的模型输入,转换为了RGB+HSV六通道的模型输入,HSV分别代表色调、饱和度、明度,其表达式如下:
max=max(R/255,G/255,B/255) (1)
min=min(R/255,G/255,B/255) (2)
V=max (5)
其中R、G、B为每帧图像的红绿蓝分量数值;
步骤二,采用三维卷积神经网络对数据集中的视频数据进行视频学习,输出图像特征。
步骤三,采用递归神经网络对步骤二输出的图像特征进行循环训练。
2.根据权利要求1所述的基于3D CNN和RNN混合神经网络的投影手势动作识别方法,其特征在于,所述步骤一包括如下子步骤:
1)使用深度相机在每一个手势场景都拍摄深度视频、彩***、红外视频各10段,数据集预设10个手势操作,分别为:手势A、手势B、手势C、手势D、手势E、手势F、手势G、手势H、手势I、手势J;
2)调节这些视频大小使其保持统一大小;
3)将上一步中得到的视频放入不同的文件夹中,生成手势标签文件。
4)将这些文件夹进行整合,完成数据集的创建。
3.根据权利要求1所述的基于3D CNN和RNN混合神经网络的投影手势动作识别方法,其特征在于,所述步骤二中三维卷积神经网络进行如下操作:
三维卷积神经网络对视频进行帧抽样,每秒抽取7帧图像作为网络输入;其中每帧提取5个通道信息,gray、gradient-x、gradient-y这三个通道的信息直接对每帧分别操作获取,optflow-x、(optflow-y)两个通道的信息则需要利用两帧的信息提取;
以上一层的输出作为输入,对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作,这一层采用了两种不同的3D卷积核;
进行max pooling操作,降采样之后的特征maps数量保持不变;
对之前分的两组特征maps分别采用7 6 3的卷积核进行操作,同样为了增加特征maps的数量,3D CNN采用了三种不同的卷积核分别对两组特征map进行卷积操作;
进行采样工作,对每个特征maps采用3*3的核进行降采样操作,对每个特征maps采用7*4的2D卷积核进行卷积操作。
4.基于3D CNN和RNN混合神经网络的投影手势动作识别***,其特征在于,包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络;其中,图像视频数据集采集模块用于采用深度相机采集手部数据;三维卷积神经网络用于对数据集中的视频数据进行视频学习输出图像特征;递归神经网络用于对三维卷积神经网络输出的图像特征进行循环训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361015.0A CN113052112B (zh) | 2021-04-02 | 2021-04-02 | 基于混合神经网络的手势动作识别互动***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361015.0A CN113052112B (zh) | 2021-04-02 | 2021-04-02 | 基于混合神经网络的手势动作识别互动***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113052112A true CN113052112A (zh) | 2021-06-29 |
CN113052112B CN113052112B (zh) | 2023-06-02 |
Family
ID=76517207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110361015.0A Active CN113052112B (zh) | 2021-04-02 | 2021-04-02 | 基于混合神经网络的手势动作识别互动***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052112B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010144050A1 (en) * | 2009-06-08 | 2010-12-16 | Agency For Science, Technology And Research | Method and system for gesture based manipulation of a 3-dimensional image of object |
CN107590432A (zh) * | 2017-07-27 | 2018-01-16 | 北京联合大学 | 一种基于循环三维卷积神经网络的手势识别方法 |
CN107679491A (zh) * | 2017-09-29 | 2018-02-09 | 华中师范大学 | 一种融合多模态数据的3d卷积神经网络手语识别方法 |
CN108334814A (zh) * | 2018-01-11 | 2018-07-27 | 浙江工业大学 | 一种基于卷积神经网络结合用户习惯性行为分析的ar***手势识别方法 |
CN109344701A (zh) * | 2018-08-23 | 2019-02-15 | 武汉嫦娥医学抗衰机器人股份有限公司 | 一种基于Kinect的动态手势识别方法 |
US10304208B1 (en) * | 2018-02-12 | 2019-05-28 | Avodah Labs, Inc. | Automated gesture identification using neural networks |
CN110532912A (zh) * | 2019-08-19 | 2019-12-03 | 合肥学院 | 一种手语翻译实现方法及装置 |
CN111079581A (zh) * | 2019-12-03 | 2020-04-28 | 广州久邦世纪科技有限公司 | 一种人体皮肤识别的方法与装置 |
CN111079641A (zh) * | 2019-12-13 | 2020-04-28 | 科大讯飞股份有限公司 | 作答内容识别方法、相关设备及可读存储介质 |
CN211293894U (zh) * | 2019-11-27 | 2020-08-18 | 华南理工大学 | 一种凌空手写交互装置 |
US20200272813A1 (en) * | 2019-02-21 | 2020-08-27 | Tata Consultancy Services Limited | Hand detection in first person view |
-
2021
- 2021-04-02 CN CN202110361015.0A patent/CN113052112B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010144050A1 (en) * | 2009-06-08 | 2010-12-16 | Agency For Science, Technology And Research | Method and system for gesture based manipulation of a 3-dimensional image of object |
CN107590432A (zh) * | 2017-07-27 | 2018-01-16 | 北京联合大学 | 一种基于循环三维卷积神经网络的手势识别方法 |
CN107679491A (zh) * | 2017-09-29 | 2018-02-09 | 华中师范大学 | 一种融合多模态数据的3d卷积神经网络手语识别方法 |
CN108334814A (zh) * | 2018-01-11 | 2018-07-27 | 浙江工业大学 | 一种基于卷积神经网络结合用户习惯性行为分析的ar***手势识别方法 |
US10304208B1 (en) * | 2018-02-12 | 2019-05-28 | Avodah Labs, Inc. | Automated gesture identification using neural networks |
CN109344701A (zh) * | 2018-08-23 | 2019-02-15 | 武汉嫦娥医学抗衰机器人股份有限公司 | 一种基于Kinect的动态手势识别方法 |
US20200272813A1 (en) * | 2019-02-21 | 2020-08-27 | Tata Consultancy Services Limited | Hand detection in first person view |
CN110532912A (zh) * | 2019-08-19 | 2019-12-03 | 合肥学院 | 一种手语翻译实现方法及装置 |
CN211293894U (zh) * | 2019-11-27 | 2020-08-18 | 华南理工大学 | 一种凌空手写交互装置 |
CN111079581A (zh) * | 2019-12-03 | 2020-04-28 | 广州久邦世纪科技有限公司 | 一种人体皮肤识别的方法与装置 |
CN111079641A (zh) * | 2019-12-13 | 2020-04-28 | 科大讯飞股份有限公司 | 作答内容识别方法、相关设备及可读存储介质 |
Non-Patent Citations (4)
Title |
---|
LIN JIANG等: "Aviation Medical Simulation Training Based on Interactive Technology", 《2021 IEEE 4TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATION ENGINEERING TECHNOLOGY (CCET)》, pages 387 - 391 * |
SHUIWANG JI等: "3D Convolutional Neural Networks for Human Action Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 35, no. 1, pages 221 - 231, XP011490774, DOI: 10.1109/TPAMI.2012.59 * |
YICHAO HUANG等: "DeepFinger: A Cascade Convolutional Neuron Network Approach to Finger Key Point Detection in Egocentric Vision with Mobile Camera", 《2015 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS》, pages 2944 - 2949 * |
丁小雪: "基于改进CNN+RNN的视频手势识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 07, pages 138 - 1139 * |
Also Published As
Publication number | Publication date |
---|---|
CN113052112B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anwar et al. | Image colorization: A survey and dataset | |
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
CN108717524B (zh) | 一种基于双摄手机和人工智能***的手势识别*** | |
CN112653899B (zh) | 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法 | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
CN108363973B (zh) | 一种无约束的3d表情迁移方法 | |
Li et al. | CNN-based facial expression recognition from annotated rgb-d images for human–robot interaction | |
CN103731583A (zh) | 用于拍照智能化合成、打印的一体化设备及其处理方法 | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
CN112364757A (zh) | 一种基于时空注意力机制的人体动作识别方法 | |
CN110032932B (zh) | 一种基于视频处理和决策树设定阈值的人体姿态识别方法 | |
CN111274921A (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN113343950B (zh) | 一种基于多特征融合的视频行为识别方法 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN110378234A (zh) | 基于TensorFlow构建的卷积神经网络热像人脸识别方法及*** | |
CN110942037A (zh) | 一种用于视频分析中的动作识别方法 | |
CN114821764A (zh) | 一种基于kcf追踪检测的手势图像识别方法及*** | |
CN110070027A (zh) | 基于智能物联网***的行人重识别方法 | |
TW202145065A (zh) | 一種圖像處理方法、電子設備及電腦可讀儲存介質 | |
CN112926472A (zh) | 视频分类方法、装置及设备 | |
US20240161461A1 (en) | Object detection method, object detection apparatus, and object detection system | |
CN113052112B (zh) | 基于混合神经网络的手势动作识别互动***及方法 | |
Meshram et al. | Convolution Neural Network based Hand Gesture Recognition System | |
Gu et al. | Depth MHI based deep learning model for human action recognition | |
CN113762058A (zh) | 一种视频合成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |