CN113052112A

CN113052112A - 基于混合神经网络的手势动作识别互动***及方法

Info

Publication number: CN113052112A
Application number: CN202110361015.0A
Authority: CN
Inventors: ***; 于霄洋; 李争平
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-29
Anticipated expiration: 2041-04-02
Also published as: CN113052112B

Abstract

本发明公开了基于3D CNN和RNN混合神经网络的投影手势动作识别互动方法及***，首先通过深度相机获取手部的深度图像视频、彩色图像视频、和红外图像视频，将这些视频进行进行格式的统一，后将这些视频文件分组送入3DCNN(三维卷积神经网络)的网络进行视频的动作学习后输出图像特征，后需要用RNN(递归神经网络)网络进行循环训练，最终输出识别结果。本发明能够得到手部信息的深度信息，能够提升识别的准确率，在自己搭建的数据集上达到了最先进的性能，结合3DCNN和RNN混合神经网络，融合效果较以往CNN+RNN的算法效果有较大提升。

Description

基于混合神经网络的手势动作识别互动***及方法

技术领域

本发明属于图像识别技术领域，涉及基于混合神经网络的手势动作识别互动***及方法。

背景技术

近年来，随着人工智能的崛起，机器学习、深度学习卷起了计算机的浪潮。人机交互已经成为如今机器视觉领域研究的重中之重。带有人机交互功能的智能设备在市场中飞速发展。手势作为人们日常生活中最常用的人体交互方式，已经被应用到了许多的智能设备上。

手势和手势是人类交流的一种常见形式。因此，人类使用这种交流方式与机器进行互动也是很自然的。例如，简单交互的人机交互可以提高汽车的舒适性和安全性；简单的手势交互可以更方便的进行智能家居的交互；高识别精度的手势识别可以让VR\AR手势识别运行的更加流畅。

手势识别又被分为静态手势识别和动态手势识别。静态手势识别训练的样本为静态的图片。动态的手势识别训练的样本为动态的手部动作，即在实时的视频中检测到手部进行的动作。手势识别是解释人手动作的意义。现如今手势识别***中，许多研究人员已经提出了各种基于如深度相机、彩色相机、距离传感器、可穿戴惯性传感器或其他模态类型传感器数据进行手势识别技术。基于计算机视觉的手势识别中，有一部分是静态手势识别，这些方法只能还是别静态的手势，做手势识别时会显得不自然。在用于人机交互的真实***中，动态手势的自动检测和分类具有挑战性，因为(1)人们在做手势、识别和分类方面存在很大的差异；(2)***必须在线工作，以避免在执行手势和分类之间出现明显的延迟。

发明内容

为解决上述问题，本发明提供了一种基于3D CNN和RNN混合神经网络的投影手势动作识别互动方法及***，首先通过深度相机获取手部的深度图像视频、彩色图像视频、和红外图像视频，将这些视频进行进行格式的统一，后将这些视频文件分组送入3DCNN(三维卷积神经网络)的网络进行视频的动作学习后输出图像特征，后需要用RNN(递归神经网络)网络进行循环训练，最终输出识别结果。

为了达到上述目的，本发明提供如下技术方案：

基于3D CNN和RNN混合神经网络的投影手势动作识别方法，包括如下步骤：

步骤一，图像视频数据集采集

采用深度相机采集手部数据，创建数据集；

在模型输入时将RGB三通道的模型输入，转换为了RGB+HSV六通道的模型输入，HSV分别代表色调、饱和度、明度，其表达式如下：

max＝max(R/255,G/255,B/255) (1)

min＝min(R/255,G/255,B/255) (2)

V＝max (5)

其中R、G、B为每帧图像的红绿蓝分量数值；

步骤二，采用三维卷积神经网络对数据集中的视频数据进行视频学习，输出图像特征。

步骤三，采用递归神经网络对步骤二输出的图像特征进行循环训练。

进一步的，所述步骤一包括如下子步骤：

1)使用深度相机在每一个手势场景都拍摄深度视频、彩***、红外视频各10段，数据集预设10个手势操作，分别为：手势A、手势B、手势C、手势D、手势E、手势F、手势G、手势H、手势I、手势J；

2)调节这些视频大小使其保持统一大小；

3)将上一步中得到的视频放入不同的文件夹中，生成手势标签文件。

4)将这些文件夹进行整合，完成数据集的创建。

进一步的，所述步骤二中三维卷积神经网络进行如下操作：

三维卷积神经网络对视频进行帧抽样，每秒抽取7帧图像作为网络输入；其中每帧提取5个通道信息，gray、gradient-x、gradient-y这三个通道的信息直接对每帧分别操作获取，optflow-x、(optflow-y)两个通道的信息则需要利用两帧的信息提取；

以上一层的输出作为输入，对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作，这一层采用了两种不同的3D卷积核；

进行max pooling操作，降采样之后的特征maps数量保持不变；

对之前分的两组特征maps分别采用7 6 3的卷积核进行操作，同样为了增加特征maps的数量，3D CNN采用了三种不同的卷积核分别对两组特征map进行卷积操作；

进行采样工作，对每个特征maps采用3*3的核进行降采样操作，对每个特征maps采用7*4的2D卷积核进行卷积操作。

基于3D CNN和RNN混合神经网络的投影手势动作识别***，包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络；其中，图像视频数据集采集模块用于采用深度相机采集手部数据；三维卷积神经网络用于对数据集中的视频数据进行视频学习输出图像特征；递归神经网络用于对三维卷积神经网络输出的图像特征进行循环训练。

与现有技术相比，本发明具有如下优点和有益效果：

本发明采用TOF深度相机采集手部数据，相比大部分公共手势数据集使用的RGB视频，深度图像和IR视频可以得到手部信息的深度信息。本发明引入了一种新的具有挑战性的多模态动态手势数据集，该数据集由深度、颜色和立体红外传感器捕获，在模型输入时将RGB三通道的模型输入，转换为了RGB+HSV六通道的模型输入，这样能够提升识别的准确率，为手势识别控制方案提供了保障。本发明在自己搭建的数据集上达到了最先进的性能，结合3DCNN和RNN混合神经网络，融合效果较以往CNN+RNN的算法效果有较大提升。本发明通过简单的交互操作使得手势识别更加有效简单，识别效果明显。

附图说明

图1为基于混合神经网络的手势动作识别互动方法流程示意图。

图2为图像视频数据集采集步骤示意图。

图3为3D CNN对图像序列(视频)采用3D卷积核进行卷积操作示意图。

图4为3D CNN架构示意图。

图5为简单的循环神经网络结构示意图。

图6为循环神经网络的输入输出原理示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供的基于混合神经网络的手势动作识别互动方法，如图所示，包括如下步骤：

步骤一，图像视频数据集采集

相比大部分公共手势数据集使用的RGB视频，深度图像和IR视频可以得到手部信息的深度信息，本文采用TOF深度相机采集手部数据，采集步骤如图2所示，具体包括如下步骤：

1)使用深度相机在每一个手势场景都拍摄深度视频、彩***、红外视频各10段。数据集预设10个手势操作，分别为：手势A、手势B、手势C、手势D、手势E、手势F、手势G、手势H、手势I、手势J。

2)调节这些视频大小，使它们保持统一大小，本例中大小为640*420。

4)将这些文件夹进行整合，完成数据集的创建。

为了增强模型识别的准确率，本发明在模型输入时将RGB三通道的模型输入，转换为了RGB+HSV六通道的模型输入，这样能够提升识别的准确率。HSV分别代表Hue色调，Saturation饱和度，Value明度。

max＝max(R/255,G/255,B/255) (1)

min＝min(R/255,G/255,B/255) (2)

V＝max (5)

其中R、G、B为每帧图像的红绿蓝分量数值。

步骤二，采用3DCNN(三维卷积神经网络)的网络对数据集中的视频数据进行视频学习

传统的2DCNN对视频的每一帧图像分别利用CNN来进行识别，采用2D卷积核进行卷积操作，没有考虑到时间维度的帧间运动信息。使用3D CNN能更好的捕获视频中的时间和空间的特征信息，如图3所示，3D CNN对图像序列(视频)采用3D卷积核进行卷积操作。

图3中，进行卷积操作的时间维度为3，即对连续的三帧图像进行卷积操作，3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此捕捉运动信息。

3D CNN非常适合于时空特征学习。与2D CNN相比，3D CNN能够通过3D卷积和3D池化操作更好地建模时间信息。在3D CNN中，卷积和池化操作在时空上执行，而在2D CNN中，它们仅在空间上完成。而3D卷积能保留输入信号的时间信息。3D CNN结构如图4所示。

3D CNN网络对视频进行帧抽样，每秒抽取7帧大小为60*40的图像作为网络输入。其中每帧提取5个通道信息，gray、gradient-x、gradient-y这三个通道的信息可以直接对每帧分别操作获取，optflow-x、(optflow-y)两个通道的信息则需要利用两帧的信息才能提取，因此H1层的特征maps数量：(7+7+7+6+6＝33)，特征maps的大小依然是60*40。

之后以上一层的输出作为输入，对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作。为了增加特征maps的个数，在这一层采用了两种不同的3D卷积核，因此C2层的特征maps数量为：((7-3)+1)*3+((6-30+1)*2)*2＝23*2，特征maps的大小为：

((60-7)+1)*((40-7)+1)＝54*34。

接下来进行max pooling操作，降采样之后的特征maps数量保持不变，所以S3层的特征maps数量保持为：23*2，特征maps的大小为：((54/2)*(34/2)＝27*17。

接下来对之前分的两组特征maps分别采用7 6 3的卷积核进行操作，同样为了增加特征maps的数量，3D CNN采用了三种不同的卷积核分别对两组特征map进行卷积操作。C4层的特征maps数量：13*3*2＝13*6，C4层的特征maps的大小为：((27-7)+1)*((17-6)+1)＝21*12。

接下来需要将采样工作，对每个特征maps采用3*3的核进行降采样操作，此时每个maps的大小：7*4。对每个特征maps采用7*4的2D卷积核进行卷积操作，每个maps的大小：1*1。

本发明提出了一个使用3D CNN和连接主义时间分类(CTC)的网络。CTC使手势分类能够基于手势的核期间，而不需要明确的预分割。解决了检测手势准确率低的问题，和延迟严重的问题，这是手势交互的关键要素。

通过上述步骤进行视频的动作学习后输出图像特征。

步骤三，采用RNN(递归神经网络)网络对步骤二输出的图像特征进行循环训练

RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度。

一个简单的循环神经网络如图5所示，由输入层、一个隐藏层和一个输出层组成。图中，x是一个向量，它表示输入层的值；s是一个向量，它表示隐藏层的值；U是输入层到隐藏层的权重矩阵，o也是一个向量，它表示输出层的值；V是隐藏层到输出层的权重矩阵。

图6为循环神经网络的输入输出原理，该图中X为数据输入，h(hidden state)用来提取特征并输出y，并传递向下一层，使得每个前一层都在后一层有体现。循环神经网络处理序列的方式是：遍历所有序列元素，并保存一个状态，其中包含与已查看内容相关的信息。RNN是一个for循环，它重复使用循环前一次迭代的计算结果。这样的结构使得我们可以有效的处理3D CNN提取的序列数据。

本步骤用RNN网络进行循环训练，最终输出识别结果。

本发明还提供了基于混合神经网络的手势动作识别互动***，包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络；其中，图像视频数据集采集模块用于采用深度相机采集手部数据，具体实现步骤一内容；三维卷积神经网络对数据集中的视频数据进行视频学习输出图像特征，具体实现步骤二内容，递归神经网络对三维卷积神经网络输出的图像特征进行循环训练，具体实现步骤三内容。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于3D CNN和RNN混合神经网络的投影手势动作识别方法，其特征在于，包括如下步骤：

步骤一，图像视频数据集采集

采用深度相机采集手部数据，创建数据集；

max＝max(R/255,G/255,B/255) (1)

min＝min(R/255,G/255,B/255) (2)

V＝max (5)

其中R、G、B为每帧图像的红绿蓝分量数值；

2.根据权利要求1所述的基于3D CNN和RNN混合神经网络的投影手势动作识别方法，其特征在于，所述步骤一包括如下子步骤：

2)调节这些视频大小使其保持统一大小；

4)将这些文件夹进行整合，完成数据集的创建。

3.根据权利要求1所述的基于3D CNN和RNN混合神经网络的投影手势动作识别方法，其特征在于，所述步骤二中三维卷积神经网络进行如下操作：

进行max pooling操作，降采样之后的特征maps数量保持不变；

4.基于3D CNN和RNN混合神经网络的投影手势动作识别***，其特征在于，包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络；其中，图像视频数据集采集模块用于采用深度相机采集手部数据；三维卷积神经网络用于对数据集中的视频数据进行视频学习输出图像特征；递归神经网络用于对三维卷积神经网络输出的图像特征进行循环训练。