CN114038059A

CN114038059A - 一种基于双帧速率分治行为识别网络的动态手势识别方法

Info

Publication number: CN114038059A
Application number: CN202111316896.0A
Authority: CN
Inventors: 程淑红; 杨镇豪; 张典范; 程树春; 芦嘉鑫; 谢文锐
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-11
Anticipated expiration: 2041-11-09
Also published as: CN114038059B

Abstract

本发明公开了一种基于双帧速率分治行为识别网络的动态手势识别方法，采用一种双通道三维卷积神经网络模型来提取动态手势的时空特征，所使用的输入设备为普通的USB摄像头采集的视频帧序列，通过普通USB摄像头采集手势图像和视频进能够完成手势识别，相较于使用3D传感器大大节省了设备成本，旨在能够广泛的应用于多种领域。同时本发明根据目前手势人机交互常使用的手势种类定义诸如向左、向右、确定等手势，是一种通过深度学习实现的分类问题，本发明根据常见的人机交互指令创建的手势视频数据集，在采集过程中考虑到不同场景和角度的应用情况，在虚拟现实和智能办公领域保持良好的识别准确率。

Description

一种基于双帧速率分治行为识别网络的动态手势识别方法

技术领域

本发明涉及视频行为检测领域，尤其是一种基于双帧速率分治行为识别网络的动态手势识别方法。

背景技术

人机交互正从传统的鼠标、键盘等传统的输入输出模式转向更加符合人类交流习惯的模式，使人与计算机之间的交互更流畅、自然、高效，这是人机交互智能化的一个主要目标。手势作为人与人交流的一种重要形式，在人机交互过程中具有意义明确、操作简便和相应迅速的优点，在手语识别、辅助机器人、虚拟现实和智能家具等领域广泛应用。

手势又分为静态手势和动态手势。相比于静态手势，动态手势更加灵活，所能表达的含义更加丰富。目前实现动态手势的识别主要是基于3D传感器或者摄像头实现的。3D传感设备包括Kinect、LeapMotion和Time-of-Flight Sensors。比如Yuhui Lai等人通过实现对手势骨骼的实时检测，获取关键点的深度坐标实现动态手势和人体行为识别；Zhou Ren等人使用比传统方法更加精确的Kinect深度信息来分割手势区域，实现了手势识别；Abhishek B.Jani等人利用TOF传感器生成三维点云，实现了复杂的手势轨迹跟踪。以上方法都使用到了3D传感设备，但都存在设备昂贵和难以普及的缺点，而对摄像头采集到的图像和视频流进行识别能大大减少设备成本，同时采用深度学习的方法具有鲁棒性高的优点。Vijay John等人使用一种双通道卷积神经网络，每个卷积网络都使用单一的权重和softmax分类器，但这种方法没有考虑到动态手势过程的时间和空间信息；Limin Wang等人提出一种双流的时序分割网络来进行视频行为识别，采用两个通道分别提取时间信息和空间信息，但提取时间信息的通道输入的是连续帧间的光流信息，计算量过大，导致相应速度变慢。

发明内容

本发明需要解决的技术问题是提供一种基于双帧速率分治行为识别网络的动态手势识别方法，采用高分辨率低通道数的慢速卷积通道提取手势的空间特征，采用低分辨率高通道数来提取手势的时间特征。

为解决上述技术问题，本发明所采用的技术方案是：一种基于双帧速率分治行为识别网络的动态手势识别方法，包括如下步骤：

S1、根据人的手势交流习惯和人机交互中用户常输入的指令，定义向左、向右、向上、向下、确认、取消六种动态手势和一个无手势类别，并根据UCF101数据集格式录制手势视频数据集，配置标签文件，作为神经网络的训练数据集和测试输入；

S2、根据手势视频数据集具有的时间特征和空间特征，搭建双帧速率分治行为识别网络，双帧速率分治行为识别网络包含高帧速通道和低帧速通道，所述高帧速通道和低帧速通道采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络作为主干网络；

S3、根据步骤S2中高帧速通道和低帧速通道的无ReLU的残差块后加入CBAM注意力机制，CBAM注意力机制对从卷积神经网络输出的特征通道数、特征的宽、高和帧数均进行权重分配，输出带有权重的特征并输入到下一个无ReLU的残差块；

S4、在Ubuntu18.04操作***上配置conda虚拟环境，使用pytorch深度学习框架，搭建双帧速率分治行为识别网络并训练采集的手势视频数据集，对训练好的模型输入手势视频数据，根据输出结果判断手势种类。

本发明技术方案的进一步改进在于：所述步骤S1中六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120-150个，且手势视频数据集采用30帧录制，视频分辨率480×480，每个视频从手势的第一帧开始，到最后一帧结束进行剪辑。

本发明技术方案的进一步改进在于：所述步骤S2中高帧速通道输入低分辨率高帧数视频数据，低帧速通道输入高分辨率低帧数数据，在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互，实现时空特征信息融合。

本发明技术方案的进一步改进在于：所述低帧速通道输入视频长度为：

L＝T×τ，

其中T为低帧速通道输入的采集帧数，τ为低帧速通道采集的帧间间隔；

本发明技术方案的进一步改进在于：所述高帧速通道输入视频的高帧率采样且采样频率为低帧速通道输入视频采样频率的α倍，α＝8，则高帧速通道采集的帧间间隔为τ/α，高帧速通道的3D-IResnet50网络输入输出特征通道数为低帧速通道的β倍，β＝1/8。

本发明技术方案的进一步改进在于：所述步骤S2中高帧速通道和低帧速通道均分为4个残差块，每个残差块由start block、middle block和end block构成，start block、middle block均在网络的主干通路上移除了ReLU激活函数，保留了负权值信息；end block在主干通路上添加了BN层，减少极端数值对特征提取的影响，在高帧速通道的每个主要残差块结束时使用一次三维卷积侧向连接到低帧速通道，完成时间特征和空间特征的融合，最后由低帧速通道连接一个全连接层和BN层输出预测结果。

本发明技术方案的进一步改进在于：所述步骤S3中CBAM注意力机制将高帧速通道和低帧速通道的残差块输出的手势特征T∈R^C×H×W×D再次推理，分别输出一维的通道维度(C)上的权重向量W_c∈R^C×1×1×1和三维的空间维度(H,W,D)上的权重矩阵W_S∈R^1×H×W×D，经过CBAM注意力机制的计算过程如下：

T″为经过注意力机制分配权重后输出的手势特征，其中

为元素依次相乘运算符，根据以上公式得出CBAM注意力机制分为两个阶段：一是对输入特征的通道计算权重向量，则需要压缩空间维度到1×1×1，使用最大池化和平均池化在三个空间维度上进行压缩，分别得到最大池化空间描述

和平均池化空间描述

然后使用多层感知机网络对两个空间描述向量进行计算得到W_c∈R^C×1×1×1：

其中，σ为sigmoid函数，

第二是对输入特征的空间维度计算权重矩阵，使用最大池化和平均池化得到空间信息的两个不同的特征描述

和

最后使用三维卷积操作生成空间注意力矩阵：

其中c为三维卷积操作，σ为sigmoid函数。

本发明技术方案的进一步改进在于：所述步骤S4中手势视频数据集划分按照3：1：1为训练集、验证集和测试集，设置训练周期数，保留验证准确率最好的模型作为最终手势识别模型，通过摄像头输入手势视频数据得到模型的推理结果，将置信度最高的手势编号作为识别结果。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明采用一种双通道三维卷积神经网络模型来提取动态手势的时空特征，所使用的输入设备为普通的USB摄像头采集的视频帧序列，通过普通USB摄像头采集手势图像和视频进能够完成手势识别，相较于使用3D传感器大大节省了设备成本，旨在能够广泛的应用于多种领域。同时本发明根据目前手势人机交互常使用的手势种类定义诸如向左、向右、确定等手势，是一种通过深度学习实现的分类问题；

2、本发明可在传统人机交互工具使用不便的场景中快速、准确的实现简单的人对计算机设备下达指令，比如公共场合、智能家居；

3、本发明根据常见的人机交互指令创建的手势视频数据集，在采集过程中考虑到不同场景和角度的应用情况，在虚拟现实和智能办公领域保持良好的识别准确率。

4、本发明以三维卷积为核心，采用高分辨率低通道数的慢速卷积通道提取手势的空间特征，采用低分辨率高通道数来提取手势的时间特征；为了提高神经网络的学习效率和学习能力，改用3D-Iresnet50作为网络的主干结构，在残差块后添加CBAM注意力机制来增加特征提取能力。

附图说明

图1为双帧速率分治模型结构图；

图2为start block、middle block和end block结构图；

图3为3D-IResnet50结构图；

图4为CBAM注意力机制结构图。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

本发明采用一种双帧速率分治卷神经网络结构来实现动态手势识别，同时为了减少训练负担和提升准确率，将3D-Resnet50改进为3D-IResnet50，同时在每个残差块后引入CBAM注意力机制。为了提高模型的鲁棒性，采集的数据包含不同的光线背景和角度录制。通过剪辑，每个视频包含随机手势个数和帧数，加入不同程度的噪声或局部裁剪，来增加数据集的泛化能力。按照UCF101视频数据集格式制作标签文件，将数据及送入双帧速率分治行为识别网络中进行训练，选取验证精度最优的模型作为训练结果。以上具体内步骤如下：

S1、如图1所示，根据人的手势交流习惯和人机交互中用户常输入的指令，定义向左、向右、向上、向下、确认、取消六种动态手势和一个背景类别。手势的具体定义如下：

向左：手掌从右往左划动；

向右：手掌从左往右划动；

向上：手掌从下往上划动；

向下：手掌从上往下划动；

确认：手从握拳展开为OK型手势；

取消：伸出食指以顺时针方向画圈；

背景类别：无手势的背景视频。

并根据UCF101数据集格式录制手势视频数据集，配置标签文件，作为神经网络的训练数据集和测试输入；六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120-150个，每个视频3-6秒，且手势视频数据集采用30帧录制，视频分辨率480×480，每个视频从手势的第一帧开始，到最后一帧结束进行剪辑；

S2、如图2所示的双帧速率分治行为识别网络，根据手势视频数据集具有的时间特征和空间特征，本专利申请将双帧速率分治行为识别网络分为高帧速通道和低帧速通道，分别提取手势帧序列数据的时间特征和空间特征，高帧速通道和低帧速通道采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络作为主干网络；

高帧速通道输入低分辨率高帧数视频数据，低帧速通道输入高分辨率低帧数数据，在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互，实现时空特征信息融合。

低帧速通道输入的是视频的低帧率采样，设置输入低帧速通道的采集帧数T，采集的帧间隔为τ，则输入视频长度为：

L＝T×τ

高帧速通道输入视频的高帧率采样，采样频率为低帧速通道的α倍(α通常等于8)，则采集的帧间隔为τ/α。为了使高帧速通道专注于视频的时间信息提取，而且高帧速通道输入的帧数更大，为了减少计算量，快通道的3D-IResnet50网络输入输出特征通道数为慢通道的β倍(β通常等于1/8)。

在本发明中，设置的输入的视频数据每64帧送入双帧速率分治行为识别网络，设置高帧速通道采集帧数T＝32，采集帧间间隔τ＝2，低帧速通道的采集帧数T＝4，采集帧间间隔τ＝16。所以输入高帧速通道的经过切片操作后的尺寸分别为(4×224×224)和(32×224×224)。设置低帧速通道特征通道数是高帧速通道特征通道数的8倍。

3D-IResnet50作为主干网络，但是主干通路上的ReLU函数会使部分负权重消失，对整个网络的信息传播产生负面影响，同时主干上没有BN标准化导致网络学习难度增加。针对以上问题本发明采用3D-IResnet50结构作为高帧速通道的特征提取网络。

传统的3D-Resnet网络结构的主干通道存在的ReLU激活函数使一些负权重信息直接归零，迫使网络重新调整权值，以输出不受影响的正值来通过ReLU。但是移除主干的ReLU激活函数又会导致block之间的非线性缺失，限制网络的学习能力。因此本发明采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络来解决以上两个问题，使网络的学习能力和准确率都得到提高。

在高帧速通道的每个残差块结束时都会将输出特征通过侧向连接层与低帧速通道进行特征融合。由于高帧速通道与低帧速通道输出的特征尺寸不同，所以侧向连接层设计成用一次三维卷积来使快通道特征进行尺寸变换，再将变换后的特征与低帧速通道输出特征在通道维度上拼接，成为慢通道接下来残差网络的输入。将低帧速通道的特征形状定义为{T,S²,C}，高帧速通道的特征形状为{αT,S²,βC}。侧向连接层尺寸变换如下：

双帧速率分治行为识别网络最后由低帧速通道输出，经过一个三维平均池化层和一个全连接层输出预测结果，可根据分类数量调节全连接层最后输出向量维度。

Resnet50残差网络的bottleneck单元可定义为：

其中，x^l+1和x^l分别是第l个残差块的输出和输入，ReLU代表激活函数，

为残差块训练过程中学习的映射函数。如果输出输出维度不一样，则通过一个

变换为

维度。但是原始bottleneck的主传播路径上的ReLU激活函数会使部分有用但为负值的信息直接归零，神经网络需要重新学习正值来得到正确映射，加大了学习难度。随着网络的加深，ReLU激活函数越多，网络学习难度越大，所以需要限制ReLU数量。

本发明采用的3D-IResnet50结构如图3所示，根据Resnet50结构分成四个残差块，主干通路的ReLU数量固定为4个，这样会大大减少负权值消失带来的影响。在每个残差块中，用start block、middle block和end block代替了bottleneck，其中start block是bottleneck在主干通路上移除激活函数的变形，middle block使用一种预激活结构，除了将主干的ReLU移除，还将支路的BN层和激活函数移到卷积层之前。end block在主干通路上添加了BN层，对当前主要残差块的输出进行归一化，减少极端数据对特征提取过程造成负面影响。

本发明采用的3D-IResnet50主干特征提取网络在3DResnet50基础上改动，在网络深度，计算量不变的情况下提升了网络的学习能力和训练的收敛速度。

在步骤2建立的3D-IResnet50主干网络的的每个主要残差块的输出部分加入CBAM注意力机制。CBAM注意力机制是一种应用在卷积神经网络前向传播阶段的注意力模块。CBAM注意力机制不仅在卷积网络输出特征的通道维度上附加权重，还计算空间维度上权重信息。在本发明中，由于输入到网络的数据在空间上有三个维度，即宽、高和深度(帧数)，因此将应用在二维卷积的CBAM改进成能够应用在三维卷积网络，拓展CBAM注意力机制在空间上的维度。

CBAM注意力机制将主要残差块输出的手势特征T∈R^C×H×W×D再次推理，分别输出一维的通道维度(C)上的权重向量：

W_c∈R^C×1×1×1

和三维的空间维度(H,W,D)上的权重矩阵：

W_S∈R^1×H×W×D

经过3D-CBAM注意力机制的计算过程如下：

T″即为经过注意力机制分配权重后输出的手势特征。其中

为元素依次相乘运算符。如图4所示CBAM注意力机制结构图，根据以上公式得出CBAM注意力机制分为两个阶段：一是对输入特征的通道计算权重向量，则需要压缩空间维度到1×1×1，为了减少计算量，使用最大池化和平均池化在三个空间维度上进行压缩，分别得到最大池化空间描述

和平均池化空间描述

其中，σ为sigmoid函数，

和

最后使用三维卷积操作生成空间注意力矩阵：

其中c为三维卷积操作，σ为sigmoid函数。

S4、在Ubuntu18.04操作***上配置conda虚拟环境，使用pytorch深度学习框架，pycharm编译器。设置手势视频数据，手势视频数据集划分按照3：1：1为训练集、验证集和测试集，输入到双帧速率分治行为识别网络的尺寸为(64×224×224)，batch_size为32，训练周期为300轮，初始学习率设置为0.05，每迭代50轮学习率变为原来的一半。在训练过程中保存最新模型和验证精度最高的模型。

选取训练过程中验证精度最高的模型作为训练结果，利用测试集或摄像头验证模型，输出经过归一化的各个手势种类置信度，置信度最高的即当前识别结果。

步骤4：在Ubuntu18.04操作***上配置conda虚拟环境，使用pytorch深度学习框架，搭建双帧速率分治行为识别网络并训练采集的手势视频数据集，对训练好的模型输入手势视频数据，根据输出结果判断手势种类。数据集划分按照3：1：1为训练集、验证集和测试集。设置训练周期为100轮，保留验证准确率最好的模型作为最终手势识别模型，通过摄像头输入手势视频数据得到模型的推理结果，将置信度最高的手势编号作为识别结果。某次识别结果如下：

[('OK',0.99754465),('CANCLE',0.0022106129),('DOWN',0.000101452955),('BACKGROUND',5.468726e-05),('UP',5.000741e-05),('LEFT',2.6633716e-05),('RIGHT',1.2005275-05)]

识别结果手势结果标签和置信度表示，按照置信度从大到小排列，置信度最高的即为本次识别结果。

本发明采用一种双通道三维卷积神经网络模型来提取动态手势的时空特征，所使用的输入设备为普通的USB摄像头采集的视频帧序列，通过普通USB摄像头采集手势图像和视频进能够完成手势识别，相较于使用3D传感器大大节省了设备成本，旨在能够广泛的应用于多种领域。同时本发明根据目前手势人机交互常使用的手势种类定义诸如向左、向右、确定等手势，是一种通过深度学习实现的分类问题。本发明以三维卷积为核心，采用高分辨率低通道数的慢速卷积通道提取手势的空间特征，采用低分辨率高通道数来提取手势的时间特征；为了提高神经网络的学习效率和学习能力，改用3D-Iresnet50作为网络的主干结构，在残差块后添加CBAM注意力机制来增加特征提取能力。

Claims

1.一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述步骤S1中六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120-150个，且手势视频数据集采用30帧录制，视频分辨率480×480，每个视频从手势的第一帧开始，到最后一帧结束进行剪辑。

3.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述步骤S2中高帧速通道输入低分辨率高帧数视频数据，低帧速通道输入高分辨率低帧数数据，在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互，实现时空特征信息融合。

4.根据权利要求3所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述低帧速通道输入视频长度为：

L＝T×τ，

其中T为低帧速通道输入的采集帧数，τ为低帧速通道采集的帧间间隔。

5.根据权利要求4所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述高帧速通道输入视频的高帧率采样且采样频率为低帧速通道输入视频采样频率的α倍，α＝8，高帧速通道采集的帧间间隔为τ/α，高帧速通道的3D-IResnet50网络输入输出特征通道数为低帧速通道的β倍，β＝1/8。

6.根据权利要求5所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述步骤S2中高帧速通道和低帧速通道均分为4个残差块，每个残差块由start block、middle block和end block构成，start block、middle block均在网络的主干通路上移除了ReLU激活函数，保留了负权值信息；end block在主干通路上添加了BN层，减少极端数值对特征提取的影响，在高帧速通道的每个主要残差块结束时使用一次三维卷积侧向连接到低帧速通道，完成时间特征和空间特征的融合，最后由低帧速通道连接一个全连接层和BN层输出预测结果。

7.根据权利要求6所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述步骤S3中CBAM注意力机制将高帧速通道和低帧速通道的残差块输出的手势特征T∈R^C×H×W×D再次推理，分别输出一维的通道维度(C)上的权重向量W_c∈R^C×1×1×1和三维的空间维度(H，W，D)上的权重矩阵W_S∈R^1×H×W×D，经过CBAM注意力机制的计算过程如下：

T″为经过注意力机制分配权重后输出的手势特征，其中

和平均池化空间描述

其中，σ为sigmoid函数，

和

最后使用三维卷积操作生成空间注意力矩阵：

其中c为三维卷积操作，σ为sigmoid函数。

8.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法，其特征在于：所述步骤S4中手势视频数据集划分按照3∶1∶1为训练集、验证集和测试集，设置训练周期数，保留验证准确率最好的模型作为最终手势识别模型，通过摄像头输入手势视频数据得到模型的推理结果，将置信度最高的手势编号作为识别结果。