CN113435340B

CN113435340B - 基于改进Resnet的实时手势识别方法

Info

Publication number: CN113435340B
Application number: CN202110722834.3A
Authority: CN
Inventors: 柯逍; 卞永亨
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-06-10
Anticipated expiration: 2041-06-29
Also published as: CN113435340A

Abstract

本发明提出一种基于改进Resnet的实时手势识别方法，包括以下步骤：步骤S1：通过滑动窗口将视频流作为手势检测网络的输入，手势检测网络输出是否检测到手势；步骤S2：将检测结果通过滤波器，滤波器结合历史信息输出最终的检测结果；步骤S3：若滤波器的输出表示检测到手势，则将滑动窗口中的视频流输入手势分类网络，手势分类网络输出分类结果；步骤S4：对分类结果进行过滤，输出满足条件的分类结果。该方法能够有效地对视频中的手势进行识别。

Description

基于改进Resnet的实时手势识别方法

技术领域

本发明属于模式识别与计算机视觉技术领域，尤其涉及一种基于改进Resnet的实时手势识别方法。

背景技术

手势作为一种十分舒适的人机交互方式，目前已被应用于生活的许多方面，例如手语识别，设备控制等。因此，随着神经网络技术的成熟，基于计算机视觉的手势识别正成为一股热潮。在实际应用时，如何从视频流中识别手势，以及如何在保证***的实时性的同时兼顾准确性也为实时手势识别加大了难度。尽管手势识别技术已经取得很大进步，在真实环境中还面临着许多挑战，如光照、距离等诸多因素都会影响手势识别的性能。

发明内容

针对现有技术的空白，本发明提出了一种基于改进Resnet的实时手势识别方法，包括以下步骤：步骤S1：通过滑动窗口将视频流作为手势检测网络的输入，手势检测网络输出是否检测到手势；步骤S2：将检测结果通过滤波器，滤波器结合历史信息输出最终的检测结果；步骤S3：若滤波器的输出表示检测到手势，则将滑动窗口中的视频流输入手势分类网络，手势分类网络输出分类结果；步骤S4：对分类结果进行过滤，输出满足条件的分类结果。该方法能够有效地对视频中的手势进行识别。

本发明具体采用以下技术方案：

一种基于改进Resnet的实时手势识别方法，其特征在于，包括以下步骤：

步骤S1：通过滑动窗口将视频流作为手势检测网络的输入，手势检测网络输出是否检测到手势；

步骤S2：将检测结果通过滤波器，滤波器结合历史信息输出最终的检测结果；

步骤S3：若滤波器的输出表示检测到手势，则将滑动窗口中的视频流输入手势分类网络，手势分类网络输出分类结果；

步骤S4：对分类结果进行过滤，输出满足条件的分类结果；

在步骤S1中，采用的特征提取网络包括第一改进型Resnet10和第二改进型Resnet10；

所述第一改进型Resnet10将Resnet10的第一个7×7的卷积核改为5×5，步长改为1，并将第三个残差块中的第一个卷积的步长改为1；

所述第二改进型Resnet10将Resnet10的第一个7×7的卷积核改为9×9，步长改为4，将第三个残差块由瓶颈式残差块改为基础残差块，并将整个网络中第一个卷积核之后的卷积核都改为5×5，且步长改为3；

将所述第一改进型Resnet10和第二改进型Resnet10两个网络的输出进行连接操作，通过两个改进型Resnet10中的基础残差块，再通过步长为2平均池化层，得到手势特征t；

在步骤S3中，所述手势分类网络以Resnet101为基础，将Resnet101的第二个瓶颈残差块提取的特征与所述手势检测网络提取的特征进行连接，得到手势分类网络的结构。

进一步地，步骤S1具体包括以下步骤：

步骤S11：选取手势识别训练集Jester作为数据集，并获得训练数据的相关标注；

步骤S12：将手势检测网络的滑动窗口的长度n设为8，进行手势检测，得到手势特征t；

步骤S13：设D＝{d₁,d₂,…,d_n}为手势检测网络的滑动窗口中的图像帧的集合，d_i为滑动窗口中的第i帧图像，DET(·)为手势检测网络模型，t＝DET(D)为当前滑动窗口中的视频对应的特征，将特征t通过最后一个全连接层W，得到s₀和s₁，s₀为不存在手势这一类的分数，s₁为存在手势这一类的分数。

进一步地，步骤S2的具体方法为：

设

和

分别为前j个时间滑动窗口的存在手势与不存在手势的分数，w_j为前j个时间对应的权重，w_j的计算公式为

其中filter为所记录历史信息的个数，滤波器的分数

若sf>3，则认为检测器检测到手势。

进一步地，步骤S3具体包括以下步骤：

步骤S31：构建手势分类网络；

步骤S32：设m为手势分类网络的滑动窗口大小，C＝{d₁,d₂,…,d_m}为手势分类网络的滑动窗口图像的集合，当滤波器的输出为存在手势，则将手势分类网络的滑动窗口中的数据输入到手势分类网络，CLA(·)为手势分类网络模型，fea＝CLA(C)为手势分类网络提取的特征；

步骤S33：将手势分类网络提取到的特征fea依次经过平均池化层，全连接层FULL，得到每个类别的分数score_a，a表示手势的类别，score_a表示类别为a的手势的分数；再通过Softmax激活函数得到各类的分类概率P_a，计算公式为

其中class表示手势的类别数量，分类概率P_a最大的类作为预测结果输出。

进一步地，步骤S4中，具体包括以下步骤：

步骤S41：若当前手势分类网络的输出结果与上一分类结果的时间戳间隔大于等于0.75秒，则将当前结果作为最终结果；

步骤S42：若当前手势分类网络的输出结果与上一分类结果的时间戳间隔小于0.75秒，计算最大分类概率与第二分类概率之差conf＝P_max-P_second，其中P_max为最大的分类概率，P_second为第二大的分类概率，若conf>0.15，则将分类概率最大的类作为分类结果输出，若conf<0.15则不输出分类结果。

相较于现有技术，本发明及其优选方案具有以下有益效果：

1、能够有效地对视频中的动态手势进行识别，提升了手势识别的准确率。

2、能够在模型训练过程中减轻梯度消失的现象，使得即使网络结构很深，在训练时也能有良好的收敛速度与准确度。

3、相比于传统的Resnet网络结构，本发明提出的网络通过改变卷积核大小，构建多特征提取网络，对不同大小的特征进行提取，提升了手部在不同距离时识别的准确率。

4、针对单一手势网络会输出多个分类结果的问题，本发明在分类网络输出结果后对其结果进行后处理，保证短时间内不会有大量分类结果输出，使得网络更加贴合实际应用。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1为本发明实施例整体流程步骤示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本发明提供了一种基于改进Resnet的实时手势识别方法，包括以下步骤：

步骤S4：对分类结果进行过滤，仅输出满足条件的分类结果。

在本实施例中，步骤S1具体包括以下步骤：

步骤S11：从网络上获取公开的手势识别训练集Jester数据集，并获得训练数据的相关标注；

步骤S12：手势检测网络的滑动窗口的长度n设为8，第一个特征提取网络在Resnet10的基础上做了以下改进，将第一个7×7的卷积核改为5×5，步长改为1，并将第三个残差块中的第一个卷积的步长改为1，这样可以提高对距离较远的手势的检测准确率。第二个特征提取网络在Resnet10的基础上做了以下改进，将第一个7×7的卷积核改为9×9，步长改为4，将第三个残差块由瓶颈式残差块改为基础残差块，并将整个网络中第一个卷积核之后的卷积核都改为5×5，且步长改为3，这样做可以提高手势较近时的检测准确率。将上述两个网络的输出进行连接操作，通过两个Resnet10中的基础残差块，再通过步长为2平均池化层，得到手势特征t；

步骤S13：设D＝{d₁,d₂,…,d_n}为手势检测网络的滑动窗口中的图像帧的集合，d_i为滑动窗口中的第i帧图像，DET(·)为用于检测手势的Resnet神经网络模型，t＝DET(D)为当前滑动窗口中的视频对应的特征，将特征t通过最后一个全连接层W，得到s₀和s₁，s₀为不存在手势这一类的分数，s₁为存在手势这一类的分数。

在本实施例中，步骤S2具体方法为：

设

和

其中filter为所记录历史信息的个数，滤波器的分数

若sf>3，则认为检测器检测到手势，这样做的好处是当手势短暂离开画面时也能保证***整体的可靠性。

在本实施例中，步骤S3包括以下步骤：

步骤S31：手势分类网络以Resnet101为基础，将Resnet101的第二个瓶颈残差块提取的特征与步骤1中的手势检测网络提取的特征进行连接，得到手势分类网络的结构。

步骤S32：设m为手势分类网络的滑动窗口大小，C＝{d₁,d₂,…,d_m}为手势分类网络的滑动窗口图像的集合，当滤波器的输出为存在手势，则将手势分类网络的滑动窗口中的数据输入到手势分类网络，CLA(·)为用于分类手势的Resnet神经网络模型，fea＝CLA(C)为手势分类网络提取的特征。

步骤S33：将手势分类网络提取到的特征fea依次经过平均池化层，全连接层FULL，得到每个类别的分数score_a，a表示手势的类别，score_a表示类别为a的手势的分数。再通过Softmax激活函数得到各类的分类概率P_a，计算公式为

其中class表示手势的类别数量。

步骤S4中，具体包括以下步骤：

专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于改进Resnet的实时手势识别方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于改进Resnet的实时手势识别方法，其特征在于，包括以下步骤：

步骤S4：对分类结果进行过滤，输出满足条件的分类结果；

在步骤S3中，所述手势分类网络以Resnet101为基础，将Resnet101的第二个瓶颈残差块提取的特征与所述手势检测网络提取的特征进行连接，得到手势分类网络的结构；

步骤S2的具体方法为：

设

和

其中filter为所记录历史信息的个数，滤波器的分数

若sf＞3，则认为检测器检测到手势；

步骤S3具体包括以下步骤：

步骤S31：构建手势分类网络；

步骤S32：设m为手势分类网络的滑动窗口大小，C＝{d₁，d₂，…，d_m)为手势分类网络的滑动窗口图像的集合，当滤波器的输出为存在手势，则将手势分类网络的滑动窗口中的数据输入到手势分类网络，CLA(·)为手势分类网络模型，fea＝CLA(C)为手势分类网络提取的特征；

其中class表示手势的类别数量，分类概率P_a最大的类作为预测结果输出；

步骤S4中，具体包括以下步骤：

步骤S42：若当前手势分类网络的输出结果与上一分类结果的时间戳间隔小于0.75秒，计算最大分类概率与第二分类概率之差conf＝P_max-P_second，其中P_max为最大的分类概率，P_second为第二大的分类概率，若conf＞0.15，则将分类概率最大的类作为分类结果输出，若conf＜0.15则不输出分类结果。

2.根据权利要求1所述的基于改进Resnet的实时手势识别方法，其特征在于：

步骤S1具体包括以下步骤：

步骤S13：设D＝{d₁，d₂，…，d_n}为手势检测网络的滑动窗口中的图像帧的集合，d_i为滑动窗口中的第i帧图像，DET(·)为手势检测网络模型，t＝DET(D)为当前滑动窗口中的视频对应的特征，将特征t通过最后一个全连接层W，得到s₀和s₁，s₀为不存在手势这一类的分数，s₁为存在手势这一类的分数。