CN113435340B - 基于改进Resnet的实时手势识别方法 - Google Patents

基于改进Resnet的实时手势识别方法 Download PDF

Info

Publication number
CN113435340B
CN113435340B CN202110722834.3A CN202110722834A CN113435340B CN 113435340 B CN113435340 B CN 113435340B CN 202110722834 A CN202110722834 A CN 202110722834A CN 113435340 B CN113435340 B CN 113435340B
Authority
CN
China
Prior art keywords
gesture
classification
network
result
sliding window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110722834.3A
Other languages
English (en)
Other versions
CN113435340A (zh
Inventor
柯逍
卞永亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110722834.3A priority Critical patent/CN113435340B/zh
Publication of CN113435340A publication Critical patent/CN113435340A/zh
Application granted granted Critical
Publication of CN113435340B publication Critical patent/CN113435340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出一种基于改进Resnet的实时手势识别方法,包括以下步骤:步骤S1:通过滑动窗口将视频流作为手势检测网络的输入,手势检测网络输出是否检测到手势;步骤S2:将检测结果通过滤波器,滤波器结合历史信息输出最终的检测结果;步骤S3:若滤波器的输出表示检测到手势,则将滑动窗口中的视频流输入手势分类网络,手势分类网络输出分类结果;步骤S4:对分类结果进行过滤,输出满足条件的分类结果。该方法能够有效地对视频中的手势进行识别。

Description

基于改进Resnet的实时手势识别方法
技术领域
本发明属于模式识别与计算机视觉技术领域,尤其涉及一种基于改进Resnet的实时手势识别方法。
背景技术
手势作为一种十分舒适的人机交互方式,目前已被应用于生活的许多方面,例如手语识别,设备控制等。因此,随着神经网络技术的成熟,基于计算机视觉的手势识别正成为一股热潮。在实际应用时,如何从视频流中识别手势,以及如何在保证***的实时性的同时兼顾准确性也为实时手势识别加大了难度。尽管手势识别技术已经取得很大进步,在真实环境中还面临着许多挑战,如光照、距离等诸多因素都会影响手势识别的性能。
发明内容
针对现有技术的空白,本发明提出了一种基于改进Resnet的实时手势识别方法,包括以下步骤:步骤S1:通过滑动窗口将视频流作为手势检测网络的输入,手势检测网络输出是否检测到手势;步骤S2:将检测结果通过滤波器,滤波器结合历史信息输出最终的检测结果;步骤S3:若滤波器的输出表示检测到手势,则将滑动窗口中的视频流输入手势分类网络,手势分类网络输出分类结果;步骤S4:对分类结果进行过滤,输出满足条件的分类结果。该方法能够有效地对视频中的手势进行识别。
本发明具体采用以下技术方案:
一种基于改进Resnet的实时手势识别方法,其特征在于,包括以下步骤:
步骤S1:通过滑动窗口将视频流作为手势检测网络的输入,手势检测网络输出是否检测到手势;
步骤S2:将检测结果通过滤波器,滤波器结合历史信息输出最终的检测结果;
步骤S3:若滤波器的输出表示检测到手势,则将滑动窗口中的视频流输入手势分类网络,手势分类网络输出分类结果;
步骤S4:对分类结果进行过滤,输出满足条件的分类结果;
在步骤S1中,采用的特征提取网络包括第一改进型Resnet10和第二改进型Resnet10;
所述第一改进型Resnet10将Resnet10的第一个7×7的卷积核改为5×5,步长改为1,并将第三个残差块中的第一个卷积的步长改为1;
所述第二改进型Resnet10将Resnet10的第一个7×7的卷积核改为9×9,步长改为4,将第三个残差块由瓶颈式残差块改为基础残差块,并将整个网络中第一个卷积核之后的卷积核都改为5×5,且步长改为3;
将所述第一改进型Resnet10和第二改进型Resnet10两个网络的输出进行连接操作,通过两个改进型Resnet10中的基础残差块,再通过步长为2平均池化层,得到手势特征t;
在步骤S3中,所述手势分类网络以Resnet101为基础,将Resnet101的第二个瓶颈残差块提取的特征与所述手势检测网络提取的特征进行连接,得到手势分类网络的结构。
进一步地,步骤S1具体包括以下步骤:
步骤S11:选取手势识别训练集Jester作为数据集,并获得训练数据的相关标注;
步骤S12:将手势检测网络的滑动窗口的长度n设为8,进行手势检测,得到手势特征t;
步骤S13:设D={d1,d2,…,dn}为手势检测网络的滑动窗口中的图像帧的集合,di为滑动窗口中的第i帧图像,DET(·)为手势检测网络模型,t=DET(D)为当前滑动窗口中的视频对应的特征,将特征t通过最后一个全连接层W,得到s0和s1,s0为不存在手势这一类的分数,s1为存在手势这一类的分数。
进一步地,步骤S2的具体方法为:
Figure BDA0003137210800000021
Figure BDA0003137210800000022
分别为前j个时间滑动窗口的存在手势与不存在手势的分数,wj为前j个时间对应的权重,wj的计算公式为
Figure BDA0003137210800000023
其中filter为所记录历史信息的个数,滤波器的分数
Figure BDA0003137210800000024
若sf>3,则认为检测器检测到手势。
进一步地,步骤S3具体包括以下步骤:
步骤S31:构建手势分类网络;
步骤S32:设m为手势分类网络的滑动窗口大小,C={d1,d2,…,dm}为手势分类网络的滑动窗口图像的集合,当滤波器的输出为存在手势,则将手势分类网络的滑动窗口中的数据输入到手势分类网络,CLA(·)为手势分类网络模型,fea=CLA(C)为手势分类网络提取的特征;
步骤S33:将手势分类网络提取到的特征fea依次经过平均池化层,全连接层FULL,得到每个类别的分数scorea,a表示手势的类别,scorea表示类别为a的手势的分数;再通过Softmax激活函数得到各类的分类概率Pa,计算公式为
Figure BDA0003137210800000031
其中class表示手势的类别数量,分类概率Pa最大的类作为预测结果输出。
进一步地,步骤S4中,具体包括以下步骤:
步骤S41:若当前手势分类网络的输出结果与上一分类结果的时间戳间隔大于等于0.75秒,则将当前结果作为最终结果;
步骤S42:若当前手势分类网络的输出结果与上一分类结果的时间戳间隔小于0.75秒,计算最大分类概率与第二分类概率之差conf=Pmax-Psecond,其中Pmax为最大的分类概率,Psecond为第二大的分类概率,若conf>0.15,则将分类概率最大的类作为分类结果输出,若conf<0.15则不输出分类结果。
相较于现有技术,本发明及其优选方案具有以下有益效果:
1、能够有效地对视频中的动态手势进行识别,提升了手势识别的准确率。
2、能够在模型训练过程中减轻梯度消失的现象,使得即使网络结构很深,在训练时也能有良好的收敛速度与准确度。
3、相比于传统的Resnet网络结构,本发明提出的网络通过改变卷积核大小,构建多特征提取网络,对不同大小的特征进行提取,提升了手部在不同距离时识别的准确率。
4、针对单一手势网络会输出多个分类结果的问题,本发明在分类网络输出结果后对其结果进行后处理,保证短时间内不会有大量分类结果输出,使得网络更加贴合实际应用。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1为本发明实施例整体流程步骤示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本发明提供了一种基于改进Resnet的实时手势识别方法,包括以下步骤:
步骤S1:通过滑动窗口将视频流作为手势检测网络的输入,手势检测网络输出是否检测到手势;
步骤S2:将检测结果通过滤波器,滤波器结合历史信息输出最终的检测结果;
步骤S3:若滤波器的输出表示检测到手势,则将滑动窗口中的视频流输入手势分类网络,手势分类网络输出分类结果;
步骤S4:对分类结果进行过滤,仅输出满足条件的分类结果。
在本实施例中,步骤S1具体包括以下步骤:
步骤S11:从网络上获取公开的手势识别训练集Jester数据集,并获得训练数据的相关标注;
步骤S12:手势检测网络的滑动窗口的长度n设为8,第一个特征提取网络在Resnet10的基础上做了以下改进,将第一个7×7的卷积核改为5×5,步长改为1,并将第三个残差块中的第一个卷积的步长改为1,这样可以提高对距离较远的手势的检测准确率。第二个特征提取网络在Resnet10的基础上做了以下改进,将第一个7×7的卷积核改为9×9,步长改为4,将第三个残差块由瓶颈式残差块改为基础残差块,并将整个网络中第一个卷积核之后的卷积核都改为5×5,且步长改为3,这样做可以提高手势较近时的检测准确率。将上述两个网络的输出进行连接操作,通过两个Resnet10中的基础残差块,再通过步长为2平均池化层,得到手势特征t;
步骤S13:设D={d1,d2,…,dn}为手势检测网络的滑动窗口中的图像帧的集合,di为滑动窗口中的第i帧图像,DET(·)为用于检测手势的Resnet神经网络模型,t=DET(D)为当前滑动窗口中的视频对应的特征,将特征t通过最后一个全连接层W,得到s0和s1,s0为不存在手势这一类的分数,s1为存在手势这一类的分数。
在本实施例中,步骤S2具体方法为:
Figure BDA0003137210800000051
Figure BDA0003137210800000052
分别为前j个时间滑动窗口的存在手势与不存在手势的分数,wj为前j个时间对应的权重,wj的计算公式为
Figure BDA0003137210800000053
其中filter为所记录历史信息的个数,滤波器的分数
Figure BDA0003137210800000054
若sf>3,则认为检测器检测到手势,这样做的好处是当手势短暂离开画面时也能保证***整体的可靠性。
在本实施例中,步骤S3包括以下步骤:
步骤S31:手势分类网络以Resnet101为基础,将Resnet101的第二个瓶颈残差块提取的特征与步骤1中的手势检测网络提取的特征进行连接,得到手势分类网络的结构。
步骤S32:设m为手势分类网络的滑动窗口大小,C={d1,d2,…,dm}为手势分类网络的滑动窗口图像的集合,当滤波器的输出为存在手势,则将手势分类网络的滑动窗口中的数据输入到手势分类网络,CLA(·)为用于分类手势的Resnet神经网络模型,fea=CLA(C)为手势分类网络提取的特征。
步骤S33:将手势分类网络提取到的特征fea依次经过平均池化层,全连接层FULL,得到每个类别的分数scorea,a表示手势的类别,scorea表示类别为a的手势的分数。再通过Softmax激活函数得到各类的分类概率Pa,计算公式为
Figure BDA0003137210800000055
其中class表示手势的类别数量。
步骤S4中,具体包括以下步骤:
步骤S41:若当前手势分类网络的输出结果与上一分类结果的时间戳间隔大于等于0.75秒,则将当前结果作为最终结果;
步骤S42:若当前手势分类网络的输出结果与上一分类结果的时间戳间隔小于0.75秒,计算最大分类概率与第二分类概率之差conf=Pmax-Psecond,其中Pmax为最大的分类概率,Psecond为第二大的分类概率,若conf>0.15,则将分类概率最大的类作为分类结果输出,若conf<0.15则不输出分类结果。
专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于改进Resnet的实时手势识别方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (2)

1.一种基于改进Resnet的实时手势识别方法,其特征在于,包括以下步骤:
步骤S1:通过滑动窗口将视频流作为手势检测网络的输入,手势检测网络输出是否检测到手势;
步骤S2:将检测结果通过滤波器,滤波器结合历史信息输出最终的检测结果;
步骤S3:若滤波器的输出表示检测到手势,则将滑动窗口中的视频流输入手势分类网络,手势分类网络输出分类结果;
步骤S4:对分类结果进行过滤,输出满足条件的分类结果;
在步骤S1中,采用的特征提取网络包括第一改进型Resnet10和第二改进型Resnet10;
所述第一改进型Resnet10将Resnet10的第一个7×7的卷积核改为5×5,步长改为1,并将第三个残差块中的第一个卷积的步长改为1;
所述第二改进型Resnet10将Resnet10的第一个7×7的卷积核改为9×9,步长改为4,将第三个残差块由瓶颈式残差块改为基础残差块,并将整个网络中第一个卷积核之后的卷积核都改为5×5,且步长改为3;
将所述第一改进型Resnet10和第二改进型Resnet10两个网络的输出进行连接操作,通过两个改进型Resnet10中的基础残差块,再通过步长为2平均池化层,得到手势特征t;
在步骤S3中,所述手势分类网络以Resnet101为基础,将Resnet101的第二个瓶颈残差块提取的特征与所述手势检测网络提取的特征进行连接,得到手势分类网络的结构;
步骤S2的具体方法为:
Figure FDA0003579133190000011
Figure FDA0003579133190000012
分别为前j个时间滑动窗口的存在手势与不存在手势的分数,wj为前j个时间对应的权重,wj的计算公式为
Figure FDA0003579133190000013
其中filter为所记录历史信息的个数,滤波器的分数
Figure FDA0003579133190000014
若sf>3,则认为检测器检测到手势;
步骤S3具体包括以下步骤:
步骤S31:构建手势分类网络;
步骤S32:设m为手势分类网络的滑动窗口大小,C={d1,d2,…,dm)为手势分类网络的滑动窗口图像的集合,当滤波器的输出为存在手势,则将手势分类网络的滑动窗口中的数据输入到手势分类网络,CLA(·)为手势分类网络模型,fea=CLA(C)为手势分类网络提取的特征;
步骤S33:将手势分类网络提取到的特征fea依次经过平均池化层,全连接层FULL,得到每个类别的分数scorea,a表示手势的类别,scorea表示类别为a的手势的分数;再通过Softmax激活函数得到各类的分类概率Pa,计算公式为
Figure FDA0003579133190000021
其中class表示手势的类别数量,分类概率Pa最大的类作为预测结果输出;
步骤S4中,具体包括以下步骤:
步骤S41:若当前手势分类网络的输出结果与上一分类结果的时间戳间隔大于等于0.75秒,则将当前结果作为最终结果;
步骤S42:若当前手势分类网络的输出结果与上一分类结果的时间戳间隔小于0.75秒,计算最大分类概率与第二分类概率之差conf=Pmax-Psecond,其中Pmax为最大的分类概率,Psecond为第二大的分类概率,若conf>0.15,则将分类概率最大的类作为分类结果输出,若conf<0.15则不输出分类结果。
2.根据权利要求1所述的基于改进Resnet的实时手势识别方法,其特征在于:
步骤S1具体包括以下步骤:
步骤S11:选取手势识别训练集Jester作为数据集,并获得训练数据的相关标注;
步骤S12:将手势检测网络的滑动窗口的长度n设为8,进行手势检测,得到手势特征t;
步骤S13:设D={d1,d2,…,dn}为手势检测网络的滑动窗口中的图像帧的集合,di为滑动窗口中的第i帧图像,DET(·)为手势检测网络模型,t=DET(D)为当前滑动窗口中的视频对应的特征,将特征t通过最后一个全连接层W,得到s0和s1,s0为不存在手势这一类的分数,s1为存在手势这一类的分数。
CN202110722834.3A 2021-06-29 2021-06-29 基于改进Resnet的实时手势识别方法 Active CN113435340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110722834.3A CN113435340B (zh) 2021-06-29 2021-06-29 基于改进Resnet的实时手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110722834.3A CN113435340B (zh) 2021-06-29 2021-06-29 基于改进Resnet的实时手势识别方法

Publications (2)

Publication Number Publication Date
CN113435340A CN113435340A (zh) 2021-09-24
CN113435340B true CN113435340B (zh) 2022-06-10

Family

ID=77757385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110722834.3A Active CN113435340B (zh) 2021-06-29 2021-06-29 基于改进Resnet的实时手势识别方法

Country Status (1)

Country Link
CN (1) CN113435340B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052884A (zh) * 2017-12-01 2018-05-18 华南理工大学 一种基于改进残差神经网络的手势识别方法
CN111209885A (zh) * 2020-01-13 2020-05-29 腾讯科技(深圳)有限公司 一种手势信息处理方法、装置、电子设备及存储介质
WO2020244071A1 (zh) * 2019-06-06 2020-12-10 平安科技(深圳)有限公司 基于神经网络的手势识别方法、装置、存储介质及设备
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052884A (zh) * 2017-12-01 2018-05-18 华南理工大学 一种基于改进残差神经网络的手势识别方法
WO2020244071A1 (zh) * 2019-06-06 2020-12-10 平安科技(深圳)有限公司 基于神经网络的手势识别方法、装置、存储介质及设备
CN111209885A (zh) * 2020-01-13 2020-05-29 腾讯科技(深圳)有限公司 一种手势信息处理方法、装置、电子设备及存储介质
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Real-time one-shot learning gesture recognition based on lightweight 3D Inception-ResNet with separable convolutions;Li, LW (Li, Lianwei) at el.;《PATTERN ANALYSIS AND APPLICATIONS》;20210430;全文 *
基于卷积神经网络的手势识别网络;官巍等;《西安邮电大学学报》;20191110(第06期);全文 *
基于深度学习的手势识别算法研究与应用;熊才华;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210615;全文 *

Also Published As

Publication number Publication date
CN113435340A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
WO2021103868A1 (zh) 一种行人结构化方法、装置、设备和存储介质
CN110308795B (zh) 一种动态手势识别方法及***
JP2004054956A (ja) 顔/類似顔映像で学習されたパターン分類器を利用した顔検出方法及びシステム
CN104268586A (zh) 一种多视角动作识别方法
CN112801000B (zh) 一种基于多特征融合的居家老人摔倒检测方法及***
Harini et al. Sign language translation
CN109101108A (zh) 基于三支决策优化智能座舱人机交互界面的方法及***
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
CN111652017A (zh) 一种动态手势识别方法及***
Patel et al. Hand gesture recognition system using convolutional neural networks
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
Silanon Thai Finger‐Spelling Recognition Using a Cascaded Classifier Based on Histogram of Orientation Gradient Features
Koli et al. Human action recognition using deep neural networks
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及***
CN112926522A (zh) 一种基于骨骼姿态与时空图卷积网络的行为识别方法
Hussein et al. Emotional stability detection using convolutional neural networks
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
Singh et al. Feature based method for human facial emotion detection using optical flow based analysis
CN111950452A (zh) 一种人脸识别方法
CN113435340B (zh) 基于改进Resnet的实时手势识别方法
Pariselvam An interaction system using speech and gesture based on CNN
Gupta et al. Progression modelling for online and early gesture detection
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
WO2022227512A1 (zh) 一种单阶段动态位姿识别方法、装置和终端设备
Jain et al. Ensembled Neural Network for Static Hand Gesture Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant