CN114170676A - 一种手势识别方法及相关设备 - Google Patents

一种手势识别方法及相关设备 Download PDF

Info

Publication number
CN114170676A
CN114170676A CN202111329923.8A CN202111329923A CN114170676A CN 114170676 A CN114170676 A CN 114170676A CN 202111329923 A CN202111329923 A CN 202111329923A CN 114170676 A CN114170676 A CN 114170676A
Authority
CN
China
Prior art keywords
picture
gesture
training
neural network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111329923.8A
Other languages
English (en)
Inventor
李兆冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lantu Automobile Technology Co Ltd
Original Assignee
Lantu Automobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lantu Automobile Technology Co Ltd filed Critical Lantu Automobile Technology Co Ltd
Priority to CN202111329923.8A priority Critical patent/CN114170676A/zh
Publication of CN114170676A publication Critical patent/CN114170676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种手势识别方法及相关设备。该方法包括:获取图像数据;获取手势图像数据;利用卷积神经网络模型对手势图像数据中的手势进行识别,其中,卷积神经网络模型是基于扩充训练图片训练得到的,扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。本申请的实例通过合理的设计卷积层,池化层,全连接层之间的排列顺序,以及合理地选择每层神经网络的激活函数和卷积核的尺寸,并通过包括平移图片、旋转图片、缩放图片和剪切图片在内的扩充训练图片对模型进行训练,可以减少对于手势位置远近、方向、图像的背景和光照条件对于识别结果的影响。此模型训练速度快,能够对车辆中不同用户,在不同使用场景下的手势有很好的识别效果。

Description

一种手势识别方法及相关设备
技术领域
本说明书涉及图像识别领域,更具体地说,本发明涉及一种手势识别方法及相关设备。
背景技术
随着汽车智能化的程度越来越高,车机的功能也越来越丰富。现如今大多数的新车上都配备了诸如观看视频,播放音乐,查看照片等功能。且随着功能的增多,车机***的交互页面层级也越来越深,越来越复杂。以播放音乐为例,用户在使用过程中需要在屏幕上频繁点击:上一首,下一首,调高/调低音量,进入下一页,返回上一页等按钮。用户操作时需要手脑并用,这无疑会影响行车安全。由于操作车机而造成车祸的新闻也并不少见。因此,许多汽车厂家开发了手势控制功能,借助用户的手势采取非接触的方式控制车机***。
现有的解决方案是在一个通用的图像识别算法模型上输入手势照片进行学习后形成一个手势识别的算法模型。以目前使用的模型为例,虽然该模型已经为了在移动端设备上运行已经进行了简化,其仍然拥有超过300万个参数。这样带来的一个明显弊端就是需要花费大量的时间和计算资源来进行训练,并且在部署在行动端的时候占用空间较大。此外,这种模型往往要求输入数千张具有较高的分辨率的图像才能达到理想的训练效果,而采集这些图像需要花费大量的工作量。同时因为保密要求,这种数量级的图像的存储,转移工作也较为繁琐。最后,数千数量级的图像并不足以支撑图像的增广操作,从而导致训练模型容易出现过拟合,通用性不佳的问题。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
为至少部分地解提高模型训练速度并提高模型识别精度的问题,第一方面,本发明提出一种手势识别方法,上述方法包括:
获取手势图像数据;
利用卷积神经网络模型对上述手势图像数据中的手势进行识别,其中,上述卷积神经网络模型是基于扩充训练图片训练得到的,上述扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。
可选的,上述平移图片包括水平平移图片和竖直平移图片。
可选的,上述扩充训练图片的平移、旋转、缩放和剪切参数是基于上述车辆的驾驶舱内场景确定的。
可选的,上述优化卷积神经网络模型包括二维卷积层、最大池化层、一维展开层和全连接层。
可选的,上述扩充训练图片为黑白图片。
可选的,上述扩充训练图片采用加密压缩算法储存。
可选的,上述扩充训练图片的大小为32×32像素。
第二方面,本发明还提出一种手势识别装置,包括:
获取单元,用于获取手势图像数据;
识别单元,用于利用卷积神经网络模型对上述手势图像数据中的手势进行识别,其中,上述卷积神经网络模型是基于扩充训练图片训练得到的,上述扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。
第三方面,一种电子设备,包括:储存器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器用于执行存储器中存储的计算机程序时实现如上述的第一方面任一项的手势识别方法的步骤。
第四方面,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现第一方面上述任一项的手势识别方法的步骤。
综上,本申请提出的手势识别方法包括:获取手势图像数据;利用卷积神经网络模型对手势图像数据中的手势进行识别,其中,卷积神经网络模型是基于扩充训练图片训练得到的,扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。本申请的实例通过合理的设计卷积层,池化层,全连接层之间的排列顺序,以及合理地选择每层神经网络的激活函数和卷积核的尺寸,并通过包括平移图片、旋转图片、缩放图片和剪切图片在内的扩充训练图片对模型进行训练,可以减少对于手势位置远近、方向、照片的背景和光照条件对于识别结果的影响。此模型训练速度快,能够对车辆中不同用户在不同场景下的手势有很好的识别效果。
本发明的手势识别方法,本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种手势识别方法流程示意图;
图2为本申请实施例提供的一种加密压缩算法原理示意图;
图3为本申请实施例提供的一种卷积神经网络模型与现有模型的训练收敛结果示意图;
图4为本申请实施例提供的一种卷积神经网络模型未使用扩充训练图片训练收敛结果示意图;
图5为本申请实施例提供的一种手势识别装置结构示意图;
图6为本申请实施例提供的一种手势识别电子设备结构示意图。
具体实施方式
本申请的实例通过合理的设计卷积层,池化层,全连接层之间的排列顺序,以及合理地选择每层神经网络的激活函数和卷积核的尺寸,并通过包括平移图片、旋转图片、缩放图片和剪切图片在内的扩充训练图片对模型进行训练,可以减少对于手势位置远近、方向、照片的背景和光照条件对于识别结果的影响。此模型训练速度快,能够对车辆中不同用户在不同场景下的手势有很好的识别效果。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
请参阅图1,为本申请实施例提供的一种手势识别方法流程示意图,具体可以包括:
S110、获取手势图像数据;
具体的,随着车辆智能化程度越来越高,车辆需要进行人机交互的场景也逐渐增多。随着技术的发展,交互的方式由传统的按键、旋钮和触摸屏,逐渐向语音和手势等更为高级的方向发展。通过准确地获取驾驶员的手势,判断驾驶员的意图,从而根据驾驶员的意图控制车辆进行行驶或完成其他辅助工作,可以使得驾驶行为更为轻松舒适。
在车辆的驾驶舱内设置一个或多个摄像头,通过摄像头对驾驶员的动作进行捕捉,并将捕捉后的图像发送至相应的模块,用于图像识别操作。
S120、利用卷积神经网络模型对上述手势图像数据中的手势进行识别,其中,上述卷积神经网络模型是基于扩充训练图片训练得到的,上述扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。
具体的,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学***移不变分类,因此也被称为“平移不变人工神经网络”。通过合理的设计卷积层,池化层,全连接层之间的排列顺序,以及合理地选择每层神经网络的激活函数和卷积核的尺寸,可以增加识别效率,提高识别成功率。在确定了卷积神经网络结构后,对模型通过既定手势的图片进行训练,通过训练后的模型可以对用户的动作做出识别,从而根据识别到的手势与既定指令的对应关系,完成人机交互。
在车辆的驾驶舱内由于乘客的身材,坐姿,习惯座椅位置,手势使用习惯和使用环境都有很大的差异,这直接导致了舱内摄像头在取景时,人手在照片中的位置,远近,方向,包括照片的背景,光照条件都会不一样。因此直接使用具体手势的规则图片进行训练并不能覆盖舱内复杂多变的应用场景,进而导致在用户实际使用过程中出现误识别现象。为解决这个问题,根据车辆的空间结构与摄像头的位置,以及不同用户的不同使用习惯对图片进行针对性的变换扩充数据集可以尽可能地覆盖舱内不同用户的手势使用场景。
通过扩充平移图片、旋转图片、缩放图片和剪切图片可以有效地消除由于驾驶员身材、坐姿、动作习惯、与镜头的角度和距离对于识别结果带来的影响。
综上,本申请的实施例通过合理的设计卷积层,池化层,全连接层之间的排列顺序,以及合理地选择每层神经网络的激活函数和卷积核的尺寸,并通过包括平移图片、旋转图片、缩放图片和剪切图片在内的扩充训练图片对模型进行训练。此模型训练速度高,能够对车辆中不同用户的手势有很好的识别效果,可以减少对于手势位置远近,方向,包括照片的背景,光照条件对于识别结果的影响。
在一些示例中,上述平移图片包括水平平移图片和竖直平移图片。
具体的,平移图片包括水平平移图片和竖直平移图片,基于水平平移图片和竖直平移图片可以涵盖用户用于坐姿和抬手高度对于手势识别的影响。通过水平平移图片和竖直平移图片训练后的模型,能够更好地对车内用户的手势做出精确地识别。
在一些示例中,上述扩充训练图片的平移、旋转、缩放和剪切参数是基于上述车辆的驾驶舱内场景确定的。
具体的,由于驾驶舱的空间是固定的,因此对于识别到的用户的手势的方位、角度和大小,只有一部分扩充数据用于模型训练时,能够保证样本量不至于过大,也能较好地涵盖用户的大部分手势动作。经过试验得知,当平移、旋转、缩放和剪切参数为下列参数时训练模型可以快速收敛,并且识别的成功率和识别速度可以保持很高的水平,具体的数值如下:
水平平移:±20%;
竖直平移:±20%;
旋转角度:±10°;
缩放:0%-50%;
剪切变换:0%-20%;
综上,基于驾驶舱的特定场景确定平移、旋转、缩放和剪切参数,并用于模型训练,可以减少模型训练所需时间,并提升模型识别用户手势的成功率。
在一些示例中,上述优化卷积神经网络模型包括二维卷积层、最大池化层、一维展开层和全连接层。
具体的,经分析现有模型计算结果,现有模型提取出的手势图像特征在模型的中后段趋于统一且变化较小,通过这个现象可以说明在进行手势识别的过程中,深度并不需要很大,可以使用两个卷积层来提取有效的手势特征,搭配使用池化层减少像素量,在模型的尾部使用全连接层来做手势预测。具体的模型结构可以是:
第一层:二维卷积层,频道数32,卷积核尺寸3x3,激活函数为线性整流函数;
第二层:最大池化层,窗口尺寸2x2;
第三层:二维卷积层,频道数32,卷积核尺寸3x3,激活函数为线性整流函数;
第四层:最大池化层,窗口尺寸2x2;
第五层:一维展开层,将多维张量降维成一维向量;
第六层:全连接层,神经元数:512,激活函数为线性整流函数;
第七层:全连接层,神经元数:25,激活函数为柔性最大值函数。该模型只有432505个参数,相较于原始模型参数数量降低了87%。
综上,本实施例通过合理地配置不同神经网络层,可以在保证识别精度的基础上,缩短识别所需时间,并搭配池化层减少像素量,同样起到了提升识别速度的效果,并通过设置全连接层,可以对手势做出很好的预测。
在一些示例中,上述扩充训练图片为黑白图片。
具体的,由于用户在做出手势的时候,人的手势与背景的区分度较高,此时可以采用黑白图片进行训练和识别,采用黑白图片不仅可以忽略光线强度对于识别结果的影响,还可以提升训练和识别速度。
综上,采用黑白图片作为训练图片可以忽略光线对于手势识别的影响,同时可以提升训练速度和识别速度。
请参阅图2,图2为本申请实施例提供的一种加密压缩算法原理示意图。
在一些示例中,上述扩充训练图片采用加密压缩算法储存。
具体的,可采用下述方法进行压缩,将多维向量按照预先设定的规则压缩至一维向量中:
Label=double(image.label)//image为原图,本次操作为取原图的标签
For row in image://row为图片中的一行像素值
For(i=0,i<32,i++):
Vector.append(row[i])//Vector为图片压缩后的一维向量
End for
End for
Vector.concat(Label,vector)//将压缩后的一维向量与原图的标签匹配在一起
压缩过的图像可以被写入一个表格文件中统一保存,这样就把原先分散的数千张图片全部压缩入一个文件中,极大方便了数据的存贮和转移,同时压缩后的图像相当于做了一层加密,保证了数据的安全性。当需要使用数据时只需按如下方法进行反向操作即可将图片还原:
For(k=0,k<Vector.length-1,k++)://Vector.length取一维向量的长度
For(i=0,i<32,i++):
For(j=0,j<32,j++)://i j分别表征还原图片(image,像素矩阵)的行索引与列索引
image[i][j]=vector[k]
End for
End for
End for
图2以一个3×3的图片为例说明了图像的压缩和还原过程,将原本为3行3列的原始图片压缩为1行9列的一维向量,并根据前述的压缩算法,反解算出原始图像。
需要说明的是,本实施例提出的加密方案只是为了说明本方法的方案,开发者可以设置更为复杂的加密算法,以供本方案使用。此外,图片的尺寸3×3不作为本方案适用方法中图片尺寸的限制,只是为了更清楚地说明本方案提供的方法。
综上,通过设置加密压缩算法,可缩小训练图片的尺寸,减少训练图片占用的空间,同时通过加密压缩算法,对数据进行了加密,保证了数据的安全性。
在一些示例中,上述扩充训练图片的大小为32×32像素。
具体的,将扩充训练图片的大小设置为32×32像素能够很好地覆盖车内绝大多数的手势识别场景,可以兼顾训练速度和识别精度。且相比于现有技术中的图片尺寸为150×150像素,图像尺寸简化了近80%。
在一些示例中,通过本方案提供的手势识别方法与现有技术中的手势识别方法做性能比较。
具体的,使用一个基准数据集来验证本申请提出的手势识别方法的性能,该数据集含有34627张手势照片。训练结果如图3所示,从图中可以看出新算法在大约在80次循环后达到收敛(验证精度稳定在90%左右,上下浮动小于0.3%),作为对比右图是在原有模型上的训练结果,从图中可以看出该模型在同样的训练次数下无法达到收敛。图4展示了未采用图像增广的训练结果,从图中可以发现模型很快便出现了过拟合的现象,且验证损失无法收敛,甚至有上升趋势,这代表模型识别的不稳定性在增加。以上实验结果表明,新的算法模型在未牺牲识别精确度的情况下减少了收敛次数,缩短了收敛时间;采用扩充训练图片有效解决了过拟合问题,使得模型在未知场景下识别性能更加稳定。表1详细表述了本实施模型与现有技术模型识别效果对比(其中过拟合率的衡量方法为训练精确度与验证精确度的差值),由此可见本申请提出的手势识别方法具有训练时间短,过拟合率低的优点。
本实施例模型 现有技术模型
参数量 432505 3538984
输入图像尺寸 32×32 640×480
平均识别精度 90.10% 91.20%
单循环训练时间 10s 18s
收敛时间 15min 65min
过拟合率 0.05% 10%
表1
请参阅图5,本申请实施例中手势识别装置的一个实施例,可以包括:
获取单元21,用于获取手势图像数据;
识别单元22,用于利用卷积神经网络模型对上述手势图像数据中的手势进行识别,其中,上述卷积神经网络模型是基于扩充训练图片训练得到的,上述扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。
如图6所示,本申请实施例还提供一种电子设备300,包括存储器310、处理器320及存储在存储器320上并可在处理器上运行的计算机程序311,处理器320执行计算机程序311时实现上述手势识别的任一方法的步骤。
由于本实施例所介绍的电子设备为实施本申请实施例中一种手势识别装置所采用的设备,故而基于本申请实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍,只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
在具体实施过程中,该计算机程序311被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的手势识别的流程。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修该,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种手势识别方法,用于车辆,其特征在于,包括:
获取手势图像数据;
利用卷积神经网络模型对所述手势图像数据中的手势进行识别,其中,所述卷积神经网络模型是基于扩充训练图片训练得到的,所述扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。
2.如权利要求1所述的方法,其特征在于,所述平移图片包括水平平移图片和竖直平移图片。
3.如权利要求2所述的方法,其特征在于,所述扩充训练图片的平移、旋转、缩放和剪切参数是基于所述车辆的驾驶舱内场景确定的。
4.如权利要求1所述的方法,其特征在于,所述优化卷积神经网络模型包括二维卷积层、最大池化层、一维展开层和全连接层。
5.如权利要求1所述的方法,其特征在于,所述扩充训练图片为黑白图片。
6.如权利要求1所述的方法,其特征在于,所述扩充训练图片采用加密压缩算法储存。
7.如权利要求1所述的方法,其特征在于,所述扩充训练图片的大小为32×32像素。
8.一种手势识别装置,其特征在于,包括:
获取单元,用于获取手势图像数据;
识别单元,用于利用卷积神经网络模型对所述手势图像数据中的手势进行识别,其中,所述卷积神经网络模型是基于扩充训练图片训练得到的,所述扩充训练图片包括平移图片、旋转图片、缩放图片和剪切图片中的至少一种。
9.一种电子设备,包括:储存器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的手势识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的手势识别方法的步骤。
CN202111329923.8A 2021-11-11 2021-11-11 一种手势识别方法及相关设备 Pending CN114170676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111329923.8A CN114170676A (zh) 2021-11-11 2021-11-11 一种手势识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111329923.8A CN114170676A (zh) 2021-11-11 2021-11-11 一种手势识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN114170676A true CN114170676A (zh) 2022-03-11

Family

ID=80478679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111329923.8A Pending CN114170676A (zh) 2021-11-11 2021-11-11 一种手势识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN114170676A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206405A1 (en) * 2016-01-14 2017-07-20 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN110096991A (zh) * 2019-04-25 2019-08-06 西安工业大学 一种基于卷积神经网络的手语识别方法
CN110889306A (zh) * 2018-09-07 2020-03-17 广州汽车集团股份有限公司 一种基于摄像头的车载手势识别方法及***
CN111401166A (zh) * 2020-03-06 2020-07-10 中国科学技术大学 基于肌电信息解码的鲁棒手势识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206405A1 (en) * 2016-01-14 2017-07-20 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN110889306A (zh) * 2018-09-07 2020-03-17 广州汽车集团股份有限公司 一种基于摄像头的车载手势识别方法及***
CN110096991A (zh) * 2019-04-25 2019-08-06 西安工业大学 一种基于卷积神经网络的手语识别方法
CN111401166A (zh) * 2020-03-06 2020-07-10 中国科学技术大学 基于肌电信息解码的鲁棒手势识别方法

Similar Documents

Publication Publication Date Title
Jam et al. A comprehensive review of past and present image inpainting methods
WO2020224457A1 (zh) 图像处理方法及装置、电子设备和存储介质
CN108229277B (zh) 手势识别、手势控制及多层神经网络训练方法、装置及电子设备
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
Ren et al. Deblurring dynamic scenes via spatially varying recurrent neural networks
TWI543610B (zh) 電子裝置及其影像選擇方法
US10643667B2 (en) Bounding box doubling as redaction boundary
Agarwal et al. Anubhav: recognizing emotions through facial expression
CN111010590A (zh) 一种视频裁剪方法及装置
CN113850833A (zh) 使用降低分辨率的神经网络和先前帧的掩模的视频帧分割
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
EP4024270A1 (en) Gesture recognition method, electronic device, computer-readable storage medium, and chip
CN111402170A (zh) 图像增强方法、装置、终端及计算机可读存储介质
US20180068451A1 (en) Systems and methods for creating a cinemagraph
US20210127071A1 (en) Method, system and computer program product for object-initiated redaction of surveillance video
CN112464833A (zh) 基于光流的动态手势识别方法、装置、设备及存储介质
CN108932702A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
Liu et al. Fastshrinkage: Perceptually-aware retargeting toward mobile platforms
CN114390201A (zh) 对焦方法及其装置
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN112115811A (zh) 基于隐私保护的图像处理方法、装置和电子设备
Chamasemani et al. Video abstraction using density-based clustering algorithm
CN112580435B (zh) 人脸定位方法、人脸模型训练与检测方法及装置
CN113225451A (zh) 图像处理方法、装置和电子设备
CN115578683B (zh) 一种动态手势识别模型的搭建方法及动态手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination