CN110096991A - 一种基于卷积神经网络的手语识别方法 - Google Patents
一种基于卷积神经网络的手语识别方法 Download PDFInfo
- Publication number
- CN110096991A CN110096991A CN201910340257.4A CN201910340257A CN110096991A CN 110096991 A CN110096991 A CN 110096991A CN 201910340257 A CN201910340257 A CN 201910340257A CN 110096991 A CN110096991 A CN 110096991A
- Authority
- CN
- China
- Prior art keywords
- layer
- sign language
- neural networks
- convolutional neural
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000002203 pretreatment Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于卷积神经网络的手语识别方法,具体的步骤为:步骤1,采集若干含有手语的深度图像;步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;构建一个卷积神经网络模型;步骤3,利用所述训练样本对卷积神经网络模型对进行训练;步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。本发明的能够提供一种基于卷积神经网络的手语识别方法,避免了传统手语识别方法对于数据量较大的任务效率较低的问题。
Description
技术领域
本发明属于手语识别技术领域,涉及一种基于卷积神经网络的手语识别 方法。
背景技术
手语是听障人群与正常人群互相交流的唯一途径。正是有手语识别*** 的存在,聋哑人群的生活和工作空间才没有因此被限制。另一方面,随着人 工智能技术的发展,手语作为新型的、更加便捷的人机交互方式也已经成为 当今各行业交互方式的新趋势。
传统的手语识别方法主要涉及特征提取以及学习识别两个步骤。人工设 计特征主要包括有梯度方向直方图(HOG)和光流方向直方图(HOF),用于时序 建模的传统模型和方法主要有隐马尔科夫模型(HMM)动态时间规整(DTW)和 条件随机场(CRF)等。迄今为止,对这两个问题进行了大量的研究工作。但由 于人工设计的特征较为单一,且建模过程较为繁琐,在处理数据量较大的任 务时效率较低。
发明内容
本发明的目的是提供一种基于卷积神经网络的手语识别方法,避免了传 统手语识别方法对于数据量较大的任务效率较低的问题。
本发明所采用的技术方案是,
一种基于卷积神经网络的手语识别方法,具体的步骤如下:
步骤1,采集若干含有手语的深度图像;
步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割 出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据 库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样 本;
构建一个卷积神经网络模型;
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤4:用已经训练好的卷积神经网络模型对测试样本进行识别,并输 出分类识别的结果。
本发明的特点还在于,
其中步骤一中采用Kinect深度摄像头采集图像,采集数据时,Kinect 深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为 30FPS;
其中步骤二中图像预处理步骤具体如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当像素个数小 于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1;最终 得到完整的手型部分。
其中步骤2中的卷积神经网络模型为16层卷积神经网络模型,按照信 息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化 层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、 归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一 层的输出即为下一层的输入。其中参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
本发明的有益效果是,
本发明提出的一种基于卷积神经网络的手语识别方法,克服了传统手语 识别过程人工设计特征较为复杂,且时序建模过程较为繁琐,对于数据量较 大的任务效率较低的问题。可以避免光照比较敏感,对环境要求高,鲁棒性 不强等因素的影响,能够自动识别手势动作。
附图说明
图1是本发明一种基于卷积神经网络的手语识别方法的流程图;
图2是本发明一种基于卷积神经网络的手语识别方法所用的卷积神经网 络模型的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于卷积神经网络的手语识别方法,如图1所示,具体的步骤如下:
步骤1:采用Kinect深度摄像头采集若干含有手语的深度图像;
采集数据时,Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面 约1.0~1.4米,帧率为30FPS;
步骤2:对手语图像数据库中深度图像进行图像预处理,得到完整无噪 声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为 为两部分,一部分作为训练样本,另一部分作为测试样本;
构建一个的卷积神经网络模型。
其中预处理的具体步骤如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像 素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为 1;最终得到完整的手型部分。
其中卷积神经网络模型为16层卷积神经网络模型,包括1个图像输入 层(ImageInput Layer)、3个卷积层(Convolution Layer)、3个ReLU(ReLU Layer)层、3个归一化层((Batch Normalization Layer))、2个池化层 (MaxPooling Layer)、2个全连接层(Fully-connected layers)、一个softmax 层和一个图像输出层。按照信息处理顺序依次为:图像输入层、卷积层1、 ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池 化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax 层和图像输出层。每层的
卷积层:对输入图像采用卷积模板在三个通道上,对图像进行卷积操作。 得到特征图向量。假定卷积层有L个输出通道和K个输入通道,于是需要 KL个卷积核实现通道数目的转换,则卷积运算公式为:
其中,X*表示第k个输入通道的二维特征图,Yl表示第l个输出通道的 二维特征图,Hkl表示第k行、第l列二维卷积核。假定卷积核大小是I*J, 每个输出通道的特征图大小是M*N,则该层每个样本做一次前向传播时卷 积层的计算量是:Calculations(MAC)=I*J*M*N*K*L。
ReLU层:在ReLU层中采用线性整流函数(Rectified Linear Unit,ReLU) 对得到的特征图进行运算,线性整流函数为:φ(x)=max(0,x)。
其中x为ReLU层的输入向量,f(x)为输出向量,作为下一层的输入。 ReLU层能更加有效率的梯度下降以及反向传播,避免了梯度***和梯度消 失问题。同时ReLU层简化了计算过程,没有了其他复杂激活函数中诸如指 数函数的影响;同时活跃度的分散性使得卷积神经网络整体计算成本下降。
在每个卷积操作之后,都有ReLU的附加操作,其目的是在CNN中加 入非线性,因为使用CNN来解决的现实世界的问题都是非线性的,而卷积 运算是线性运算,所以必须使用一个如ReLU的激活函数来加入非线性的性 质。
归一化层:归一化有助于快速收敛;对局部神经元的活动创建竞争机制, 使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增 强了模型的泛化能力。
池化层:对输入的特征图进行压缩,一方面使特征图变小,简化网络计 算复杂度;一方面进行特征压缩,提取主要特征。池化层可以在保持最重要 的信息的同时降低特征图的维度。如果对矩阵A进行不重叠分块,每块大小 为λ×τ,则其中第ij个块可以表示为:
用大小为λ×τ的块对矩阵A进行不重叠下采样,结果定义为:
全连接层:全连接层是一个传统的多层感知器,它起到将学到的“分布 式特征表示”映射到样本标记空间的作用。全连接层的目的是根据训练数据 集将输入的图像特征分为不同的全连接层的主要计算类型是矩阵-向量乘 (GEMV)。假设输入节点组成的向量是x,维度是D,输出节点组成的向量 是y,维度是V,则全连接层计算可以表示为y=Wx。其中W是V*D的权值 矩阵。全连接层的参数量为params=V*D,其单个样本前向传播的计算量也 是Calculations(MAC)=V*DC;
也就是CPR=Calculations/params=1,其权值利用率很低。可以将一批大小 为B的样本xi逐列拼接成矩阵X,一次性通过全连接层,得到一批输出向量 构成的矩阵Y,相应地前面的矩阵—向量乘运算升为矩阵-矩阵乘计算 (GEMM):Y=WX。这样全连接层前向计算量提高了B倍,CPR相应提高 了B倍,权重矩阵在多个样本之间实现了共享,可提高计算速度。
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤3.1,初始化所有卷积神经网络模型的参数和权重值;
步骤3.2,将训练图像作为输入,用训练样本对卷积神经网络模型进行 训练。
步骤3.3,计算输出层的总误差Error(对所有类进行求和),即代价函数。 比较常用的代价函数有平方和函数,即总误差。
步骤3.4,使用反向传播计算网络中所有权重的误差梯度。并使用梯度 下降更新所有滤波器值、权重和参数值,以最大限度地减少输出误差,也就 是代价函数的值尽量小。滤波器数量,滤波器大小,网络结构等参数在步骤 3.1之前都已经固定,并且在训练过程中不会改变,只更新滤波器矩阵和连 接权值。使用标准卷积神经网络的反向传播算法如下:
输入:训练S={(xl,yl),1≤l≤N}、网络结构、层数R。
输出:网络参数
(1).随机初始化所有权值和偏置;
(2).计算
(3).计算
(4).计算
(5).计算
(6).令
(7).计算
(8).令计算
(9).计算
(10).计算
(11).计算
(12).计算
(13).计算
(14).计算
(15).更新所有的网络参数。
步骤5:用已经训练好的网络模型对测试样本进行识别,并输出分类识 别的结果。
本发明提出的一种基于卷积神经网络的手语识别方法,克服了传统手语 识别过程人工设计特征较为复杂,且时序建模过程较为繁琐,对于数据量较 大的任务效率较低的问题。通过与传统的手势识别方法对比实验结果证明了 本文所构建的CNN手语识别模型识别准确率有大幅度的提升,并克服了肤 色对识别结果的影响,又可以避免光照比较敏感,对环境要求高,鲁棒性不 强等因素的影响。能够实现自动识别手势动作。
实施例1
步骤1:利用Kinect深度摄像头采集手语图像,数据采集时,Kinect深 度摄像头距离人大约1米,距离地面大约1.2米。本实施例的手语图像数据 库包含30类不同语义的手语动作,每1类中包含1000帧图像,分别由5 人记录完成,每一个数据集中包含30*1000=30000帧静态手势图像。
通过使用MATLA中的Image AcquisitionToolbox工具箱获取图像,将从 Kinec深度摄像头获得的手语图像数据库输入MATLAB中以.jpg的格式保存 到本地。随机将彩色手语数据集和深度手语数据集中的数据分为训练集、交 叉验证集和测试集,训练集和交叉验证集用于训练卷积神经网络模型并评估 识别模型的性能,测试集作为用于手语识别的测试数据;MATLAB程序如 下:
[imdsTrain,imdsValidation,TestData]=splitEachLabel(imds,0.6,0.1, 'randomize');
执行该句程序后生成训练数据和测试数据的静态手语数据库。其中, imdsTrain为训练集;imdsValidation为交叉验证样本;TestData为测试样本;
为了缩短计算量以及训练时间,本实施例将所有的图片归一化为大小为 28×28的.jpg格式的图片。
步骤2:对手语图像数据库中深度图像进行图像预处理,预处理的具体 步骤如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域中的像素数,设置阈值为10,当连通域 像素数阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1; 最终得到完整的手型部分。
构建一个卷积神经网络模型,其中高精度卷积神经网络模型为16层卷 积神经网络模型,包括1个图像输入层、3个卷积层、3个ReLU层、3个归 一化层、2个池化层、2个全连接层、一个softmax层和一个图像输出层。按 照信息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、 池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU 层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层。其 中每一层的输出即为下一层的输入。其中参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤4:用已经训练好的卷积神经网络模型对测试样本进行识别,并输 出分类识别的结果。
根据本实施例输出结果统计出识别的准确率。其中以识别精度(Accuarcy) 作为评价***的主要指标,它的计算方式为:
从表1中可以看出,在对复杂背景下获取的彩色手语图像进行识别时,单手 手语的识别精度为90.3%,双手手语的识别精度为94.9%,测试数据集中只 有7类手势能够完全被正确识别,大部分手势不能够被正确分类。比如,像 手势“2”、手势“3”、手势“4”、手势“5”、手势“内卡钳”、手势“柱子”、 手势“家”等,在识别的过程中,较多的手势图像被错误分类为其它的类。
表1.识别结果与统计
这一缺陷在对简单背景下的手语识别过程中得到明显改善,为了排除 背景等因素对识别精度的影响,对简单背景获取的深度图像经过预处理的 过只获得图像中的手型及上肢部分,从表1可以看出,简单背景下单手手 语的识别精度达到99.3%,双手手语的识别精度达到99.8%。比如,复杂 背景下测试数据集的死别结果中,对于手势“椅子”、手势“柱子”、手势 “直角”在表达的形式上比较相似的手语:手势“柱子”有1个被错误识 别为手势“椅子”、有66个被错误识别为手势“直角”,但是相比于复杂背 景下的识别结果,这些相似度比较高的手语基本能够被全部正确分类。总 体来说,相对于基于复杂背景下的手语识别,简单背景下的深度图像在识 别中既可以克服了肤色对识别结果的影响,也可以避免光照比较敏感,对 环境要求高,鲁棒性不强等因素的影响,单双手手语的识别精度都得到很大的提升,总体的识别率提高6.95%。
表2不同方法的识别结果
表2为采用不同方法对手语的识别结果,其中F+DTW为傅里叶描述 与DTW分类器结合的方法;F+PNN为傅里叶描述与PNN分类器结合的方 法;CNN(Color)为采用本发明中的卷积神经网络对彩色图像数据集进行识别的 方法;CNN(Depth)为本发明采用的方法,基于CNN的静态手语识别结果与传 统的静态手语识别方法的识别结果进行比较,传统识别方法首先从获取的手 势图像中分割出手型部分;如表2所示,对彩色数据集的识别率表示复杂背 景下ColorDataset数据集中单双手手语的平均识别准确率为92.6%,对深度 数据集的识别率表示简单背景下DepthDataset数据集中单双手手语的平均识 别准确率为99.55%。可以看出,本发明中所构建的CNN识别模型识别准确 率相比传统的识别结果有了大幅度的提升。
Claims (7)
1.一种基于卷积神经网络的手语识别方法,其特征在于,具体的步骤如下:
步骤1,采集若干含有手语的深度图像;
步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;
构建一个卷积神经网络模型;
步骤3,利用所述训练样本对卷积神经网络模型对进行训练;
步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。
2.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤一中采用Kinect深度摄像头进行图像采集。
3.如权利要求2所述的一种基于卷积神经网络的手语识别方法,其特征在于,采集数据时,所述Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为30FPS。
4.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2中所述预处理步骤具体如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域最终得到完整的手型图像。
5.如权利要求4所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤2.4的具体方法为:标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1。
6.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型为16层卷积神经网络模型,按照信息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一层的输出即为下一层的输入。
7.如权利要求6所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型中的参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910340257.4A CN110096991A (zh) | 2019-04-25 | 2019-04-25 | 一种基于卷积神经网络的手语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910340257.4A CN110096991A (zh) | 2019-04-25 | 2019-04-25 | 一种基于卷积神经网络的手语识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110096991A true CN110096991A (zh) | 2019-08-06 |
Family
ID=67445936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910340257.4A Pending CN110096991A (zh) | 2019-04-25 | 2019-04-25 | 一种基于卷积神经网络的手语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096991A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340005A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法和*** |
CN111339837A (zh) * | 2020-02-08 | 2020-06-26 | 河北工业大学 | 一种连续手语识别方法 |
CN112183216A (zh) * | 2020-09-02 | 2021-01-05 | 温州大学 | 一种用于残障人士沟通的辅助*** |
CN112183430A (zh) * | 2020-10-12 | 2021-01-05 | 河北工业大学 | 一种基于双神经网络的手语识别方法及装置 |
CN114170676A (zh) * | 2021-11-11 | 2022-03-11 | 岚图汽车科技有限公司 | 一种手势识别方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398894A (zh) * | 2008-06-17 | 2009-04-01 | 浙江师范大学 | 机动车车牌自动识别方法及其实现装置 |
CN103598870A (zh) * | 2013-11-08 | 2014-02-26 | 北京工业大学 | 一种基于深度图像手势识别的视力检测方法 |
CN106599792A (zh) * | 2016-11-23 | 2017-04-26 | 南京信息工程大学 | 一种手部驾驶违规行为的检测方法 |
CN107330465A (zh) * | 2017-06-30 | 2017-11-07 | 清华大学深圳研究生院 | 一种图像目标识别方法及装置 |
CN107330405A (zh) * | 2017-06-30 | 2017-11-07 | 上海海事大学 | 基于卷积神经网络的遥感图像飞机目标识别方法 |
CN107742095A (zh) * | 2017-09-23 | 2018-02-27 | 天津大学 | 基于卷积神经网络的汉语手语识别方法 |
-
2019
- 2019-04-25 CN CN201910340257.4A patent/CN110096991A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398894A (zh) * | 2008-06-17 | 2009-04-01 | 浙江师范大学 | 机动车车牌自动识别方法及其实现装置 |
CN103598870A (zh) * | 2013-11-08 | 2014-02-26 | 北京工业大学 | 一种基于深度图像手势识别的视力检测方法 |
CN106599792A (zh) * | 2016-11-23 | 2017-04-26 | 南京信息工程大学 | 一种手部驾驶违规行为的检测方法 |
CN107330465A (zh) * | 2017-06-30 | 2017-11-07 | 清华大学深圳研究生院 | 一种图像目标识别方法及装置 |
CN107330405A (zh) * | 2017-06-30 | 2017-11-07 | 上海海事大学 | 基于卷积神经网络的遥感图像飞机目标识别方法 |
CN107742095A (zh) * | 2017-09-23 | 2018-02-27 | 天津大学 | 基于卷积神经网络的汉语手语识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339837A (zh) * | 2020-02-08 | 2020-06-26 | 河北工业大学 | 一种连续手语识别方法 |
CN111339837B (zh) * | 2020-02-08 | 2022-05-03 | 河北工业大学 | 一种连续手语识别方法 |
CN111340005A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法和*** |
CN112183216A (zh) * | 2020-09-02 | 2021-01-05 | 温州大学 | 一种用于残障人士沟通的辅助*** |
CN112183430A (zh) * | 2020-10-12 | 2021-01-05 | 河北工业大学 | 一种基于双神经网络的手语识别方法及装置 |
CN112183430B (zh) * | 2020-10-12 | 2024-04-05 | 河北工业大学 | 一种基于双神经网络的手语识别方法及装置 |
CN114170676A (zh) * | 2021-11-11 | 2022-03-11 | 岚图汽车科技有限公司 | 一种手势识别方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273876B (zh) | 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 | |
CN107578060B (zh) | 一种基于可判别区域的深度神经网络用于菜品图像分类的方法 | |
CN107784293B (zh) | 一种基于全局特征和稀疏表示分类的人体行为识别方法 | |
CN110096991A (zh) | 一种基于卷积神经网络的手语识别方法 | |
CN110084173A (zh) | 人头检测方法及装置 | |
CN109359538A (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
CN109558832A (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN110378381A (zh) | 物体检测方法、装置和计算机存储介质 | |
CN110399850A (zh) | 一种基于深度神经网络的连续手语识别方法 | |
CN104361313B (zh) | 一种基于多核学习异构特征融合的手势识别方法 | |
CN105205449B (zh) | 基于深度学习的手语识别方法 | |
CN105354581B (zh) | 融合颜色特征与卷积神经网络的彩色图像特征提取方法 | |
CN105243154B (zh) | 基于显著点特征和稀疏自编码的遥感图像检索方法及*** | |
US20210089824A1 (en) | Image processing method, image processing device, and storage medium | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN109190643A (zh) | 基于卷积神经网络中药识别方法及电子设备 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
CN109598234A (zh) | 关键点检测方法和装置 | |
CN110188708A (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN106326857A (zh) | 基于人脸图像的性别识别方法及装置 | |
CN106909887A (zh) | 一种基于cnn和svm的动作识别方法 | |
CN110110602A (zh) | 一种基于三维残差神经网络和视频序列的动态手语识别方法 | |
CN109389045A (zh) | 基于混合时空卷积模型的微表情识别方法与装置 | |
CN108596256B (zh) | 一种基于rgb-d物体识别分类器构造方法 | |
CN109886153A (zh) | 一种基于深度卷积神经网络的实时人脸检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |
|
RJ01 | Rejection of invention patent application after publication |