CN110096991A - 一种基于卷积神经网络的手语识别方法 - Google Patents

一种基于卷积神经网络的手语识别方法 Download PDF

Info

Publication number
CN110096991A
CN110096991A CN201910340257.4A CN201910340257A CN110096991A CN 110096991 A CN110096991 A CN 110096991A CN 201910340257 A CN201910340257 A CN 201910340257A CN 110096991 A CN110096991 A CN 110096991A
Authority
CN
China
Prior art keywords
layer
sign language
neural networks
convolutional neural
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910340257.4A
Other languages
English (en)
Inventor
肖秦琨
秦敏莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN201910340257.4A priority Critical patent/CN110096991A/zh
Publication of CN110096991A publication Critical patent/CN110096991A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于卷积神经网络的手语识别方法,具体的步骤为:步骤1,采集若干含有手语的深度图像;步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;构建一个卷积神经网络模型;步骤3,利用所述训练样本对卷积神经网络模型对进行训练;步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。本发明的能够提供一种基于卷积神经网络的手语识别方法,避免了传统手语识别方法对于数据量较大的任务效率较低的问题。

Description

一种基于卷积神经网络的手语识别方法
技术领域
本发明属于手语识别技术领域,涉及一种基于卷积神经网络的手语识别 方法。
背景技术
手语是听障人群与正常人群互相交流的唯一途径。正是有手语识别*** 的存在,聋哑人群的生活和工作空间才没有因此被限制。另一方面,随着人 工智能技术的发展,手语作为新型的、更加便捷的人机交互方式也已经成为 当今各行业交互方式的新趋势。
传统的手语识别方法主要涉及特征提取以及学习识别两个步骤。人工设 计特征主要包括有梯度方向直方图(HOG)和光流方向直方图(HOF),用于时序 建模的传统模型和方法主要有隐马尔科夫模型(HMM)动态时间规整(DTW)和 条件随机场(CRF)等。迄今为止,对这两个问题进行了大量的研究工作。但由 于人工设计的特征较为单一,且建模过程较为繁琐,在处理数据量较大的任 务时效率较低。
发明内容
本发明的目的是提供一种基于卷积神经网络的手语识别方法,避免了传 统手语识别方法对于数据量较大的任务效率较低的问题。
本发明所采用的技术方案是,
一种基于卷积神经网络的手语识别方法,具体的步骤如下:
步骤1,采集若干含有手语的深度图像;
步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割 出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据 库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样 本;
构建一个卷积神经网络模型;
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤4:用已经训练好的卷积神经网络模型对测试样本进行识别,并输 出分类识别的结果。
本发明的特点还在于,
其中步骤一中采用Kinect深度摄像头采集图像,采集数据时,Kinect 深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为 30FPS;
其中步骤二中图像预处理步骤具体如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当像素个数小 于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1;最终 得到完整的手型部分。
其中步骤2中的卷积神经网络模型为16层卷积神经网络模型,按照信 息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化 层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、 归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一 层的输出即为下一层的输入。其中参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
本发明的有益效果是,
本发明提出的一种基于卷积神经网络的手语识别方法,克服了传统手语 识别过程人工设计特征较为复杂,且时序建模过程较为繁琐,对于数据量较 大的任务效率较低的问题。可以避免光照比较敏感,对环境要求高,鲁棒性 不强等因素的影响,能够自动识别手势动作。
附图说明
图1是本发明一种基于卷积神经网络的手语识别方法的流程图;
图2是本发明一种基于卷积神经网络的手语识别方法所用的卷积神经网 络模型的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于卷积神经网络的手语识别方法,如图1所示,具体的步骤如下:
步骤1:采用Kinect深度摄像头采集若干含有手语的深度图像;
采集数据时,Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面 约1.0~1.4米,帧率为30FPS;
步骤2:对手语图像数据库中深度图像进行图像预处理,得到完整无噪 声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为 为两部分,一部分作为训练样本,另一部分作为测试样本;
构建一个的卷积神经网络模型。
其中预处理的具体步骤如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像 素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为 1;最终得到完整的手型部分。
其中卷积神经网络模型为16层卷积神经网络模型,包括1个图像输入 层(ImageInput Layer)、3个卷积层(Convolution Layer)、3个ReLU(ReLU Layer)层、3个归一化层((Batch Normalization Layer))、2个池化层 (MaxPooling Layer)、2个全连接层(Fully-connected layers)、一个softmax 层和一个图像输出层。按照信息处理顺序依次为:图像输入层、卷积层1、 ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池 化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax 层和图像输出层。每层的
卷积层:对输入图像采用卷积模板在三个通道上,对图像进行卷积操作。 得到特征图向量。假定卷积层有L个输出通道和K个输入通道,于是需要 KL个卷积核实现通道数目的转换,则卷积运算公式为:
其中,X*表示第k个输入通道的二维特征图,Yl表示第l个输出通道的 二维特征图,Hkl表示第k行、第l列二维卷积核。假定卷积核大小是I*J, 每个输出通道的特征图大小是M*N,则该层每个样本做一次前向传播时卷 积层的计算量是:Calculations(MAC)=I*J*M*N*K*L。
ReLU层:在ReLU层中采用线性整流函数(Rectified Linear Unit,ReLU) 对得到的特征图进行运算,线性整流函数为:φ(x)=max(0,x)。
其中x为ReLU层的输入向量,f(x)为输出向量,作为下一层的输入。 ReLU层能更加有效率的梯度下降以及反向传播,避免了梯度***和梯度消 失问题。同时ReLU层简化了计算过程,没有了其他复杂激活函数中诸如指 数函数的影响;同时活跃度的分散性使得卷积神经网络整体计算成本下降。
在每个卷积操作之后,都有ReLU的附加操作,其目的是在CNN中加 入非线性,因为使用CNN来解决的现实世界的问题都是非线性的,而卷积 运算是线性运算,所以必须使用一个如ReLU的激活函数来加入非线性的性 质。
归一化层:归一化有助于快速收敛;对局部神经元的活动创建竞争机制, 使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增 强了模型的泛化能力。
池化层:对输入的特征图进行压缩,一方面使特征图变小,简化网络计 算复杂度;一方面进行特征压缩,提取主要特征。池化层可以在保持最重要 的信息的同时降低特征图的维度。如果对矩阵A进行不重叠分块,每块大小 为λ×τ,则其中第ij个块可以表示为:
用大小为λ×τ的块对矩阵A进行不重叠下采样,结果定义为:
全连接层:全连接层是一个传统的多层感知器,它起到将学到的“分布 式特征表示”映射到样本标记空间的作用。全连接层的目的是根据训练数据 集将输入的图像特征分为不同的全连接层的主要计算类型是矩阵-向量乘 (GEMV)。假设输入节点组成的向量是x,维度是D,输出节点组成的向量 是y,维度是V,则全连接层计算可以表示为y=Wx。其中W是V*D的权值 矩阵。全连接层的参数量为params=V*D,其单个样本前向传播的计算量也 是Calculations(MAC)=V*DC;
也就是CPR=Calculations/params=1,其权值利用率很低。可以将一批大小 为B的样本xi逐列拼接成矩阵X,一次性通过全连接层,得到一批输出向量 构成的矩阵Y,相应地前面的矩阵—向量乘运算升为矩阵-矩阵乘计算 (GEMM):Y=WX。这样全连接层前向计算量提高了B倍,CPR相应提高 了B倍,权重矩阵在多个样本之间实现了共享,可提高计算速度。
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤3.1,初始化所有卷积神经网络模型的参数和权重值;
步骤3.2,将训练图像作为输入,用训练样本对卷积神经网络模型进行 训练。
步骤3.3,计算输出层的总误差Error(对所有类进行求和),即代价函数。 比较常用的代价函数有平方和函数,即总误差。
步骤3.4,使用反向传播计算网络中所有权重的误差梯度。并使用梯度 下降更新所有滤波器值、权重和参数值,以最大限度地减少输出误差,也就 是代价函数的值尽量小。滤波器数量,滤波器大小,网络结构等参数在步骤 3.1之前都已经固定,并且在训练过程中不会改变,只更新滤波器矩阵和连 接权值。使用标准卷积神经网络的反向传播算法如下:
输入:训练S={(xl,yl),1≤l≤N}、网络结构、层数R。
输出:网络参数
(1).随机初始化所有权值和偏置;
(2).计算
(3).计算
(4).计算
(5).计算
(6).令
(7).计算
(8).令计算
(9).计算
(10).计算
(11).计算
(12).计算
(13).计算
(14).计算
(15).更新所有的网络参数。
步骤5:用已经训练好的网络模型对测试样本进行识别,并输出分类识 别的结果。
本发明提出的一种基于卷积神经网络的手语识别方法,克服了传统手语 识别过程人工设计特征较为复杂,且时序建模过程较为繁琐,对于数据量较 大的任务效率较低的问题。通过与传统的手势识别方法对比实验结果证明了 本文所构建的CNN手语识别模型识别准确率有大幅度的提升,并克服了肤 色对识别结果的影响,又可以避免光照比较敏感,对环境要求高,鲁棒性不 强等因素的影响。能够实现自动识别手势动作。
实施例1
步骤1:利用Kinect深度摄像头采集手语图像,数据采集时,Kinect深 度摄像头距离人大约1米,距离地面大约1.2米。本实施例的手语图像数据 库包含30类不同语义的手语动作,每1类中包含1000帧图像,分别由5 人记录完成,每一个数据集中包含30*1000=30000帧静态手势图像。
通过使用MATLA中的Image AcquisitionToolbox工具箱获取图像,将从 Kinec深度摄像头获得的手语图像数据库输入MATLAB中以.jpg的格式保存 到本地。随机将彩色手语数据集和深度手语数据集中的数据分为训练集、交 叉验证集和测试集,训练集和交叉验证集用于训练卷积神经网络模型并评估 识别模型的性能,测试集作为用于手语识别的测试数据;MATLAB程序如 下:
[imdsTrain,imdsValidation,TestData]=splitEachLabel(imds,0.6,0.1, 'randomize');
执行该句程序后生成训练数据和测试数据的静态手语数据库。其中, imdsTrain为训练集;imdsValidation为交叉验证样本;TestData为测试样本;
为了缩短计算量以及训练时间,本实施例将所有的图片归一化为大小为 28×28的.jpg格式的图片。
步骤2:对手语图像数据库中深度图像进行图像预处理,预处理的具体 步骤如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪 声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的 具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点 的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的 像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去 噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域,具体步骤为: 标记图像的连通区域并计算连通区域中的像素数,设置阈值为10,当连通域 像素数阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1; 最终得到完整的手型部分。
构建一个卷积神经网络模型,其中高精度卷积神经网络模型为16层卷 积神经网络模型,包括1个图像输入层、3个卷积层、3个ReLU层、3个归 一化层、2个池化层、2个全连接层、一个softmax层和一个图像输出层。按 照信息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、 池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU 层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层。其 中每一层的输出即为下一层的输入。其中参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量 为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
步骤3:用训练样本对卷积神经网络模型进行训练。
步骤4:用已经训练好的卷积神经网络模型对测试样本进行识别,并输 出分类识别的结果。
根据本实施例输出结果统计出识别的准确率。其中以识别精度(Accuarcy) 作为评价***的主要指标,它的计算方式为:
从表1中可以看出,在对复杂背景下获取的彩色手语图像进行识别时,单手 手语的识别精度为90.3%,双手手语的识别精度为94.9%,测试数据集中只 有7类手势能够完全被正确识别,大部分手势不能够被正确分类。比如,像 手势“2”、手势“3”、手势“4”、手势“5”、手势“内卡钳”、手势“柱子”、 手势“家”等,在识别的过程中,较多的手势图像被错误分类为其它的类。
表1.识别结果与统计
这一缺陷在对简单背景下的手语识别过程中得到明显改善,为了排除 背景等因素对识别精度的影响,对简单背景获取的深度图像经过预处理的 过只获得图像中的手型及上肢部分,从表1可以看出,简单背景下单手手 语的识别精度达到99.3%,双手手语的识别精度达到99.8%。比如,复杂 背景下测试数据集的死别结果中,对于手势“椅子”、手势“柱子”、手势 “直角”在表达的形式上比较相似的手语:手势“柱子”有1个被错误识 别为手势“椅子”、有66个被错误识别为手势“直角”,但是相比于复杂背 景下的识别结果,这些相似度比较高的手语基本能够被全部正确分类。总 体来说,相对于基于复杂背景下的手语识别,简单背景下的深度图像在识 别中既可以克服了肤色对识别结果的影响,也可以避免光照比较敏感,对 环境要求高,鲁棒性不强等因素的影响,单双手手语的识别精度都得到很大的提升,总体的识别率提高6.95%。
表2不同方法的识别结果
表2为采用不同方法对手语的识别结果,其中F+DTW为傅里叶描述 与DTW分类器结合的方法;F+PNN为傅里叶描述与PNN分类器结合的方 法;CNN(Color)为采用本发明中的卷积神经网络对彩色图像数据集进行识别的 方法;CNN(Depth)为本发明采用的方法,基于CNN的静态手语识别结果与传 统的静态手语识别方法的识别结果进行比较,传统识别方法首先从获取的手 势图像中分割出手型部分;如表2所示,对彩色数据集的识别率表示复杂背 景下ColorDataset数据集中单双手手语的平均识别准确率为92.6%,对深度 数据集的识别率表示简单背景下DepthDataset数据集中单双手手语的平均识 别准确率为99.55%。可以看出,本发明中所构建的CNN识别模型识别准确 率相比传统的识别结果有了大幅度的提升。

Claims (7)

1.一种基于卷积神经网络的手语识别方法,其特征在于,具体的步骤如下:
步骤1,采集若干含有手语的深度图像;
步骤2,经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来,得到完整无噪声的手型图像,建立手语图像数据库;将手语图像数据库中的手型图像分为为两部分,一部分作为训练样本,另一部分作为测试样本;
构建一个卷积神经网络模型;
步骤3,利用所述训练样本对卷积神经网络模型对进行训练;
步骤4,用已经训练好的卷积神经网络模型对测试样本进行识别,并输出分类识别的结果。
2.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤一中采用Kinect深度摄像头进行图像采集。
3.如权利要求2所述的一种基于卷积神经网络的手语识别方法,其特征在于,采集数据时,所述Kinect深度摄像头距离打手语者约0.8~1.2米,距离地面约1.0~1.4米,帧率为30FPS。
4.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2中所述预处理步骤具体如下:
步骤2.1:将手语图像数据库中深度图像经过高斯滤波,除去较大的噪声,得到较为平滑的图像集;
步骤2.2:对步骤2.1得到的图像集进行深度阈值分割,深度阈值分割的具体方法为:建立目标图像的深度直方图,设定深度直方图中第一个波谷点的值为阈值,大于该阈值的像素点为背景部分,将它们置1;小于该阈值的像素点为前景部分,将它们置0,最后得到分割后的手型图像集;
步骤2.3:将步骤2.2得到的分割后的手型图像集做高斯去噪处理,除去噪声;
步骤2.4:除去步骤2.3得到的手型图像集的小连通区域最终得到完整的手型图像。
5.如权利要求4所述的一种基于卷积神经网络的手语识别方法,其特征在于,所述步骤2.4的具体方法为:标记图像的连通区域并计算连通区域的像素个数,设置阈值,当连通域的像素个数小于阈值时,即判定该连通区域为噪音,将该连通区域的像素均置为1。
6.如权利要求1所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型为16层卷积神经网络模型,按照信息处理顺序依次为:图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层;其中每一层的输出即为下一层的输入。
7.如权利要求6所述的一种基于卷积神经网络的手语识别方法,其特征在于,步骤2所述的卷积神经网络模型中的参数设置为:
卷积层1中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为8;
池化层1中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层2中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为16;
池化层2中,设置池化窗口为2×2,步长为2,滤波器数量为8;
卷积层3中,设置卷积核为3×3,步长为1,填充值为0,滤波器数量为32;
Softmax层中,MaxIter设置为280,epoch设置为4。
CN201910340257.4A 2019-04-25 2019-04-25 一种基于卷积神经网络的手语识别方法 Pending CN110096991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910340257.4A CN110096991A (zh) 2019-04-25 2019-04-25 一种基于卷积神经网络的手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910340257.4A CN110096991A (zh) 2019-04-25 2019-04-25 一种基于卷积神经网络的手语识别方法

Publications (1)

Publication Number Publication Date
CN110096991A true CN110096991A (zh) 2019-08-06

Family

ID=67445936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910340257.4A Pending CN110096991A (zh) 2019-04-25 2019-04-25 一种基于卷积神经网络的手语识别方法

Country Status (1)

Country Link
CN (1) CN110096991A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和***
CN111339837A (zh) * 2020-02-08 2020-06-26 河北工业大学 一种连续手语识别方法
CN112183216A (zh) * 2020-09-02 2021-01-05 温州大学 一种用于残障人士沟通的辅助***
CN112183430A (zh) * 2020-10-12 2021-01-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
CN114170676A (zh) * 2021-11-11 2022-03-11 岚图汽车科技有限公司 一种手势识别方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398894A (zh) * 2008-06-17 2009-04-01 浙江师范大学 机动车车牌自动识别方法及其实现装置
CN103598870A (zh) * 2013-11-08 2014-02-26 北京工业大学 一种基于深度图像手势识别的视力检测方法
CN106599792A (zh) * 2016-11-23 2017-04-26 南京信息工程大学 一种手部驾驶违规行为的检测方法
CN107330465A (zh) * 2017-06-30 2017-11-07 清华大学深圳研究生院 一种图像目标识别方法及装置
CN107330405A (zh) * 2017-06-30 2017-11-07 上海海事大学 基于卷积神经网络的遥感图像飞机目标识别方法
CN107742095A (zh) * 2017-09-23 2018-02-27 天津大学 基于卷积神经网络的汉语手语识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398894A (zh) * 2008-06-17 2009-04-01 浙江师范大学 机动车车牌自动识别方法及其实现装置
CN103598870A (zh) * 2013-11-08 2014-02-26 北京工业大学 一种基于深度图像手势识别的视力检测方法
CN106599792A (zh) * 2016-11-23 2017-04-26 南京信息工程大学 一种手部驾驶违规行为的检测方法
CN107330465A (zh) * 2017-06-30 2017-11-07 清华大学深圳研究生院 一种图像目标识别方法及装置
CN107330405A (zh) * 2017-06-30 2017-11-07 上海海事大学 基于卷积神经网络的遥感图像飞机目标识别方法
CN107742095A (zh) * 2017-09-23 2018-02-27 天津大学 基于卷积神经网络的汉语手语识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339837A (zh) * 2020-02-08 2020-06-26 河北工业大学 一种连续手语识别方法
CN111339837B (zh) * 2020-02-08 2022-05-03 河北工业大学 一种连续手语识别方法
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和***
CN112183216A (zh) * 2020-09-02 2021-01-05 温州大学 一种用于残障人士沟通的辅助***
CN112183430A (zh) * 2020-10-12 2021-01-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
CN112183430B (zh) * 2020-10-12 2024-04-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
CN114170676A (zh) * 2021-11-11 2022-03-11 岚图汽车科技有限公司 一种手势识别方法及相关设备

Similar Documents

Publication Publication Date Title
CN107273876B (zh) 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法
CN107578060B (zh) 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN107784293B (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN110084173A (zh) 人头检测方法及装置
CN109359538A (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
CN109558832A (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN110378381A (zh) 物体检测方法、装置和计算机存储介质
CN110399850A (zh) 一种基于深度神经网络的连续手语识别方法
CN104361313B (zh) 一种基于多核学习异构特征融合的手势识别方法
CN105205449B (zh) 基于深度学习的手语识别方法
CN105354581B (zh) 融合颜色特征与卷积神经网络的彩色图像特征提取方法
CN105243154B (zh) 基于显著点特征和稀疏自编码的遥感图像检索方法及***
US20210089824A1 (en) Image processing method, image processing device, and storage medium
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN109190643A (zh) 基于卷积神经网络中药识别方法及电子设备
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN109598234A (zh) 关键点检测方法和装置
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
CN106326857A (zh) 基于人脸图像的性别识别方法及装置
CN106909887A (zh) 一种基于cnn和svm的动作识别方法
CN110110602A (zh) 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN109389045A (zh) 基于混合时空卷积模型的微表情识别方法与装置
CN108596256B (zh) 一种基于rgb-d物体识别分类器构造方法
CN109886153A (zh) 一种基于深度卷积神经网络的实时人脸检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190806

RJ01 Rejection of invention patent application after publication