CN110175551A

CN110175551A - 一种手语识别方法

Info

Publication number: CN110175551A
Application number: CN201910426216.7A
Authority: CN
Inventors: 张淑军; 张群; 李辉; 王传旭
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-27
Anticipated expiration: 2039-05-21
Also published as: CN110175551B

Abstract

本发明公开了一种手语识别方法，包括：对手语视频所对应的视频序列进行频域变换，得到图像的相位信息；将相位信息和视频序列送入C3D卷积神经网络进行一次卷积并融合，形成特征信息；将所述特征信息送入深度卷积神经网络进行二次卷积和池化，并在池化过程中执行自适应学习池化算法，筛选出目标特征向量，送入全连接层输出分类结果。本发明将频域变换结合到深度学习算法中，利用频域变换提取出手语视频中的相位信息，辅助RGB空间信息，送入深度学习网络生成手语的特征，由此获得的特征更为本质、准确。通过在3D卷积神经网络模型的池化层加入自适应学习池化算法，可以挖掘到手语视频中更为抽象、高级的视频特征，得到更为精确的分类结果。

Description

一种手语识别方法

技术领域

本发明属于视频识别技术领域，具体地说，是涉及一种用于手语语义识别的方法。

背景技术

在当今计算机技术快速发展的时代，人机交互技术受到了广泛的重视，并取得了一定的研究成果，这项技术主要包括人类表情识别、动作识别和手语识别等。手语是聋哑人与健听人之间的一种主要交流方式，但是对于健听人而言，他们并没有真正的接受过手语培训，除了对一些简单的手势表达有基本的常识之外，并不能从根本上理解聋哑人的真实想法，这使得聋哑人与健听人之间的交流面临困难。与此同时，手语识别也可以辅助应用于残障人群的教育教学中，以保障残障人群的正常生活和学习。

传统的手语识别方法需要聋哑人配戴带有多个传感器的数据手套，根据数据手套采集聋哑人的肢体行为轨迹，根据轨迹信息生成可理解的语义。目前，大多基于最原始的3D卷积神经网络模型设计的行为识别方法对于小数据集下的手语识别准确率低，计算量大，容易产生过拟合的现象，普适性不高。

申请号为CN107506712A的中国发明专利申请，公开了一种基于3D深度卷积网络的人类行为识别方法，改进了标准的3维卷积网络C3D，引入多级池化能够对任意分辨率和时长的视频片段进行特征提取，从而得到最终的分类结果。但是，该方法所使用的C3D卷积网络结构比较浅，对于大范围的数据集识别精度低，很难提取最优的特征信息。

申请号为CN107679491A的中国发明专利申请，公开了一种融合多模态数据的3D卷积神经网络手语识别方法，通过对手势红外图像和轮廓图像从空间维度和时间维度进行特征提取，融合两个基于不同数据格式的网络输出进行最终的手语分类。但是，整个网络输入需要利用体感设备额外提取红外图像和轮廓图像，对输入的数据处理起来比较复杂，对于一些波动幅度比较大的细节行为识别效果不好。

申请号为CN104281853A的中国发明专利申请，公开了一种基于3D卷积神经网络的行为识别方法，结合光流信息作为多通道数据输入送入网络分别进行特征提取，最后通过全连接层进行最终的行为分类，并将整个阶段分为离线训练和在线识别阶段。该方法可以实现在线识别，但对数据集的要求过高，而且需要用到光流信息，计算比较复杂，识别效率也不是很高。

发明内容

本发明的目的在于提供一种手语识别方法，旨在解决现有手语识别方法所存在的特性信息提取不优、识别准确率不高的问题。

为解决上述技术问题，本发明采用以下技术方案予以实现：

一种手语识别方法，包括以下过程：

根据手语视频形成视频序列X；

对所述视频序列X进行基于频域变换的图像处理，提取出相位信息；

将所述相位信息和视频序列X分别送入C3D卷积神经网络进行一次卷积，并对卷积后得到的特征进行加权融合，形成融合后的特征信息；

将所述融合后的特征信息送入3D ResNets深度卷积神经网络进行二次卷积和池化，并在池化过程中执行自适应学习池化算法，筛选出目标特征向量，送入3D ResNets深度卷积神经网络的全连接层，输出分类结果。

与现有技术相比，本发明的优点和积极效果是：本发明的手语识别方法将频域变换结合到深度学习算法中，利用频域变换提取出手语视频中的相位信息，送入深度学习算法生成特征信息，由此获得的特征信息更为本质和准确。此外，本发明通过对3D卷积神经网络模型进行改进，在网络模型的池化层加入自适应学习池化算法，由此可以挖掘到手语视频中更为抽象、高级的视频特征，继而得到更为精确的分类结果，使得手语识别的准确率明显提升。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作一简单的介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所提出的手语识别方法的一种实施例的流程图；

图2是3D ResNets深度卷积神经网络的一种实施例的结构图；

图3是利用自适应学习池化算法对特征矩阵进行降维的一种实例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细描述。

本实施例的手语识别方法主要包括两个阶段：

(1)基于频域变换的特征编码阶段

将频域变换与深度学习相结合，通过频域变换提取出手语视频中的相位信息；然后，将所述相位信息与手语视频数据分别送入到C3D卷积神经网络进行一次卷积，并对卷积后得到的特征进行加权融合，形成融合后的特征信息。

(2)基于改进的3D ResNets深度卷积神经网络的特征解码阶段

将第一阶段形成的融合后的特征信息送入到改进的深度卷积神经网络(3DResNets)中，使用不同尺度的卷积核对不同时序位置的时序信息进行二次卷积；然后，再通过本实施例提出的自适应学习池化算法对二次卷积得到的特征矩阵进行降维，筛选出更为抽象、高级的目标特征向量，送入全连接层，以得到更为准确的分类结果。

下面结合图1，对本实施例的手语识别方法的具体过程进行详细阐述。

S1、根据手语视频形成视频序列X；

在此过程中，可以具体设计以下步骤：

S101、对手语视频进行切帧；

将原始的手语视频RGB数据切成N个图像帧，所述N优选大于等于34帧。根据中国手语数据集的特点，由于每一个语义所对应的手语视频都比较短小，因此，针对中国手语数据集，将每一个手语视频切成34帧较为合适。

S102、对图像帧进行预处理；

考虑到在每一个手语视频中，前几帧和后几帧通常都是静止帧或者背景帧，为了减少后续步骤的计算量，在切帧后优选执行一步数据预处理过程，以初步筛选出有用的图像帧，或称之为关键帧。作为一种优选实施例，可以在切帧后生成的N个图像帧中，将前f帧和后f帧作为冗余帧进行剔除，仅保留中间的图像帧作为关键帧。优选设计所述f≤5。

针对中国手语数据集，可以在切成的34个图像帧中，剔除掉前5帧和后5帧，保留中间的24帧作为关键帧。

S103、将关键帧按照时序等分成n个片段；

作为一种优选实施例，优选n＝3，即，将预处理后的关键帧按照时序等分成三个片段。

S104、从每一个片段中随机选取连续的m个图像帧，形成视频序列X；

在本实施例中，优选从每一个片段中随机选取出连续的8个图像帧，形成视频序列X＝(x₁,x₂,…,x_n)；其中，x_i表示第i个片段中的m个图像帧，i＝1,2，…，n。

如果对切帧后生成的34个图像帧不进行预处理，即不去除冗余帧，则可以从每一个片段中随机选取出连续的11个图像帧，形成所述的视频序列X。

当然，对于切帧后生成的图像帧的数量大于34帧的情况，或者去除冗余帧后形成的关键帧的数量大于24帧的情况，或者对关键帧按照时序等分的片段数量少于3段的情况，则可以从每一个片段中随机选取出多于8个的连续图像帧，形成所述的视频序列X。

S2、对视频序列X进行基于频域变换的图像处理，提取出图像相位信息；

在频域变换的诸多算法中，相比傅里叶变换而言，Gabor变换具有更好的局部性、方向选择性和带通性等特点，有较好的抗干扰能力；同时，对于手语识别任务而言，当视频帧空间位置发生变化时，Gabor特征的幅值变化相对较小，而相位会随着位置的变化以某一速率发生相应的改变，因此，相对于幅值，Gabor相位信息更能够代表行为本身的抽象特征，具有更重要的意义。

综上，本实施例结合手语视频的特点，优选采用频域变换中的Gabor变换提取视频序列X的相位信息，使得既能够在整体上提供信号的全部信息，又能提供在任一局部时间内信号变化剧烈程度的信息，实现对手语行为特征的优化。由于Gabor相位信息的计算方法有很多，原则上这些方法与深度学习网络的结合都属于本发明的范围，但是为了降低数据维数和运算量，本实施例优选采用文献[Guo Y,Xu Z,Local Gabor Phase DifferencePattern for Face Recognition，the 19th International Conference on PatternRecognition,IEEE,2008:1-4]提出的局部Gabor相位差模式(Local Gabor PhaseDifference Pattern,LGPDP)来提取图像帧经过Gabor变换后的相位信息。当然，其他基于LGPDP的改进算法也同样适用。

S3、将视频序列X以及提取出的相位信息分别送入C3D卷积神经网络进行一次卷积；

在本实施例中，优选将视频序列X以及提取出的相位信息首先送入常规的C3D卷积神经网络模型，进行一次卷积处理，生成一次卷积后的特征信息。

S4、对一次卷积后得到的特征信息进行加权融合，形成融合后的特征信息；

在本实施例中，可以采用传统的加权融合算法对通过C3D卷积神经网络卷积处理后的特征信息进行加权融合，以形成融合后的特征矩阵。

S5、将融合后的特征信息送入3D ResNets深度卷积神经网络进行二次卷积和池化，以筛选出目标特征向量；

为了得到更为准确的视频特征，本实施例对3D ResNets深度卷积神经网络进行改进，引入基于加权互协方差矩阵的自适应学习池化算法，对卷积得到的特征矩阵进行降维，以筛选出更加抽象、高级的目标特征向量。

作为一种优选实施例，本实施例优选采用19层的3D ResNets深度卷积神经网络，包括：1个数据输入层、8个不同尺度卷积核的3D卷积层、8个池化层以及两层的全连接层。如图2所示，优选设计所述的8个3D卷积层和8个池化层相互交错，其中，

C1-C8为8个3D卷积层，每一个3D卷积层的卷积核均为3×3×3，卷积核的数量由64到512依次递增，以便从低级的特征组合产生更多类型的高层特征；在卷积层之后，对两路信息进行卷积层的特征融合；

S1-S8为8个池化层，每一个池化层均使用自适应学习池化算法进行降维，其中，第二个池化层S2、第六个池化层S6、第七个池化层S7以及第八个池化层S8均使用2×2×2的窗口同时对时间维度和空间维度进行下采样，其他池化层S1、S3、S4、S5均使用1×2×2的窗口，只在空间维度上进行下采样。

本实施例的3D卷积层优选使用不同尺度的卷积核对不同时序位置的时序信息进行二次卷积，然后再对每一个时序位置的卷积特征进行时间维度上的特征聚合，以减少网络结构的计算量。作为一种优选实施例，可以首先采用1*1的卷积核对通过数据输入层送入的特征矩阵进行降维操作，以帮助减少模型参数，对不同特征进行尺寸的归一化。然后，对不同时序位置的时序信息分别进行不同尺度卷积核的卷积，例如分别选用3*3、5*5的卷积核对其视频级别的中高低特征进行卷积，然后对其每个时序位置的卷积信息进行加权融合，形成聚合后的特征矩阵，送入池化层进行自适应性的特征池化。

本实施例对每一个池化层所执行的池化算法进行改进，提出一种自适应学习池化算法，如图3所示，首先，针对聚合后的特征矩阵计算出相应的互协方差矩阵，再对所得到的互协方差矩阵进行降维运算，得到截止到当前时刻为止的特征向量；然后，获取该帧的重要性，计算所得到的每一帧池化后的特征向量，根据重要性的高低依次赋予不同的权重，选取所占权重最大的特征向量作为目标特征向量。

下面对本实施例提出的自适应学习池化算法的具体过程阐述如下：

S501、根据3D卷积层卷积融合后得到的特征矩阵F_n，求取F_n的互协方差矩阵Q_n；

S502、采用常规的池化算法对互协方差矩阵Q_n进行池化降维，形成降维后的特征向量；

S503、将t帧时刻降维后的特征向量表示为采用以下公式计算t+1帧时刻降维后的特征向量的重要性β_t+1，即：

其中，f_p为感知机算法中的预测函数；φ(x_t+1)表示在所述视频序列X下，从第1帧截止到t+1帧为止的降维后的特征向量；

S504、计算t+1帧时刻的特征向量的权重ω，所述权重ω应满足以下计算公式：

S505、重复步骤S503-S504，计算出每一帧时刻的特征向量的权重；

S506、按照从高到低的顺序，对步骤S505计算出的每一帧时刻的特征向量的权重进行排序，权重越高，该帧含有的有用信息越多；

S507、选取权重最大的特征向量作为目标特征向量，送入全连接层。

在本实施例中，送入到每一个3D卷积层的数据都是特征矩阵，在执行完卷积池化之后，通过每一个池化层均得到一个目标特征向量。将通过每一个池化层得到的目标特征向量分别送入全连接层，以得到更为准确的分类结果。为了防止深层网络下的梯度***或弥散等问题，优选在每一个3D卷积层之后都加入BN层，在每一层的全连接层都进行dropout操作。

S6、根据筛选出的目标特征向量，送入全连接层得到最终的分类结果；

本实施例的3D ResNets深度卷积神经网络优选设计两个全连接层，如图2所示。其中，

FC1是第一个全连接层，优选包含512个神经元，通过第八个池化层S8输出的特征向量与FC1层的512个神经元相连，在此层被转化为512维的特征向量；在第八个池化层S8与第一个全连接层FC1之间使用Dropout层，按0.5的概率丢弃部分神经网络单元，并利用迁移学习算法，以0.1的概率冻结第八个池化层S8与第一个全连接层FC1的部分连接；

FC2是第二个全连接层，同时也是密集输出层，包括与分类结果的类别数目相同的神经元，例如神经元的个数为6个；第二个全连接层FC2中的每个神经元与第一个全连接层FC1中的512个神经元全连接，最后经由分类器Softmax回归进行分类，输出所属手语类别的分类结果。

作为一种优选实施例，在3D ResNets深度卷积神经网络中，3D卷积层和第一个全连接层FC1优选使用ELU作为激活函数，以提升深度网络的性能。第二个全连接层FC2优选使用Softmax作为激活函数，优化函数优选使用SGD函数，损失函数优选使用多分类交叉熵函数与自适应学习池化算法的误差之和，即，损失函数可以具体表示为：

L(X,Y)＝l_cro(x,y)+μl_B(τ)；

其中，L(X,Y)为损失函数；l_cro(x,y)为多分类交叉熵函数；l_B(τ)为自适应学习池化算法的误差；μ为超参数。由于损失函数、多分类交叉熵函数以及池化算法的误差是现有技术，因此，上述公式中，各个函数中的相关参数的含义对于本领域技术人员而言都是公知的，本实施例不再详细描述。

由此，通过3D ResNets深度卷积神经网络的全连接层输出的分类结果，即为识别出的手语含义。

本实施例的手语识别方法，可以分为训练和测试两个阶段。训练阶段采用以上步骤S1-S6进行训练，在此之前，首先对整个网络结构进行权重的初始化，优选采用公开的基准的行为识别数据集Kinetics对3D ResNets深度卷积神经网络进行权重初始化，使得权重的初始化足够适应本手语识别的任务。然后，在训练的过程中采用迁移学习策略对整个网络结构进行迁移学习，冻结卷积层，不断训练最后一层的全连接层，使最终分类结果更加准确。此外，将初始学习率设置为0.001，随着时间的推移，在每次迭代过程之后以十分之一的速率逐渐降低学习率，直到迭代完成之前的2000次停止变更学习率。整个网络迭代次数完成之前的2000次左右使准确率逐渐趋于稳定。动量设置为0.9，迭代三万次之后加载最后一次的网络模型，进入测试阶段。

在测试阶段，可以选用中国手语数据集作为数据源，所有测试过程均在此数据集上进行实验。

本发明的手语识别方法，将频域变换结合到深度学习算法中，利用具有良好识别性能的Gabor相位信息，辅助手语视频的RGB空间信息，，利用提取出的相位信息与深度学习过程相结合，能够得到更加本质、准确的手语行为特征；使用改进的19层的深层卷积神经网络挖掘原始视频中更为抽象、高级的视频特征；采用不同尺度的卷积核捕捉不同时序位置的视频级别特征，不仅能够降低计算量，还能充分利用视频中的原始信息，更好地适应复杂背景下的手语识别；最后，使用自适应学习的池化算法对卷积得到的特征矩阵进行降维，得到更为准确的分类结果，提高了手语识别的准确率。

当然，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种手语识别方法，其特征在于，包括：

根据手语视频形成视频序列X；

2.根据权利要求1所述的手语识别方法，其特征在于，所述自适应学习池化算法包括：

根据二次卷积之后生成的特征矩阵F_n，求取F_n的互协方差矩阵Q_n；

对互协方差矩阵Q_n进行池化降维，形成降维后的特征向量；

将t帧时刻降维后的特征向量表示为计算t+1帧时刻降维后的特征向量的重要性β_t+1：

其中，f_p为感知机算法中的预测函数；φ(x_t+1)表示在所述视频序列X下，截止到t+1帧为止的降维后的特征向量；

计算t+1帧时刻的特征向量的权重ω，所述权重ω满足以下计算公式：

计算每一帧时刻的特征向量的权重，选取权重最大的特征向量作为所述目标特征向量。

3.根据权利要求1所述的手语识别方法，其特征在于，在形成所述视频序列X的过程中，包括：

对手语视频进行切帧；

将手语视频所对应的图像帧按照时序等分成n个片段；

从每一个片段中随机选取连续的m个图像帧，形成所述的视频序列X＝(x₁,x₂,…,x_n)；其中，x_i表示第i个片段中的m个图像帧。

4.根据权利要求3所述的手语识别方法，其特征在于，在形成所述视频序列X的过程中，具体包括：

将每一个手语视频切为N帧，N≥34，并将前f帧和后f帧作为冗余帧进行剔除，保留中间的关键帧，所述f≤5；

将所述中间的关键帧按照时序等分成三个片段；

从每一个片段中随机选取连续的至少8个图像帧，形成所述的视频序列X。

5.根据权利要求1所述的手语识别方法，其特征在于，在基于频域变换提取相位信息的过程中，采用Gabor变换提取图像帧的相位信息。

6.根据权利要求1至5中任一项所述的手语识别方法，其特征在于，在所述3D ResNets深度卷积神经网络中，其3D卷积层使用不同尺度的卷积核对不同时序位置的时序信息进行二次卷积，然后对每一个时序位置的卷积特征进行时间维度上的特征聚合，形成二次卷积之后的特征矩阵，送入池化层，进而利用所述自适应学习池化算法进行降维，以筛选出目标特征向量。

7.根据权利要求6所述的手语识别方法，其特征在于，所述3D ResNets深度卷积神经网络包括8个3D卷积层和8个池化层，所述8个3D卷积层和8个池化层相互交错；其中，

每一个3D卷积层的卷积核均为3×3×3，卷积核的数量由64到512依次递增，在卷积层之后，对两路信息进行卷积层的特征融合；

每一个池化层均使用所述自适应学习池化算法进行降维，其中第二个池化层、第六个池化层、第七个池化层以及第八个池化层均使用2×2×2的窗口同时对时间维度和空间维度进行下采样，其他池化层使用1×2×2的窗口，只在空间维度上进行下采样。

8.根据权利要求7所述的手语识别方法，其特征在于，在每一个3D卷积层之后分别加入BN层。

9.根据权利要求7所述的手语识别方法，其特征在于，所述3D ResNets深度卷积神经网络还包括一个数据输入层和两个全连接层，其中，

第一个全连接层包含512个神经元，通过第八个池化层输出的特征向量在此层被转化为512维的特征向量，在第八个池化层与第一个全连接层之间使用Dropout层，按0.5的概率丢弃部分神经网络单元，并利用迁移学习算法以0.1的概率冻结第八个池化层与第一个全连接层的部分连接；

第二个全连接层为密集输出层，包括与分类结果的类别数目相同的神经元，第二个全连接层中的每个神经元与第一个全连接层中的512个神经元全连接，最后经由分类器进行分类，输出所属手语类别的分类结果。

10.根据权利要求9所述的手语识别方法，其特征在于，所述3D卷积层和第一个全连接层使用ELU作为激活函数，所述第二个全连接层使用Softmax作为激活函数，优化函数使用SGD函数，损失函数为多分类交叉熵函数与自适应学习池化算法的误差之和。