CN109961005B

CN109961005B - 一种基于二维卷积网络的动态手势识别方法及***

Info

Publication number: CN109961005B
Application number: CN201910079917.8A
Authority: CN
Inventors: 杨明强; 刘玉鹏; 王德强; 李�杰; 程琦
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2021-08-31
Anticipated expiration: 2039-01-28
Also published as: CN109961005A

Abstract

本公开公开了一种基于二维卷积网络的动态手势识别方法及***，包括：采集实际动态手势视频，对视频进行分帧处理；对分帧后的实际图像进行帧抽样；对帧抽样后的实际图像进行编码得到实际图像的实际特征向量；对实际特征向量进行融合得到实际特征矩阵；将实际特征矩阵输入到训练好的二维卷积神经网络中，输出手势识别结果。其通过将源视频流处理成一帧图像并将其送入二维卷积网络，得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。

Description

一种基于二维卷积网络的动态手势识别方法及***

技术领域

本公开涉及一种基于二维卷积网络的动态手势识别方法及***。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

手势可以说是人类除了语言外的另一重要的交流工具，其包含着丰富的语义信息，应用广泛，如人机交互、增强现实、情感计算，手语识别等领域。最初的手势识别主要是利用穿戴设备，直接检测手、胳膊各关节的角度和空间位置。这些设备多是通过有线技术将计算机***与用户相互连接，使用户的手势信息完整无误地传送至识别***中，其典型设备如数据手套等，由于设备的依赖导致其实用性(舒适性、安全性)和易用性较差，近些年来人们越来越关注无需碰触设备即可识别手势动作的基于视觉的手势识别技术。

手势识别技术，可以分为静态手势识别和动态手势识别两种。静态手势只能识别手势的“状态”，而不能感知手势的“持续变化”。比如手处于“握拳”状态就可以被正确识别，但是手掌由左向右滑动这种语义动作是无法被正确识别的。动态手势识别方法由于可以获取动作的时序信息，因此可以处理更为复杂的手势，有着更为广阔的应用前景

深度学习方法在图像分类、检测和分割等方面的大量应用都表明了其能显著提升视觉任务中的性能表现。相对于图像任务，视频理解需要额外处理时序信息，通过深度学习的特征提取能力，可以很好的融合视频的空间特征和时序特征。同时传统方法如隐马尔可夫模型等需要人工设计若干个特征描述子，这无疑增大了识别任务的难度。

发明内容

为了解决现有技术的不足，本公开提供了一种基于二维卷积网络的动态手势识别方法及***，其通过将源视频流处理成一帧图像并将其送入二维卷积网络，得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。

第一方面，本公开提供了一种基于二维卷积网络的动态手势识别方法；

一种基于二维卷积网络的动态手势识别方法，包括：

采集实际动态手势视频，对视频进行分帧处理；对分帧后的实际图像进行帧抽样；

对帧抽样后的实际图像进行编码得到实际图像的实际特征向量；

对实际特征向量进行融合得到实际特征矩阵；

将实际特征矩阵输入到训练好的二维卷积神经网络中，输出手势识别结果。

作为一种可能的实现方式，所述对分帧后的实际图像进行帧抽样的具体步骤为：

对视频进行分帧处理后，得到若干帧图像；

按照时间顺序，将所述若干帧图像划分为K个视频段，每个视频段中均包括N帧图像；

然后，对每个视频段均抽取i帧图像；最后得到抽样后的图像序列。

上述技术方案的有益效果是，通过帧抽样，可以降低手势动作的特征冗余度，降低计算量，提高识别的精度。

作为一种可能的实现方式，所述对每个视频段均抽取i帧图像所采取的方式包括下列方式中的至少一种方式：

(A1)固定抽样：对于每一个视频段，只抽取该视频段的第n帧图像；

(A2)随机抽样：对于每一个视频段，随机抽取该视频段的某一帧图像；

(A3)关键帧抽样：对于每一个视频段，识别或指定关键帧，并且只抽取该视频段的关键帧图像。

随机抽样的有益效果是，当一次训练结束后，再次采取随机抽样对二维卷积神经网络进行训练，第N次训练所使用的图像有很大概率与在先训练所使用的图像不同，这样对二维卷积神经网络的训练会更加全面，因为随机抽样一定程度上相当于对训练数据进行了扩增。

关键帧抽样的有益效果是，可以提升识别的精度，因为抽取的是关键帧图像，关键帧图像相比其余帧图像更具有代表性，其特征信息量也与其余帧图像多。

作为一种可能的实现方式，所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法包括下列方法中的至少一种方法：

(B1)对抽样得到的每一帧图像进行图像压缩，然后对压缩后的图像进行向量拉伸，得到图像的一维向量；所述向量拉伸，是将第i+1行的首元素连接在第i行的尾元素之后；

(B2)对抽样得到的每一帧图像采用卷积神经网络进行特征提取，得到图像的一维向量。

向量拉伸得到图像一维向量的有益效果是，对于小数据集，复杂度低。

采用卷积神经网络进行特征提取的有益效果是，特征提取能力更强。

作为一种可能的实现方式，所述对实际特征向量进行融合得到实际特征矩阵的具体步骤为：

将编码得到的图像的一维向量进行向量拼接，得到融合后的实际特征矩阵；

在拼接的过程中，每个一维向量均作为实际特征矩阵的行向量；按照图像帧的时间顺序对所有的一维向量进行排序，将排序后的所有一维特征向量依次作为实际特征矩阵的行向量后，就得到一个完整的实际特征矩阵。

向量拼接的有益效果是：实际特征矩阵的行向量代表视频中某一帧的空间信息；实际特征矩阵的列向量代表视频中的时序信息；实际特征矩阵同时包括了原视频的空间信息和时序信息。

作为一种可能的实现方式，二维卷积神经网络的结构，包括：

依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层和第二全连接层；

所述第一卷积层的通道数为64，第一卷积层的卷积核尺寸为3*7；

所述第一池化层的类型为Max-Pooling，第一池化层的尺寸为2*2；

所述第二卷积层的通道数为64，第二卷积层的卷积核尺寸为3*5；

所述第二池化层的类型为Max-Pooling，第二池化层的尺寸为2*2；

所述第三卷积层的通道数为64，第三卷积层的卷积核尺寸为3*3；

所述第三池化层的类型为Max-Pooling，第三池化层的尺寸为2*2；

第一全连接层的神经元个数为512个；

第二全连接层的神经元个数为设定分类个数。

作为一种可能的实现方式，二维卷积神经网络的训练过程，具体包括：

采集训练动态手势视频，对视频进行分帧处理；对分帧后的训练图像进行帧抽样；

对帧抽样后的训练图像进行编码得到训练图像的训练特征向量；

对训练特征向量进行融合得到训练特征矩阵；

将训练特征矩阵输入到二维卷积神经网络中进行训练，得到训练好的二维卷积神经网络。

准备训练动态手势视频时，对视频进行分帧处理；对分帧后的训练图像进行帧抽样，将每个原视频等间隔抽取图像帧；假定原视频P，总帧数为L，设定抽取的帧数为N；

当L＞N时，采用等间隔采样的方式抽取N帧图像；

当L＜N时，将从L中随机选择N-L帧图像进行复制，且复制后的图像帧排列在对应的被复制图像帧之后，这样就得到了N帧图像。

因此，在申请实施例中，其通过将源视频流处理成一帧图像并将其送入二维卷积网络，得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。

第二方面，本公开还提供了一种基于二维卷积网络的动态手势识别***；

一种基于二维卷积网络的动态手势识别***，包括：

帧抽样模块，采集实际动态手势视频，对视频进行分帧处理；对分帧后的实际图像进行帧抽样；

图像编码模块，对帧抽样后的实际图像进行编码得到实际图像的实际特征向量；

特征向量融合模块，对实际特征向量进行融合得到实际特征矩阵；

手势识别模块，将实际特征矩阵输入到训练好的二维卷积神经网络中，输出手势识别结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中方法的步骤。

与现有技术相比，本公开的有益效果是：

通过帧抽样，可以降低手势动作的特征冗余度，降低计算量，提高识别的精度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为一个或多个实施方式的流程图；

图2为一个或多个实施方式的矩阵结构图；

图3为一个或多个实施方式的流程图；

图4为一个或多个实施方式的***功能模块图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1：

如图1和图3所示，设定输入为一段视频序列W

S1帧抽样

由于视频的连续性导致相邻若干帧之间差异性较小，如果不对视频序列进行帧采样，那么最终得到的动作特征冗余度会过高，而这将会增大计算量和降低识别的精度。

对于输入的视频序列W，我们对其进行等分为K段：{S₁，S₂，S₃，...，S_K}。这K个视频段有着相同帧数的图像。然后我们对每一个视频段S_k，k＝1，2，...，K从中以某种方式抽取一帧图像，记为T_k，注意S_k和T_k是一一对应的。通过帧采样，我们将抽样后的图像序列{T₁，T₂，T₃，...，T_K}来代表原视频V。这样就大大减少了计算量，同时在一定程度上增强了对长时动作的建模能力。

关于帧抽取的方式，可以有多种方式：

(A1)固定抽样

对于某个视频段S_k，只抽取该视频段的第n帧，注意，n值一旦确定，那么对于所有视频段n都是相同的。

(A2)随机抽样

对于某个视频段S_k，随机地抽取该视频段中某一帧。随机抽样在一定程度上相当于进行了训练数据的增扩，因为每次所有训练数据均已参与训练后我们都将重新进行一次随机抽样，而对于某个视频段来说，不同次随机采样的图像帧有较大概率是不同的。

(A3)关键帧

无论是固定抽样还是随机抽样，我们都已经隐式地认为抽取的图像对于识别都是同等的重要的。关键帧技术则是将某个视频段中最具代表性的图像帧抽取出来，这无疑可以提升识别任务的精度，但同时意味需要提前进行部分计算来提取关键帧。

根据不同的***需要，采取不同的帧采样方式。如果对总体的计算量较为敏感，帧采样采取随机采样的方式即可，否则使用关键帧抽取技术，进一步提升识别精度。

S2编码

对于帧采样过程得到的图像序列{T₁，T₂，T₃，...，T_K}，我们对其中的每一张图像T_k都进行编码，得到特征向量V_k，注意V_k和T_k也是一一对应的关系。特征向量V_k代表着图像T_k的空间信息，同时经过编码得到的该向量将会是一维向量。

其中，

为编码操作。

对于编码的方式也可采取多种不同的方式

(B1)图像拉伸

在本发明的实施例中，可选地，首先对图像T_k调整大小得到T′_k，缩小图像尺寸有利于降低计算量。然后将压缩后的图像T′_k进行向量拉伸，即把第i+1行的首元素连接在第i行的尾元素之后，这样我们就得到了一维向量V_k。假定视频帧尺寸为120×150，则将该图像压缩至25×25，再经过矩阵拉伸后得到尺寸为625的一维向量

(B2)卷积网络

在本发明的实施例中，可选地，对于图像T_k，使用较浅的卷积网络进行特征提取。可以采用三层卷积层再加一层全连接层的结构，其中卷积核均为3*3大小。全连接层的目的是得到一维向量。

通过卷积网络进行编码的方式相对于简单的图像拉伸，其空间特征提取能力更强，但由于模型的复杂度大，适用于大数据集训练，否则网络有过拟合风险。对于小数据集，简单的图像拉伸操作已经足够。

S3特征连接

对于编码步骤中得到的一系列特征{V₁，V₂，V₃，...，V_K}，我们将其进行连接为一帧图像X。

其中

代表向量叠加操作。

如图2所示，该图像X每一行为特征向量V_k，由于与原视频W抽样后的图像T_k是一一对应的，故从行方向看，图像X每一行都代表了视频中某一帧的空间信息；同时，由于特征向量的叠加，从列方向看，图像X则包含了视频的时序信息。

因此经过特征连接后，生成的图像X同时具有原视频的空间信息和时序信息。

S4卷积网络的构建

对于特征连接得到的图像X，我们将其送入一个二维卷积网络。假定X的空间维度为64×625，则该卷积网络有三层卷积层和两层全连接层。与此同时，每一层卷积层后都连接一个ReLU激活层和一个Pooling池化层。

由于图像X高和宽的差距较大，我们对于每个卷积层的卷积核都设定了不同的尺寸。其中，第一层卷积层的卷积核尺寸为3×7；第二层卷积层的卷积核尺寸为3×5；第三层卷积层的卷积核尺寸为3×3。我们对于所有的池化层都采用了相同的参数设置：采用Max-Pooling，尺寸为2×2。对于最后的两个全连接层，第一层神经元个数设定为512，第二层神经元个数设定为识别任务的类别总数。

表1

输入	64×625
		卷积层1	通道数：64；卷积核尺寸：3×7
池化层1	类型：Max；尺寸：2×2
		卷积层2	通道数：64；卷积核尺寸：3×5
池化层2	类型：Max；尺寸：2×2
		卷积层3	通道数：64；卷积核尺寸：3×3
池化层3	类型：Max；尺寸：2×2
		全连接层1	512
全连接层2	分类个数

S5卷积网络的训练

深度卷积网络的训练往往会出现过拟合现象，为此我们采用了多种技术来降低过拟合风险从而提升算法的识别精度：1)批归一化；2)Dropout；3)数据扩增。

准备训练所需数据集时，现将每个原视频等间隔抽取图像帧。假定源视频P，总帧数为L，设定的需要抽取的帧数为N。那么当L＞N时，我们采用等间隔采样的方式抽取N帧图像；当L＜N时，我们将从L中随机选择N-L帧图像进行复制，且复制后的图像帧排列在对应的被复制图像帧之后。这N帧图像组成了此算法的输入视频W。

实施例2：如图4所示，

一种基于二维卷积网络的动态手势识别***，包括：

实施例3：

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、设备和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于二维卷积网络的动态手势识别方法，其特征是，包括：

所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法包括：对抽样得到的每一帧图像进行图像压缩，然后对压缩后的图像进行向量拉伸，得到图像的一维向量；所述向量拉伸，是将第i+1行的首元素连接在第i行的尾元素之后；

对实际特征向量进行融合得到实际特征矩阵；

所述对实际特征向量进行融合得到实际特征矩阵的具体步骤为：

在拼接的过程中，每个一维向量均作为实际特征矩阵的行向量；按照图像帧的时间顺序对所有的一维向量进行排序，将排序后的所有一维特征向量依次作为实际特征矩阵的行向量后，就得到一个完整的实际特征矩阵；

实际特征矩阵同时包括了原视频的空间信息和时序信息，实际特征矩阵的行向量代表视频中某一帧的空间信息，实际特征矩阵的列向量代表视频中的时序信息；

2.如权利要求1所述的方法，其特征是，所述对分帧后的实际图像进行帧抽样的具体步骤为：

对视频进行分帧处理后，得到若干帧图像；

3.如权利要求2所述的方法，其特征是，所述对每个视频段均抽取i帧图像所采取的方式包括下列方式中的至少一种方式：

4.如权利要求1所述的方法，其特征是，所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法还包括：

对抽样得到的每一帧图像采用卷积神经网络进行特征提取，得到图像的一维向量。

5.如权利要求1所述的方法，其特征是，二维卷积神经网络的结构，包括：

第一全连接层的神经元个数为512个；

第二全连接层的神经元个数为设定分类个数。

6.如权利要求1所述的方法，其特征是，二维卷积神经网络的训练过程，具体包括：

对训练特征向量进行融合得到训练特征矩阵；

将训练特征矩阵输入到二维卷积神经网络中进行训练，得到训练好的二维卷积神经网络；

当L>N时，采用等间隔采样的方式抽取N帧图像；

当L<N时，将从L中随机选择N-L帧图像进行复制，且复制后的图像帧排列在对应的被复制图像帧之后，这样就得到了N帧图像。

7.一种基于二维卷积网络的动态手势识别***，其特征是，包括：

8.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项方法所述的步骤。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项方法所述的步骤。