CN110334584A

CN110334584A - 一种基于区域全卷积网络的手势识别方法

Info

Publication number: CN110334584A
Application number: CN201910419349.1A
Authority: CN
Inventors: 杨锦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2019-10-15
Anticipated expiration: 2039-05-20
Also published as: CN110334584B

Abstract

本发明公开了一种基于区域全卷积网络的手势识别方法，对于输入的手势图像，通过全卷积网络进行特征提取，获得一组特征图并生成候选框，而位置敏感子网络产生位置敏感得分图，通过池化层为每个手势类别进行打分，从而实现目标手势的定位与分类；本发明主要特点是整个区域全卷积网络是一个共享的全卷积结构，整个结构是端到端的学习，在实现高精度的识别率的同时避免了复杂的计算，并且结合OHEM技术，网络模型对负样本有了更高的拒识率，便于实际应用，对于人机交互领域有着重要意义。

Description

一种基于区域全卷积网络的手势识别方法

技术领域

本发明涉及计算机视觉、机器学习和模式识别技术领域，具体涉及一种利用区域全卷积网络实现端到端的手势识别方法。

背景技术

当前，随着众多VR(Virtual Reality)和AR(Augmenting Reality)越来越受欢迎，使得人机交互技术受到越来越多的人关注。而手势作为一种最直接、最方便的人机交互方式受到了广大研究者的关注，手势识别逐渐成为计算机视觉领域重要的研究方向。计算机如何精确地识别出手势的意义则是手势人机交互***中的重要一环，由于人手是复杂形变体，手势具有多样性、多义性以及时间上的差异等特点，并且手势通常处于复杂的场景中，像光照过亮或过暗、有多个手势存在以及手势与设备的距离不同等各种复杂的场景因素，手势识别仍然是一项巨大的挑战。

比较典型的手势识别方法主要基于隐马尔可夫模型、模板匹配和人工神经网络等。这些传统的手势识别方法必须人工设置特征，再对手势提取这些特征进行识别，存在处理过程复杂、效率低的缺点。

发明内容

本发明的目的是提供一种基于区域全卷积网络的手势识别方法，以提升识别效率，降低计算的复杂度。

为了实现上述任务，本发明采用以下技术方案：

一种基于区域全卷积网络的手势识别方法，包括以下步骤：

步骤1，建立全卷积网络

使用残差网络ResNet-34网络架构作为骨架，将RerNet-34网络的步长由32像素改为16像素，删除了ResNet-34网络架构的平均池化层和全连接层，然后利用ResNet-34网络架构的卷积层构建全卷积网络，以提取输入图像的特征；输入图像经过全卷积网络后输出特征图，特征图上的每一个像素点产生多个用于预测坐标框位置的候选框；

步骤2，建立区域候选网络

建立区域候选网络，该网络包括所述全卷积网络的最后一个卷积层，在该卷积层之后有两个分支，其中一个分支依次为卷积层、第一调整层、归一化层和第二调整层，该分支的作用是用于判断所述候选框属于前景、背景的分数，另外一个分支为一个卷积层，其作用是预测候选框与真实坐标框位置的偏移量；所述的第一调整层、第二调整层用于改变图像的维度，归一化层用于进行归一化操作；

步骤3，训练区域候选网络

筛选候选框用以训练区域候选网络，筛选的规则是：

如果候选框与真实坐标框的重叠率≥0.7，则认为该候选框是前景；如候选框与真实坐标框的重叠率<0.3，则认为该候选框是背景；将前景、背景对应的候选框作为区域候选网络的训练数据进行训练，其中，前景对应的候选框为正样本，背景对应的候选框为负样本；区域候选网络训练的损失函数为：

L＝cls_loss+λ*reg_loss

其中，λ为可调节参数；为了训练区域候选网络，将一个二进制类标签分配给需要训练的候选框，设p_i是第i个候选框属于前景的预测概率，是真实标签，则cls_loss定义为：

reg_loss用于回归候选框与真实坐标框的偏差量，定义为：

式中i∈(x,y,w,h)，t_i是第i个候选框与真实坐标框[x,y,w,h]的偏移量的预测输出，是第i个候选框与真实坐标框的[x,y,w,h]的偏移量的真实值，x,y表示坐标，w、h表示宽度、高度；

区域候选网络利用所述的损失函数L，通过反向传播和随机梯度下降法进行端到端训练，用标准偏差0.01的零均值高斯分布来初始化权重；

步骤4，构建位置敏感子网络

所述的位置敏感子网络包括在所述全卷积网络最后一个卷积层之后连接的一个卷积层，输入图像经过全卷积网络处理后，输出的特征图再经过该卷积层进行卷积操作后，得到位置敏感得分图；该卷积层为每个手势类别产生一个维数为k²(c+1)的位置敏感得分图，k²个位置敏感得分图是由k*k个空间网格来描述的相对位置，其中c代表识别物体类别数；

步骤5，位置敏感候选框的池化

训练后的区域候选网络输出候选框与真实坐标框的偏差量，其中包含候选框区域的位置信息；根据所述位置信息，将候选框对应到步骤4中得到的位置敏感得分图，而候选框会被划分成k*k个子区域，每个子区域都对应到得分图上的一个区域；所述的位置敏感子网络还包括一个池化层，用于实现以下功能：

从候选框中分别抽取每个类别对应的位置敏感得分图，分别对抽取的得分图求均值，然后按照位置组成矩阵，对矩阵中所有值求和，得到一个值；对所有类别进行同样的处理后，得到的所有值共同构成一个输出向量，将输出向量进行归一化处理，从而估计当前候选区域属于什么类别；

步骤6，对网络利用手势图片的数据库进行训练，保存训练后的网络模型用于手势分类。

本发明具有以下技术特点：

本发明的整个区域全卷积网络是一个共享的全卷积结构，整个结构是端到端的学习，在实现高精度的识别率的同时避免了复杂的计算，并且结合OHEM技术，网络模型对负样本有了更高的拒识率，便于实际应用。本发明在人机交互***等的智能行为分析与后处理方法，对于辅助汽车控制***、手语识别和个人穿戴***等领域的智能化建设具有一定的实用价值。

附图说明

图1为本发明方法中网络的结构图；

图2为区域候选网络的结构图；

图3为从特征图上获取候选框的示意图；

图4为本发明实施例中待训练的七种手势示意图；

图5为手势1的9个位置敏感得分图位置对应关系；

图6为本发明方法的手势识别测试结果。

具体实施方式

本发明提供一种基于区域全卷积网络的手势识别方法，包括以下步骤：

步骤1，建立全卷积网络

本方案中，使用残差网络ResNet-34网络架构作为骨架，将RerNet-34网络的步长由32像素改为16像素，删除了ResNet-34网络架构的平均池化层和全连接层，然后利用ResNet-34网络架构的卷积层构建全卷积网络，以提取输入图像的特征。

如图1所示，本方案中的全卷积网络包含两个部分，第一部分是卷积核大小7*7的卷积层处理输入图像，第二部分是3*3的卷积核组成的四组不同深度的残差块，残差块是残差网络用来提取特征的重要结构。

输入图像经过全卷积网络后，通过最后一个卷积层输出特征图，特征图上的每一个像素点产生9个用于预测坐标框位置的候选框；则对于维度为w*h*d(宽度*高度*深度)的三维卷积层共产生w*h*9个候选框。候选框为矩形框，共有三种形状，长宽比为[1:1,1:2,2:1]三种。

步骤2，建立区域候选网络

建立区域候选网络，该网络包括所述全卷积网络的最后一个卷积层，在该卷积层之后有两个分支，其中一个分支依次为卷积层、第一调整层、归一化层和第二调整层，该分支的作用是用于判断卷积层输出特征图上，每个像素点产生的候选框属于输入图像前景、背景的分数；另外一个分支为一个卷积层，其作用是预测候选框与真实坐标框位置的偏移量；所述的第一调整层、第二调整层用于进行Reshape操作，即改变图像的维度。

本实施例中，第一个分支的卷积层卷积核大小为1*1*18，经过全卷积网络最后一个卷积层输出的特征图经过第一个分支的卷积层后，得到的特征图维度为(w,h,9*2)，继而经过第一调整层Reshape、归一化层进行归一化、第二调整层Reshape后得到候选框输入图像前景、背景的预测概率；第二个分支的卷积层的卷积核大小为1*1*36，经过该卷积层后得到的特征图维度可表示为(w,h,4*9)，代表着w*h*9个候选框与真实坐标框位置的偏移量。

步骤3，训练区域候选网络

筛选候选框用以训练区域候选网络，筛选的规则是：

如图3所示，如果候选框与真实坐标框的重叠率≥0.7，则认为该候选框是前景；如候选框与真实坐标框的重叠率<0.3，则认为该候选框是背景；将前景、背景对应的候选框作为区域候选网络的训练数据进行训练，其中，前景对应的候选框为正样本，对应目标手势区域的类别；背景对应的候选框为负样本；而其他的候选框不参与训练。

区域候选网络训练的损失函数分为两部分：cls_loss和reg_loss。

cls_loss用于分类候选框为前景/背景，本方案中为了训练区域候选网络，将一个二进制类标签(前景：0，背景：1)分配给需要训练的候选框，设p_i是第i个候选框属于前景的预测概率，是真实标签(只能是0或1)，则cls_loss交叉熵损失函数定义为：

reg_loss用于回归候选框与真实坐标框的偏差量，回归任务不能使用上述中交叉熵损失函数，reg_loss损失函数定义为：

式中i∈(x,y,w,h)，t_i是第i个候选框与真实坐标框[x,y,w,h]的偏移量的预测输出，是第i个候选框与真实坐标框的[x,y,w,h]的偏移量的真实值，x,y表示坐标，w、h表示宽度、高度。

这两部分损失由于数量级不同，用一个可调节参数λ平衡二者，使在训练时，使区域候选网络总的损失函数计算过程中能够均匀考虑两种损失。区域候选网络的损失函数L定义为：

L＝cls_loss+λ*reg_loss

区域候选网络利用所述的损失函数L，通过反向传播和随机梯度下降法进行端到端训练，用标准偏差0.01的零均值高斯分布来初始化权重；训练所需初始化参数的部分包括步骤1中的全卷积网络参数、区域候选网络中卷积层的参数。

步骤4，构建位置敏感子网络

所述的位置敏感子网络包括在所述全卷积网络最后一个卷积层之后连接的一个卷积层conv_L，输入图像经过全卷积网络处理后，输出的特征图再经过该卷积层conv_L进行卷积操作后，得到位置敏感得分图。该卷积层为每个手势类别产生一个维数为k²(c+1)的位置敏感得分图(c为手势类别+1个背景类)，k²个位置敏感得分图是由k*k个空间网格来描述的相对位置。

该卷积层的高heigh和宽width和全卷积网络最后一个卷积层一样，但它的通道个数是k*k*(c+1)，其中k表示所要划分的网格数，c代表识别物体类别数，再加上一个背景类别，如图4所示，本方案识别任务类别数有七种，所以共有8个类，而每个类别都有k*k个得分图，以手势1为例，每一个得分图表示原始输入图像中的那些位置含有手势1的某个部分，得分图会在含有对应手势1的某个部位的位置有高的响应，将k取为3，表示将原始输入图像分为9个不同位置并有9个位置敏感得分图。

步骤5，位置敏感候选框的池化

步骤3训练后的区域候选网络输出候选框与真实坐标框的偏差量，其中包含候选框区域的位置信息[x,y,w,h]四个值；根据所述的位置信息，将候选框区域对应到步骤4中得到的位置敏感得分图，而候选框区域会被划分成k*k个子区域，每个子区域都对应到得分图上的一个区域；所述的位置敏感子网络还包括一个池化层，用于实现以下功能：

从候选框中分别抽取每个类别对应的位置敏感得分图，分别对抽取的得分图求均值，然后按照位置组成矩阵，对矩阵中所有值求和，得到一个值S；对所有类别进行同样的处理后，得到的所有值S共同构成一个输出向量，将输出向量进行归一化处理，从而估计当前候选区域属于什么类别。

本实施例中，每个类别有9个位置敏感得分图，以类别手势1为例，从候选框中抽取类别1的9个得分图，如图5所示，分别对抽取的得分图求均值，然后按照位置组成一个3*3大小的矩阵，对3*3的矩阵中的所有值求和，得到一个值；对类别2-8重新使用上述步骤，最终得到一个1*8这样的向量，将向量进行softmax归一化处理，计算属于每个类别的softmax响应，以估计当前选框区域属于什么类别，从而输出预测结果。

位置敏感子网络中候选框分类损失函数采用交叉熵损失函数定义为：

其中，s_ci是1*8维输出向量中属于i类的真实输出，是1*8维输出向量中属于i类的预测输出，θ是整个网络(全卷积网络、区域候选网络、位置敏感子网络)中卷积层的参数集。

步骤6，对整个网络利用手势图片的数据库训练，保存训练后的网络模型用于手势分类。

本实施例中，利用CGD数据库对网络进行训练，该数据库有三十个基本的手势动作，图片大小需要进行归一化为224*224，此外区域候选网络与位置敏感子网络共享网络参数，所以只需要训练一次网络就满足要求，通过深度学习框架pytorch搭建网络模型，在CGD数据集中选择有代表性的7种手势，如图4所示，训练集8000张，测试集500张。训练周期设置为500，保存模型后，进行端到端的测试，输入含有手势的图片后输出结果，如图5所示。从图中可以看出，手势的类别与坐标框位置都被识别出来，由此证明本方案在手势识别上有着很好的表现。

发明采用了OHEM(online hard example mining)技术，计算所有的手势区域的损失函数值，然后对所有的手势区域按照损失值排序，挑选出损失值最大的B个具有最高损失的手势区域进行反向传播。

Claims

1.一种基于区域全卷积网络的手势识别方法，其特征在于，包括以下步骤：

步骤1，建立全卷积网络

步骤2，建立区域候选网络

步骤3，训练区域候选网络

筛选候选框用以训练区域候选网络，筛选的规则是：

L＝cls_loss+λ*reg_loss

reg_loss用于回归候选框与真实坐标框的偏差量，定义为：

步骤4，构建位置敏感子网络

步骤5，位置敏感候选框的池化