CN111709310B

CN111709310B - 一种基于深度学习的手势跟踪与识别方法

Info

Publication number: CN111709310B
Application number: CN202010452860.4A
Authority: CN
Inventors: 刘礼; 张玉浩; 廖军
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2024-02-02
Anticipated expiration: 2040-05-26
Also published as: CN111709310A

Abstract

本发明公开了一种基于深度学习的手势跟踪与识别方法，主要步骤为：1)采集若干手势彩色图像；2)标记出手势彩色图像的手部区域框；对手势彩色图像进行分类；3)建立手势数据集；4)搭建Darknet‑53卷积神经网络模型；5)预训练；6)将训练后Darknet‑53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中；7)使用k‑means聚类算法对手势彩色图像的手部区域框进行聚类，得到k类手部区域框；8)得到训练后的YOLOv3网络模型；9)训练后的YOLOv3网络模型对实时视频图像进行识别，得到手部区域框和手势类别信息。本发明对流式视频中手势的识别准确率可达到95％以上，识别速度达到50frames/s以上。

Description

一种基于深度学习的手势跟踪与识别方法

技术领域

本发明涉及目标检测与手势识别技术领域，具体是一种基于深度学习的手势跟踪与识别方法。

背景技术

人类能够很容易识别手势，经过一段时间的学习，人们可以快速地用手势进行交流。近年来，大量的研究致力于开发对手势图像进行识别并分类为预设类别的***。这种***已经在游戏和电子设备控制、机器人控制、虚拟现实环境和自然语言通信等领域中得到应用。

基于手势识别的人机交互中，最重要的是对手部进行快速、准确的跟踪定位，由于实时视频中的手部图像有光照强度、自遮挡、运动速度快以及尺度变化等问题，在实际应用中对人的手势进行实时追踪并进行识别是困难的。传统的手势识别方法中，有的使用了特定的传感设备，如数据手套、肌电传感器等，但这将应用限制在有限的场景内；同时，多个摄像头的使用也严重限制了应用场景；目前大多数研究都依赖于深度摄像头拍摄的深度图像，但深度摄像头并不像普通的摄像头那么普遍，且只能在室内环境稳定地使用。上述传统方法在识别时间和识别率上都有待提高。

发明内容

本发明的目的是解决现有技术中存在的问题。

为实现本发明目的而采用的技术方案是这样的，一种基于深度学习的手势跟踪与识别方法，主要包括以下步骤：

1)采集若干手势彩色图像，并对所述手势彩色图像进行预处理。

进一步，采集手势彩色图像的装置为摄像头。

进一步，对所述手势彩色图像进行预处理方法为：利用数据增强方法对手势彩色图像进行扩充。数据增强方法包括翻转、平移和添加噪声。

进一步，所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。

2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类，为每幅手势彩色图像打上唯一标签，并生产数据标签文件。

3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。

4)搭建Darknet-53卷积神经网络模型。

5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练，得到训练后的Darknet-53卷积神经网络模型。

进一步，所述训练数据集为Egohands数据集。

进一步，对Darknet-53卷积神经网络模型进行预训练的方法为：将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中，利用梯度下降算法不断更新Darknet-53卷积神经网络权重，直至Darknet-53卷积神经网络权重满足阈值，得到训练好的Darknet-53卷积神经网络模型。

6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中，并初始化。

7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类，得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。

进一步，k-means聚类时，每个手部区域框和聚类中心的重合度满足下式：

d(box,centroid)＝1-IOU(box,centroid)。 (1)

式中，d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离。IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。IOU表示交并比。

8)将手势数据集输入到YOLOv3网络模型中，对YOLOv3网络模型进行训练，得到训练后的YOLOv3网络模型。

进一步，训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示：

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)。 (2)

式中，λ₁、λ₂和λ₃分别表示置信度损失L_conf(o,c)、目标类别损失L_cla(O,C)和目标定位损失L_loc(l,g)的加权系数。

其中，置信度损失L_conf(o,c)如下所示：

式中，表示预测目标边界框i内是否存在目标的Sigmoid概率。/>o_i∈{0,1}，表示预测目标边界框i中是否真实存在目标，如不存在其值为0，存在则为1。

目标类别损失L_cla(O,C)如下所示：

式中，表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。O_ij∈{0,1}，表示预测目标边界框i中是否存在第j类目标，0表示不存在，1表示存在。

目标定位损失L_loc(l,g)如下所示：

式中，表示预测边界框坐标的偏移量。/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(b^x,b^y,b^w,b^h)为预测的目标边界框参数。(c^x,c^y,p^w,p^h)为默认框参数。(g^x,g^y,g^w,g^h)为与之匹配的真实目标边界框参数。(x，y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。

其中，预测边界框横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的/>分别满足下式：

Ground Truth与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量和高的偏移量/>分别满足下式：

9)获取实时视频流，并以视频帧方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别，得到手部区域框和手势类别信息。

进一步，对实时视频图像进行识别的主要步骤如下：

9.1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中，得到三种不同尺度的特征图，每个n*n大小的特征图有n*n个特征图网格，每个特征图小格产生r个建议框。

9.2)对特征图进行手势类别识别，主要步骤如下：

9.2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率p_as，若概率p_as<ε₁，则将第a个建议框置0。ε₁为概率阈值。a初始值为1，s初始值为1。

9.2.2)令a＝a+1，并返回步骤9.2.1)，直至r*n*n个建议框的概率均计算完毕。

9.2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε₂的建议框。

9.2.4)令s＝s+1，并返回步骤9.2.1)，直至k类手势类别均识别完毕。

9.2.5)保留每个手势类别中概率最大的建议框，将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。建议框为手部区域框。

本发明的技术效果是毋庸置疑的。本发明可以通过普通彩色摄像头对复杂背景下的手势图像进行实时的跟踪定位与准确识别。本发明提供的一种基于深度学习的手势跟踪与识别方法，该方法与现有方法相比，实时性更好、识别率更高、鲁棒性更强。本发明对流式视频中手势的识别准确率可达到95％以上，识别速度达到50frames/s以上。

附图说明

图1为检测示意图；

图2为YOLOv3网络的结构图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1，一种基于深度学习的手势跟踪与识别方法，主要包括以下步骤：

进一步，采集手势彩色图像的装置为摄像头。

4)搭建Darknet-53卷积神经网络模型。

进一步，所述训练数据集为Egohands数据集。

6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中，并初始化。Darknet-53为深度学习框架。

7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类，得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。本实施例k＝9。

d(box,centroid)＝1-IOU(box,centroid)。 (1)

式中，d(box,centroid)为每个手部区域框中心box和聚类中心centroid的最短距离。IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。IOU(Intersection over Union)表示交并比。

8)将手势数据集输入到YOLOv3网络模型中，对YOLOv3网络模型进行训练，改进候选框参数，得到训练后的YOLOv3网络模型。

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)。 (2)

其中，置信度损失L_conf(o,c)如下所示：

目标类别损失L_cla(O,C)如下所示：

式中，表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。/>O_ij∈{0,1}，表示预测目标边界框i中是否存在第j类目标，0表示不存在，1表示存在。i表示任意预测目标边界框，j表示目标类型。

目标定位损失L_loc(l,g)如下所示：

式中，为预测目标边界框i边界框横坐标、纵坐标、宽和高。为预测目标边界框i对应的默认框横纵坐标。/>为预测目标边界框i对应的默认框宽和高。

Ground Truth(真实框)与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的偏移量/>分别满足下式：

式中，为与预测目标边界框i匹配的Ground Truth与默认框之间的横坐标、纵坐标、宽和高。

9)获取实时视频流，并以视频帧(例如RGB图像)方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别，得到手部区域框和手势类别信息。

进一步，对实时视频图像进行识别的主要步骤如下：

9.1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中，得到三种不同尺度的特征图，每个n*n大小的特征图有n*n个特征图网格，每个特征图小格产生r个建议框。尺度分别为13*13，26*26，52*52。

9.2)对特征图进行手势类别识别，主要步骤如下：

实施例2：

一种基于深度学习的手势跟踪与识别方法，主要包括以下步骤：

4)搭建Darknet-53卷积神经网络模型。

8)将手势数据集输入到YOLOv3网络模型中，对YOLOv3网络模型进行训练，得到训练后的YOLOv3网络模型。YOLOv3网络的结构图如图2所示。

9)获取实时视频流，并以视频帧方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别，得到手部区域框和手势类别信息。在调用彩色摄像头时，可以获取单张图片进行静态识别，或者对动态的视频流进行实时的手势跟踪与识别。

实施例3：

一种基于深度学习的手势跟踪与识别方法，主要步骤见实施例2，其中，训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示：

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)。 (1)

其中，置信度损失L_conf(o,c)如下所示：

目标类别损失L_cla(O,C)如下所示：

式中，表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。/>O_ij∈{0,1}，表示预测目标边界框i中是否存在第j类目标，0表示不存在，1表示存在。

目标定位损失L_loc(l,g)如下所示：

实施例4：

一种基于深度学习的手势跟踪与识别方法，主要步骤见实施例2，其中，对实时视频图像进行识别的主要步骤如下：

1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中，得到三种不同尺度的特征图，每个n*n大小的特征图有n*n个特征图网格，每个特征图小格产生r个建议框。尺度分别为13*13，26*26，52*52。

2)对特征图进行手势类别识别，主要步骤如下：

2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率p_as，若概率p_as<ε₁，则将第a个建议框置0。ε₁为概率阈值。a初始值为1，s初始值为1。

2.2)令a＝a+1，并返回步骤2.1)，直至r*n*n个建议框的概率均计算完毕。

2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε₂的建议框。

2.4)令s＝s+1，并返回步骤2.1)，直至k类手势类别均识别完毕。

2.5)保留每个手势类别中概率最大的建议框，将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。

实施例5：

一种基于深度学习的手势跟踪与识别方法的实验，主要步骤如下：

1)搭建整个基于深度学习的手势跟踪与识别方法的实验环境：Windows10操作***的计算机，CPU为Intel(R)Core(TM)i7-4790，GPU为INVDIA GTX 1070Ti，使用pytorch深度学习框架，采集图像的摄像头为Logitech C525。

2)图像的预处理。

3)手势图像的检测计算：

基础网络部分Darknet-53对图片进行特征提取，为了处理不同尺寸的图像，采取同一个网络，选取不同的卷积层的特征图进行包围框的回归。不同的卷积层的特征图具有不同的感受野，在同一个网络，不同的特征图上的特征值代表了原始图像上面不同尺寸的图像块。特定的卷积层负责处理特征尺寸的物体。YOLOv3模型进行手势识别是一个回归与分类的过程。预测目标边框是一个回归的过程，识别目标框中的手势所属类别是一个分类过程。总损失函数为定位偏移量损失、置信度损失和分类损失的加权和：

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g) (2)

目标置信度预测目标矩形框内存在目标的概率，置信度损失L_conf(o,c)采用二值交叉熵损失，其中o_i∈{0,1}，表示预测目标边界框i中是否真实存在目标，如不存在其值为0，存在则为1，表示预测目标边界框i内是否存在目标的Sigmoid概率：

其中

目标类别损失L_cla(O,C)同样采用二值交叉熵损失，其中O_ij∈{0,1}，表示预测目标边界框i中是否存在第j类目标，0表示不存在，1表示存在。表示网络预测目标边界框i内存在第j类目标的Sigmoid概率：

其中

目标定位损失L_loc(l,g)采用真实偏差值与预测偏差值之差的平方和，其中表示预测边界框坐标的偏移量，/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量，(b^x,b^y,b^w,b^h)为预测的目标边界框参数，(c^x,c^y,p^w,p^h)为默认框参数，(g^x,g^y,g^w,g^h)为与之匹配的真实目标边界框参数。

4)判定机制的计算：

模型识别手势的具体过程如下：

将图像以416*416的分辨率输入网络，得到三种不同尺度(13*13,26*26,52*52)的特征图，每个n*n大小的特征图有n*n个特征图网格，每个特征图小格产生3个建议框。

在某一手势类别中，将该类概率少于阈值(取0.5)的建议框设置为0，然后该类概率对剩余的建议框进行排序。最后用非极大值抑制算法(阈值取0.5)去掉重复率较高的建议框，对于筛选后的建议框，取所有类别中概率最高的值保留，其余置零。若保留的值不为0，则建议框中为此概率值对应类别的手势，若值为0，说明此建议框中没有手势图像，跳过即可。

Claims

1.一种基于深度学习的手势跟踪与识别方法，其特征在于，主要包括以下步骤：

1)采集若干手势彩色图像，并对所述手势彩色图像进行预处理；

2)标记出手势彩色图像的手部区域框；对手势彩色图像进行分类，为每幅手势彩色图像打上唯一标签，并生产数据标签文件；

3)建立手势数据集；所述手势数据集包括手势彩色图像和对应的标签；

4)搭建Darknet-53卷积神经网络模型；

5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练，得到训练后的Darknet-53卷积神经网络模型；

6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中，并初始化；

7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类，得到k类手部区域框；将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数；

8)将手势数据集输入到YOLOv3网络模型中，对YOLOv3网络模型进行训练，得到训练后的YOLOv3网络模型；

9)获取实时视频流，并以视频帧方式输入到训练后的YOLOv3网络模型中；利用训练后的YOLOv3网络模型对实时视频图像进行识别，得到手部区域框和手势类别信息；

训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示：

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)； (1)

式中，λ₁、λ₂和λ₃分别表示置信度损失L_conf(o,c)、目标类别损失L_cla(O,C)和目标定位损失L_loc(l,g)的加权系数；

其中，置信度损失L_conf(o,c)如下所示：

式中，表示预测目标边界框i内是否存在目标的Sigmoid概率；/>o_i∈{0,1}，表示预测目标边界框i中是否真实存在目标，如不存在其值为0，存在则为1；

目标类别损失L_cla(O,C)如下所示：

式中，表示网络预测目标边界框i内存在第j类目标的Sigmoid概率；

O_ij∈{0,1}，表示预测目标边界框i中是否存在第j类目标，0表示不存在，1表示存在；

目标定位损失L_loc(l,g)如下所示：

式中，表示预测边界框坐标的偏移量；/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量；(x，y)代表检测框中心相对网络位置的偏移；(w,h)表示检测框的宽和高；

式中，(c^x,c^y,p^w,p^h)为默认框参数；(b^x,b^y,b^w,b^h)为预测的目标边界框参数；下标i表示预测目标边界框i；

Ground Truth与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的偏移量/>分别满足下式：

式中，(g^x,g^y,g^w,g^h)为与之匹配的真实目标边界框参数。

2.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，采集手势彩色图像的装置为摄像头。

3.根据权利要求1所述的一种基于深度学***移和添加噪声。

4.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，所述训练数据集为Egohands数据集。

5.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。

6.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，对Darknet-53卷积神经网络模型进行预训练的方法为：将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中，利用梯度下降算法不断更新Darknet-53卷积神经网络权重，直至Darknet-53卷积神经网络权重满足阈值，得到训练好的Darknet-53卷积神经网络模型。

7.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，k-means聚类时，每个手部区域框和聚类中心的重合度满足下式：

d(box,centroid)＝1-IOU(box,centroid)； (13)

式中，d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离；IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。

8.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，对实时视频图像进行识别的主要步骤如下：

1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中，得到三种不同尺度的特征图，每个n*n大小的特征图有n*n个特征图网格，每个特征图小格产生r个建议框；

2)对特征图进行手势类别识别，主要步骤如下：

2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率p_as，若概率p_as<ε₁，则将第a个建议框置0；ε₁为概率阈值；a初始值为1，s初始值为1；

2.2)令a＝a+1，并返回步骤2.1)，直至r*n*n个建议框的概率均计算完毕；

2.3)以概率大小对非0建议框进行降序排列；用非极大值抑制算法去掉重复率>重复率阈值ε₂的建议框；

2.4)令s＝s+1，并返回步骤2.1)，直至k类手势类别均识别完毕；

2.5)保留每个手势类别中概率最大的建议框，将其余建议框置零；概率最大的建议框对应的手势类别即为视频帧的手势类别；建议框为手部区域框。