CN109359514B

CN109359514B - 一种面向deskVR的手势跟踪识别联合策略方法

Info

Publication number: CN109359514B
Application number: CN201811002833.6A
Authority: CN
Inventors: 卢书芳; 蔡历; 丁雪峰; 高飞; 毛家发
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2020-08-04
Anticipated expiration: 2038-08-30
Also published as: CN109359514A

Abstract

本发明公开了一种面向deskVR的手势跟踪识别联合策略方法,首先通过卷积神经网络离线训练手势公开数据集ICVL，得到一个鲁棒性好、准确率高以及识别速度快的模型，并且通过合成数据测试联合方法准确率与速度的平衡点Rate，然后通过深度摄像头实时捕获深度图像，在对图像一系列预处理之后，根据手图像占比比例分别传入基于快速模型的手势识别方法或基于五区域卷积神经网络模型，返回识别后的关节点三维信息，进而映射三维人体模型。利用本发明的识别方法，在deskVR应用环境下具有良好的交互功能，在识别率、运算速度、普适性及准确性等方面表现良好。

Description

一种面向deskVR的手势跟踪识别联合策略方法

技术领域

本发明属于人机交互技术领域，尤其是涉及一种面向deskVR的手势跟踪识别联合策略方法。

背景技术

沉浸式应用程序的典型代表是桌面VR。它可以广泛用于数据分析，观看VR电影。这些应用一般提供立体视觉和头部跟踪，同时它们还需要为人机交互提供手势识别。坐在椅子上并将肘部放在桌子上使得可以在 VR环境中进行长时间的手势交互。由于头戴式显示器(HMD)会阻挡眼睛观察现实世界，因此鼠标和键盘不再适合沉浸式虚拟环境。手柄是成本最低的最成熟的解决方案，然而用户不能直接控制。

目前，市场上的手势传感器，包括Leap Motion，使用“HMD+手势传感器”来实现通常的以自我为中心的VR交互。但是这种手势识别方法不适用于桌面VR的应用场景，因为它具有以下特点：1)有限的手势活动范围：一般来说，VR体验是从自由视角观看的，受手势传感器范围的限制，必须将手势传感器附着于VR头戴式显示器上。虽然这种设置确保可以在各种位置跟踪手势，不会随着人体移动而跟踪丢失，但是眼睛必须跟随手的运动。2)严重的自闭塞：由于手指的4自由度(DOF)，自闭塞是自我中心观点中的常见问题。现有方法本身是VR中手势交互进一步自我遮挡的原因(手势传感器固定在VR耳机上)。尽管确保传感器检测到的手的图像完整，但是手指位置的视觉信息很容易被手背遮挡。在这种情况下。当前的手势识别方法仍然难以准确地识别大的遮挡区域下的关节位置。3)容易疲劳：桌面VR体验要求用户佩戴VR设备。重型装置很容易在短时间内引起颈部疲劳，特别是坐着。随着制造商减轻HMD设备的重量，在VR耳机上捆绑更多传感器似乎是不明智的。

基于deskVR场景，即用户坐在办公椅上进行交互操作，我们提出了使用前置摄像头的裸手跟踪技术。具体来说，我们采用计算机视觉技术和深度相机进行3D手部跟踪，可以避免亮度干扰。因此，用户可以专注于场景的内容，而不需要眼睛跟随手的移动。这种设置可以释放用户的视线，减少用户限制并确保交互的自然性。

随着深度传感器的广泛使用，手势估计领域变得非常活跃。通常，手势估计方法可以简单地分为基于模型的方法和数据驱动的方法。基于模型的技术考虑先验3D手模型，其姿势由一些跟踪过程随时间确定。但是这些方法需要某种准确的初始化。有提出一种基于模型的方法，可以实时跟踪完全关节的手(没有GPU的桌面上25FPS)。该方法对复杂手势的识别率低。也有使用粒子群优化(PSO)进行基于模型的方法，但它在GPU 上只有15fps。与基于模型的方法相比，数据驱动方法通过学***均误差增加到12毫米以上。这意味着手部图像越不完整，自遮挡将越严重，并且手势识别将越困难。最近，有几种方法使用3D体素网格作为3D CNN的输入。它们的性能优于2D CNN，用于捕获深度数据的空间结构。但V2V-PoseNet在单个GPU中只有3.5fps。目前的方法在数百万数据集的训练中具有良好的单手姿态估计性能，但在一般计算机的VR 环境中难以实现实时跟踪。

在所有上述方法中，仍然存在实时和准确性能之间的折衷。具有高精度的技术通常以低帧速率工作，因此不适用于空间沉浸式场景中的交互式 ***。传统的基于模型的方法具有更快的速度，但复杂手势的识别准确性较低。复杂的CNN网络具有高精度但实时性差，占用了许多GPU计算资源。

发明内容

本发明提供了一种面向deskVR的手势跟踪识别联合策略方法，识别效果好，实时性能高。

一种面向deskVR的手势跟踪识别联合策略方法，其特征在于，包括以下步骤：

(1)搭建五区域卷积神经网络模型，所述五区域卷积神经网络模型由若干个不同的卷积层、池化层、激活层和全连接层组成；

(2)选取训练集，并设置五区域卷积神经网络模型的训练参数；

(3)根据五区域卷积神经网络模型及其训练参数，以最小化损失函数为目标训练模型，得到深度图像手势估计神经网络模型；

(4)利用合成的深度数据集，统计数据集中各手势占图片面积比例的分布，测定在识别准确性和速度上达到最佳性能时的手面积比Rate，设定为策略选择阈值；

(5)利用深度摄像机获取实时的深度图像帧，并对图像帧预处理；

(6)根据最近邻算法，在每个独立的人体区域上检测手部区域；若能够检测出手部区域，则执行步骤(7)，若检测不到，则返回步骤(5)；

(7)将检测出的手部深度图归一化处理，并计算出手图像面积所占比例rate，若rate>Rate，则执行步骤(8)，若rate<Rate，则执行步骤(9)；

(8)基于快速模型的手势识别方法对步骤(7)传入的深度帧进行手势关节点识别，并转到步骤(10)；

(9)基于五区域卷积神经网络模型对步骤(7)传入的深度帧的手势关节点识别；

(10)通过深度摄像机的参数，将关节点坐标从图像坐标系转换到物理坐标系，并最终映射三维手势模型。

本发明通过基于快速模型的方法识别大量简单手势图像，而将复杂手势图像移交给CNN；CNN网络和模型仿真的许多步骤可以以交互速度运行。该方法在速度和准确性方面表现出良好的性能。

步骤(1)中，五区域卷积神经网络包括：一个数据输入层、六个卷积层、三个池化层、两个eltwise层、两个全连接层。第一层为数据输入层，然后是六个卷积层，两个eltwise层分别位于第三、第五个卷积层之后，三个池化层分别位于第二个卷积层，第一、第二个eltwise层之后，两个全连接层位于第三个池化层之后。

其中所述六个卷积层卷积核大小都为3×3，卷积步长为1，各卷积核个数分别为16、16、32、32、64、64。

所述三个池化层卷积核大小为2×2，步长为2。每个卷积层后面跟着一个ReLU激活，两个池化层之间通过残差连接增加特征图尺寸。

步骤(2)中，训练集采用公开数据集ICVL进行模型训练，包含大量已标注的14个关节的训练图像和测试图像。

步骤(3)中，所述五区域卷积神经网络模型的训练过程为：

(3-1)根据手部二值图像检测并绘制其外部轮廓，然后根据道格拉斯-普克算法，求出轮廓的封闭多边形，确定封闭多边形的中心；

(3-2)以该封闭多边形的中心为中心提取一个立方体，将立方体重新调整大小，深度值归一化为[-1,1]作为ConvNet的输入；

(3-3)深度值归一化后的图像作为输入，先进入网络通过六个卷积层进行特征提取，将输出特征映射到五个特征区域：R₁,R₂,R₃,R₄,R₅，其中，R₁-R₄分别为以图像四个顶点为顶点且沿着特征图边缘提取的固定大小区域，R₅为以图像中心为区域中心提取的同样大小区域，以图像中心为区域中心，五个特征区域作为分支，分别馈送到两个全连接层进行回归，每个回归器的丢失率为0.5；

(3-4)训练使用最小批量为128的随机梯度下降，使用0.0005的重量衰减和0.9的动量，学习率从0.005开始，每5万次迭代后除以10，模型训练达到200000次迭代。

步骤(4)中，所述策略选择阈值的测定方法为：

(4-1)标准化手的图像面积，得到手的标准面积，所述的标准面积为手指完全伸展，手掌面向摄像头，在距摄像头0.7m处所成像手的面积，所述标准化的公式为：

其中，S′是原始图像面积，S是标准面积，

是标准化后的手部图像面积相较于标准面积的比率，μ是将原始图像标准化的转换系数；

(4-2)从合成的深度数据集中随机选出2000帧具有时间序列的深度帧作为测试集，统计其中深度帧的分布，根据一般手指宽度10-20mm，将距离误差阈值设置为15mm，根据不同面积比率

测试关节识别点准确率以及相应的实时速度，得到准确性和速度之间的平衡点，得到最佳性能时的手面积比Rate，设定为策略选择阈值。最后选择60％的面积比作为平衡点。在这个阈值下，精度和速度都有很好的性能。

步骤(5)的具体步骤为：

(5-1)采用

RealSense^TM Camera SR300深度摄像头捕捉深度图像帧D₁(分辨率为320×240)指定等待下一帧深度图像数据的时间。

(5-2)对采集到的原始深度图像D₁进行中值滤波，采用固定大小的滤波核对图像进行滤波操作，消除噪声和图像黑洞；所述中值滤波处理的公式为：

D₂(x,y)＝med{D₁(x-k,y-l)}(k,l∈W)

其中，D₂(x,y)为滤波处理后的深度图像，D₁(x,y)为原始图像，(x,y) 为坐标处的深度值，W代表二维滤波模板，k表示模板的长度，l表示模板的宽度。

(5-3)对滤波处理后的深度图像进行图像前景提取操作，可设定0.7m 为距离过滤阈值，去除深度大于0.7m的背景数据，减小之后的图像计算量；所述图像前景提取操作的公式为：

其中，f_g(x,y)表示前景图像中(x,y)处的逻辑值，d(x,y)表示深度图像 (x,y)坐标处的深度值。

(5-4)对前景提取操作后的深度图像进行膨胀操作，而后执行腐蚀操作完成对图像的预处理。

步骤(8)中，所述基于快速模型的手势识别方法的具体步骤为：

(8-1)根据深度图提取手的二维轮廓S，并将深度图320×240像素深度映射到三维点云P中具有关节参数θ＝{θ₁,θ₂,…,θ₂₆}的3D手模型

(8-2)快速点云拟合，待匹配手势与候选手势对应点匹配，转换成相同的坐标系以实现刚体变换，使用ICP算法重复迭代，解出最优化能量方程：minE_3D+E_2D+E_wrist，得到手势关节点三维信息，三维信息能量函数的方程为：

其中，E_3D为三维信息能量函数，ω₁为点云在最优化能量方程中所占权重系数，x表示三维点云P中的3D点，

是手姿势θ在手模型

上的x的映射，用2D轮廓E_2D模拟对齐渲染的手模型的2D轮廓与从传感器数据中提取的二维轮廓S，其能量方程为：

其中，ω₂为二维轮廓信息在最优化能量方程中所占权重系数，p是渲染二维轮廓S中的2D点，∏_S(p,θ)表示p在从传感器获得二维轮廓S上的投影点，E_wrist表示腕部对准能量，在优化中使用前臂的简化概念，其强制腕关节沿其轴线定位，其能量方程为：

其中，ω₃为腕部信息在最优化能量方程中所占权重系数，k₀(θ)是腕关节的3D位置，

是由PCA提取的与腕带对应3D点的2D线；

(8-3)添加刚体约束，包括：每个手指上的两个关节角度保持相互匹配；基部指骨无碰撞；基骨和中骨保持一起移动；小拇指和中指保持一起移动；手指握拳时，外展程度为0，否则为默认的45°阈值。

与现有技术相比，本发明具有以下有益效果：

1、本发明以深度图像为数据源，克服了RGB图像容易受到外界光照、阴影等因素变化的影响。

2、本发明充分考虑了deskVR的使用特点及应用场景，通过前置深度摄像头引入裸手交互，这种设置帮助用户专注于场景的内容，而无需移动头部跟踪手，减少了用户限制并确保了交互的自然性。

3、本发明通过结合基于模型的方法和深度卷积神经网络的方法，在 deskVR环境中引入了手势交互速度-准确性的权衡策略，该算法在一般的设备上实现了实时性，且具有较高的精度。

附图说明

图1为本发明面向deskVR的手势跟踪识别联合策略方法的架构图；

图2为本发明针对特征提取的五区域卷积神经网络模型结构示意图；

图3为本发明的图像标准化示意图；

图4a为测试集中不同面积比的帧所占数量的图；

图4b为设置不同面积比阈值对FPS影响的图；

图4c为设置不同面积比阈值对帧识别误差影响的图；

图4d为选择平衡点时，本发明方法与现有方法的准确率对比图；

图5为本发明在desk VR中应用效果图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步详细的说明。

如图1所示，一种面向deskVR的手势跟踪识别联合策略方法，具体包括以下步骤：

训练CNN模型阶段。

S01：获取数据集并预处理。采用公开数据集ICVL进行模型训练。根据opencv中的轮廓处理函数，根据手部二值图像检测并绘制其外部轮廓。根据道格拉斯-普克算法，求出轮廓的封闭多边形。确定封闭多边形的中心，以区域中心为中心提取一个尺寸为150mm的立方体。然后将立方体重新调整为96×96的图像，深度值归一化为[-1,1]作为ConvNet的输入。

S02：构造卷积神经网络，具体结构为：五区域卷积神经网络模型，参见图2，包括：一个数据输入层、六个卷积层、三个池化层、两个eltwise 层、两个全连接层。

第一层为数据输入层，然后是六个卷积层，两个eltwise层分别位于第三、第五个卷积层之后，三个池化层分别位于第二个卷积层，第一、第二个eltwise层之后，两个全连接层位于第三个池化层之后。

六个卷积层卷积核大小都为3×3,卷积步长为1，各卷积核个数分别为 16、16、32、32、64、64。

三个池化层卷积核大小为2×2，步长为2。每个卷积层后面跟着一个 ReLU激活，两个池化层之间通过残差连接增加特征图尺寸。

六层卷积输出的12×12×64特征映射到N×N+1的网格中，此处设置 N＝2，96×96图像边界内单个区域的接受区域为64×64，分别为R₁，R₂， R₃，R₄，R₅。进入两个2048维全连接层进行回归，每个回归器的丢失率为0.5，网络概貌见附图3。回归器输出表示手关节的3D世界坐标的3×J 向量，其中J是关节的数量。

训练使用最小批量为128的随机梯度下降。使用0.0005的重量衰减和 0.9的动量。学习率从0.005开始，每5万次迭代后除以10，模型训练达到200000次迭代。

Rate阈值测定，需要实验测定一个准确率与速度平衡点。

S03：我们从生成的合成数据中随机选出2000帧具有时间序列深度帧作为测试集，统计其中深度帧

的分布，根据一般手指宽度10-20mm，将距离误差阈值设置为15mm；

S04：根据不同面积比率

测试关节识别点准确率以及相应的实时速度，最后选择60％的面积比作为平衡点，在这个阈值下，精度和速度都有很好的性能。如图4a所示，统计测试集中不同面积比图像帧的数量，测试集中大部分图像帧面积比率在60％以上。如图4b、图4c所示，设置不同面积比阈值对FPS的影响以及设置不同面积比阈值对帧识别误差的影响，当选择面积比阈值为60％时，准确率与实时性皆有一个很好的性能。如图4d所示，将本发明的方法与现有的几种方法的比较，在不同误差阈值下都有很好的准确率。

实时跟踪识别阶段。

S05：采用kinectV2深度摄像头捕捉深度图像帧D₁(分辨率为 512×424),指定等待下一帧深度图像数据的时间，根据K近邻算法检测，若存在手，进入步骤6，否则传入下一帧。

S06：对图像D₁进行中值滤波D₂(x,y)＝med{D₁(x-k,y-l)}(k,l∈ W)，其中W代表二维滤波模板，k表示模板的长度，l表示模板的宽度， D₂(x,y)为滤波处理后的深度图像，D₁(x,y)为原始图像。

S07：对滤波处理后的深度图像D₂进行图像前景提取操作，深度图像前景提取的公式，公式中f_g(x,y)表示前景图像中d(x,y)处的逻辑值，d(x,y) 表示深度图像(x,y)坐标处的深度值；θ表示深度图像的阈值门限(设定为 0.7m)，得到深度图像D₃。

S08：对深度图像D₃进行膨胀，而后执行腐蚀操作完成对图像的一系列预处理操作。得到深度图像D₄。

S09：将深度图像D₄标准化处理，请参考图3，得到标准化处理后的深度图D₅，计算手图像面积所占比例rate，若rate>＝Rate进行步骤10，否则执行步骤12。

S10：根据深度图D₅，提取手二维轮廓S，并将深度图映射到三维点云P；

S11：根据三维点云P，快速点云拟合，使用ICP算法重复迭代，结合二维信息S，解出最优化能量方程：minE_3D+E_2D+E_wrist，得到手势关节点三维信息。

S12：根据深度图像D₅中手部轮廓，计算手部中心，从深度图像D₅中以手部区域中心为中心提取一个尺寸为150mm的立方体。

S13：将手部深度图像传入步骤S08训练好的caffe模型中进行识别，返回估计的14个手关节点的三维坐标。

S14：通过深度摄像机的参数，将步骤S11、步骤S13返回的手关节三维参数从图像坐标系转换到物理坐标系，并最终映射三维人体模型，在VR 中跟踪效果如图5所示。

本发明通过基于快速模型的方法识别大量简单手势图像，将复杂手势图像移交给CNN。CNN网络和模型仿真的许多步骤可以以交互速度运行，该方法在速度和准确性方面表现出良好的性能。

Claims

1.一种面向deskVR的手势跟踪识别联合策略方法，其特征在于，包括以下步骤：

(8)基于快速模型的手势识别方法对步骤(7)传入的深度帧进行手势关节点识别，并转到步骤(10)；所述基于快速模型的手势识别方法的具体步骤为：

(8-1)根据深度图提取手的二维轮廓S，并将深度图映射到三维点云P中，具有关节参数θ＝{θ₁,θ₂,…,θ₂₆}的3D手模型

(8-2)根据三维点云P，快速点云拟合，使用ICP算法重复迭代，解出最优化能量方程：minE_3D+E_2D+E_wrist，得到手势关节点三维信息，三维信息能量函数的方程为：

是手姿势θ在手模型

其中，ω₃为腕部信息在最优化能量方程中所占权重系数，k₀(θ)是腕关节的3D位置，l是由PCA提取的与腕带对应3D点的2D线；

(8-3)添加刚体约束，包括：每个手指上的两个关节角度保持相互匹配；基部指骨无碰撞；基骨和中骨保持一起移动；小拇指和中指保持一起移动；手指握拳时，外展程度为0，否则为默认的45°阈值；

(9)基于五区域卷积神经网络模型对步骤(7)传入的深度帧的手势关节点；

2.根据权利要求1所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，步骤(1)中，所述五区域卷积神经网络模型由6个具有3×3内核的卷积层和3个2×2内核的池化层组成，每个卷积层后面跟着一个ReLU激活层，两个池化层之间通过残差连接增加特征图尺寸。

3.根据权利要求1所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，步骤(2)中，所述的训练集为数据集ICVL。

4.根据权利要求1所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，步骤(3)中，所述五区域卷积神经网络模型的训练过程为：

5.根据权利要求1所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，步骤(4)中，所述策略选择阈值的测定方法为：

其中，S′是原始图像面积，S是标准面积，

(4-2)从合成的深度数据集中随机选出2000帧具有时间序列的深度帧作为测试集，统计其中深度帧的分布，将距离误差阈值设置为15mm，根据不同面积比率

测试关节识别点准确率以及相应的实时速度，得到准确性和速度之间的平衡点，得到最佳性能时的手面积比Rate，设定为策略选择阈值。

6.根据权利要求1或5所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，步骤(4)中，所述策略选择阈值的手面积比Rate为60％。

7.根据权利要求1所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，步骤(5)中，所述的预处理具体步骤为：对实时深度图像帧进行中值滤波处理，然后进行图像前景提取操作，最后进行膨胀与腐蚀操作。

8.根据权利要求7所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，所述中值滤波处理的公式为：

D₂(x,y)＝med{D₁(x-k,y-l)}(k,l∈W)

其中，D₂(x,y)为滤波处理后的深度图像，D₁(x,y)为原始图像，(x,y)为坐标处的深度值，W代表二维滤波模板，k表示模板的长度，l表示模板的宽度。

9.根据权利要求7所述的面向deskVR的手势跟踪识别联合策略方法，其特征在于，所述图像前景提取操作的公式为：

其中，f_g(x,y)表示前景图像中(x,y)处的逻辑值，d(x,y)表示深度图像(x,y)坐标处的深度值。