CN112686201B

CN112686201B - 基于双目rgb图像的手部深度及姿态估计方法

Info

Publication number: CN112686201B
Application number: CN202110032843.XA
Authority: CN
Inventors: 孙怡; 刘吉顺; 李晓冬
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2022-09-30
Anticipated expiration: 2041-01-11
Also published as: CN112686201A

Abstract

本发明涉及一种基于双目RGB图像的手部深度及姿态估计方法，属于计算机视觉与深度学习领域。主要包含以下步骤：(1)数据获取及预处理；(2)搭建基于双目RGB图像手部深度图重建网络；(3)将视差图转换为深度图；(4)搭建基于深度图手部关节点估计网络；(5)训练搭建的神经网络。(6)在测试集上预测手部深度和关节点得到手部深度图和关节点3D坐标。本发明具有以下优点：一是通过从双目RGB图像中重建手部深度图可以获取手部深度信息，在人机交互领域有重要作用；二是基于重建得到的手部深度图来估计手部关节点相比于直接从RGB图像估计关节点精度更高，可以有效解决基于单目RGB图像估计关节点带来的深度不确定性。

Description

基于双目RGB图像的手部深度及姿态估计方法

技术领域

本发明涉及一种基于双目RGB图像的手部深度及姿态估计方法，属于计算机视觉与深度学习领域。

背景技术

随着人工智能的快速发展，增强现实等技术得到广泛应用，人们可以沉浸在虚拟信息和真实环境相互融合的环境。增强现实眼镜等产品的出现可以给人们提供现实世界无法快速得到的信息，辅助人们提高工作效率。增强现实的产品也提供了许多有趣的生活体验。手部关节点空间估计是人机交互的重要技术，可以摆脱传统的鼠标和键盘信息输入方式。通过准确估计关节点空间位置，人们可以通过简单手势给机器提供指令，实现信息快速传递，同时便于人们理解和记忆指令含义，提供极致的体验。

近年来，基于视觉的手部关键点估计方法的研究发展迅速。由于商业深度相机的普及，深度图像变得易于获取，出现了包含多种手部姿势的深度图像数据集，促进了基于深度图像的关节点估计方法的迅速发展，但是由于深度相机使用场景的限制，使用彩色图像进行关节点估计逐渐引起关注。基于单张彩色图像估计三维关节点由于深度信息缺失，一般借助手部模型或者使用直接回归等方法获取二维与三维的对应关系。基于单目图像估计手部三维关节点坐标存在从二维映射到三维的病态问题，直接回归导致精度不高，借助手部模型的方式也存在参数量大，计算复杂等问题。因此这类方法存在一定的局限性。

发明内容

为了解决上述问题，本发明基于双目RGB图像，利用双目图像蕴含的空间信息，重建出手部深度图，然后基于手部深度图进行手部关节点估计，从而实现一种同时得到手部深度图及高精度的手部关节点的方法。

为实现上述发明目的，本发明的技术方案如下：

一种基于双目RGB图像的手部深度及姿态估计方法，包括以下步骤：

步骤1、数据获取及预处理。数据包含双目RGB图像及对应深度图标注和3D关节点标注，将数据集划分为训练集和测试集分别用于网络训练和预测。

步骤2、搭建基于双目RGB图像手部深度图重建网络。所述网络包括三个结构：特征提取结构、cost volume结构和视差预测结构。

所述特征提取结构使用卷积神经网络对输入的双目图像进行特征提取，得到左图特征图和右图特征图。

所述cost volume结构利用特征提取得到的左右特征图在视差维度上叠加，形成cost volume结构。

所述视差预测结构利用3DCNN网络从cost volume预测图像中每个像素点在每个视差等级上的概率，将每个视差等级与其对应概率相乘然后求和得到该像素点的视差值，预测每个像素点视差值后得到视差图。

步骤3、利用转换公式depth＝f·B/d将视差图转换为深度图。其中f为相机焦距，B为双目相机基线，即左右相机光心的距离，d为视差图，depth为转换后的深度图。

步骤4、搭建基于深度图手部关节点估计网络。所述关节点估计网络包括特征提取、特征融合和平均池化；所述特征提取部分对手部大拇指、食指、和其余三个手指进行三次特征提取；提取到的特征图经特征融合部分在通道维度上进行叠加融合；所述平均池化部分将融合后的特征图进行平均值池化，从而得到手部21个关节点的3D坐标。

步骤5、训练搭建的网络。在训练过程中采用先分阶段预训练然后端到端训练进行微调的方式。具体的，先训练步骤2中所述的基于双目RGB图像手部深度图重建网络作为预训练模型，然后端到端地训练步骤2中所述的基于双目RGB图像手部深度图重建网络和步骤4中所述的基于深度图手部关节点估计网络。

步骤6、使用步骤5训练搭建的网络，在测试集上预测手部深度和关节点得到手部深度图和关节点3D坐标。可以通过计算在测试集上预测的手部关节点和标注的手部关节点的偏差，验证本发明方法的有效性。

本发明的有益效果是：

本发明设计了一种从双目RGB图像重建手部深度图，然后基于该深度图估计手部关节点的方法。一方面通过从双目RGB图像中重建手部深度图可以获取手部深度信息，在人机交互领域比如对于AR/VR应用能获取人手在空间中的位置及表面信息，能更好地进行场景交互；另一方面基于重建得到的手部深度图来估计手部关节点可以有效解决基于单目RGB图像估计关节点带来的深度不确定性，从而提高关节点估计的精度。

附图说明

图1是本发明方法步骤流程图。

图2是本发明方法基于Group-wise Correlation Stereo Network的手部深度图重建网络图。

图3是本发明方法基于深度图估计手部关节点的三分支网络结构图。

图4本发明方法在STB数据集上手部关节点估计的3D PCK曲线图。

图5是本发明方法手部深度图重建以及3D关节点估计效果展示图。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

如图1所示，一种基于双目RGB图像的手部深度及姿态估计方法，包括以下步骤：

步骤1、数据获取及预处理。本实施例使用公开数据集STB数据集。STB数据集包含6个不同背景的视频序列，每个不同背景的序列包含3k双目RGB图像和对应的3D标注以及深度图像。其中第一个背景对应的3k对双目图像作为测试集，其他五个背景的15k对双目图像作为训练集。对STB数据集进行数据预处理。根据标注中的手部掌心坐标向上下左右偏移形成包围框将原尺寸为640×480的彩色图像裁剪为448×272的彩色图像作为网络的输入，目的是去除和手无关的背景区域，减少背景的干扰，增加手在图像中的占比。

步骤2、搭建基于双目RGB图像手部深度图重建网络。基于双目图像重建手部深度图像本发明采用现有的取得较好结果的Group-wise Correlation Stereo Network网络结构。如图2所示，该网络模型通过cost volume结构能充分利用双目图像的空间信息从而达到较好的深度估计结果。具体包含以下子步骤：

(a)网络输入为双目RGB图像，输入图像维度为batchsize×channel×H×W。其中batchsize是训练过程中每次迭代送入网络的数据量，channel是图像通道数，彩色图像通道数是3，H和W分别表示图像高度和宽度，分别为272和448。

(b)使用卷积神经网络进行图像特征提取，得到左图特征图和右图特征图。

(c)利用特征提取得到的左右特征图在视差维度上叠加，形成cost volume结构。其中cont volume维度为batchsize×channel×D×H×W，D是根据经验设置的视差等级，一般设置为192。

(d)利用3DCNN网络从cost volume预测图像中每个像素点的在每个视差等级上的概率，将每个视差等级与其对应概率值相乘然后求和得到该像素点视差值。视差值计算公式为

其中k为视差等级，p_k为该视差等级对应的概率值，d为预测得到的视差图。损失函数设计如下：L_depth＝||d-d′||其中d′为视差图标注，由深度图标注可以通过步骤3中公式转换得到。

步骤4、搭建基于深度图手部关节点估计网络。网络结构如图3所示，所述网络主要包含特征提取、特征融合、平均池化三个部分。其中对于特征提取部分本发明将人手分为大拇指、食指、其余三个手指三个部分，对三个部分分别进行特征提取。特征融合部分将三个部分的特征图在通道维度上进行叠加融合。平均池化部分将融合后的特征图进行平均值池化得到手部21个关节点的3D坐标J。其中损失函数设计如下：

L_pose＝||J-J′||²

其中J为预测的3D关节点，J′为3D关节点标注。

步骤5、训练搭建的神经网络。总的损失函数设计如下：

L＝L_depth+L_pose

网络通过PyTorch框架搭建，使用Python编程语言，在RTX 2080 Ti显卡上进行训练。训练过程中优化函数使用Adam优化函数其中学习参数设置如下：初始学习率0.001，动量0.5，权重衰减0.0005。batchsize设置为4，训练100轮。通过比较在测试集上预测得到的3D关节点与真实标注的偏差值来评价当前的训练效果，偏差越小，模型预测效果越好。将偏差最小的模型参数保存下来作为最优的模型。

步骤6、在测试集上预测手部深度和关节点得到手部深度图和关节点3D坐标。计算在测试集上预测的手部关节点和标注的手部关节点的偏差，验证本发明方法的有效性。本发明方法在STB测试集上平均关节点误差为5.89mm。3D PCK曲线表示预测的关节点与标注的偏差在误差范围内的百分比，其中横坐标表示误差范围，纵坐标表示百分比。从图4中本发明方法在STB数据集上的3D PCK曲线可以直观看出关节点估计精度。图5中第一行为输入双目RGB图像中的左图，第二行为重建的手部深度图，第三行为估计得到的手部关节点坐标投影到二维平面生成的骨架图。从图5可以定性地看出本发明所述方法能有效重建出手部深度图和估计出准确的手部关节点。

Claims

1.一种基于双目RGB图像的手部深度及姿态估计方法，其特征在于，包括以下步骤：

步骤1、数据获取及预处理；数据包含双目RGB图像及对应深度图标注和3D关节点标注，将数据集划分为训练集和测试集分别用于网络训练和预测；

步骤2、搭建基于双目RGB图像手部深度图重建网络；所述网络包括三个结构：特征提取结构、cost volume结构和视差预测结构；

所述特征提取结构使用卷积神经网络对输入的双目图像进行特征提取，得到左图特征图和右图特征图；

所述cost volume结构利用特征提取得到的左右特征图在视差维度上叠加，形成costvolume结构；

所述视差预测结构利用3DCNN网络从cost volume预测图像中每个像素点在每个视差等级上的概率，将每个视差等级与其对应概率相乘然后求和得到该像素点的视差值，预测每个像素点视差值后得到视差图；

步骤3、利用转换公式depth＝f·B/d将视差图转换为深度图；其中f为相机焦距，B为双目相机基线，即左右相机光心的距离，d为视差图，depth为转换后的深度图；

步骤4、搭建基于深度图手部关节点估计网络；所述关节点估计网络包括特征提取、特征融合和平均池化；所述特征提取部分对手部大拇指、食指、和其余三个手指进行三次特征提取；提取到的特征图经特征融合部分在通道维度上进行叠加融合；所述平均池化部分将融合后的特征图进行平均值池化，从而得到手部21个关节点的3D坐标；

步骤5、训练搭建的网络；在训练过程中采用先分阶段预训练然后端到端训练进行微调的方式；具体的，先训练步骤2中所述的基于双目RGB图像手部深度图重建网络作为预训练模型，然后端到端地训练步骤2中所述的基于双目RGB图像手部深度图重建网络和步骤4中所述的基于深度图手部关节点估计网络；

步骤6、使用步骤5训练搭建的网络，在测试集上预测手部深度和关节点得到手部深度图和关节点3D坐标。