CN114119739A

CN114119739A - 一种基于双目视觉的手部关键点空间坐标获取方法

Info

Publication number: CN114119739A
Application number: CN202111230723.7A
Authority: CN
Inventors: 胡朕朕; 李舒; 王俊
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-03-01

Abstract

本发明提供了一种基于双目视觉的手部关键点空间坐标获取方法，首先对双目摄像机进行立体标定，建立各坐标系转换模型，即获取摄像头内外参数、畸变系数及两摄像头之间的旋转平移矩阵；其次对双目相机拍摄的视频进行预处理，包括裁剪及畸变校正等；然后利用机器学习流水线对视频逐帧进行处理，获取手部21个关键点的像素坐标；最后基于光轴汇聚模型采用最小二乘法计算出手部关键点在三维空间的真实坐标。本发明利用双目视觉信息，通过模拟人眼结构，准确定位并恢复出包含全部关节点的21个手部关键点三维空间坐标，对手部形态重建的更加精准，为人机交互中的手部关键点定位的应用研究提供了精确的技术支持。

Description

一种基于双目视觉的手部关键点空间坐标获取方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于双目视觉的人手关键点三维坐标获取方法，同时涉及数字图像处理、空间三维信息获取及人机交互等技术领域。

背景技术

双目立体视觉是计算机视觉领域的一个重要分支，其模拟人类视觉***，利用视差的原理来感测物体的三维空间信息，重建物体场景的形状和位置。其中，从视频中精确检测和定位手的空间位置始终是该领域的一个热点问题，其在虚拟现实、增强现实、体感游戏、人机交互、三维测量等领域都具有很高的应用价值。

然而目前的手部三维坐标的获取仅局限在个别关键点，比如指尖和掌心，其不足以重建出整个手部的运动姿态及其在空间中的定位，而且其大都采用的基于肤色或边缘检测再对边界进行指尖搜索的方案极易受到背景及环境光线的影响而造成算法鲁棒性降低。

同时，现有的空间点3D坐标恢复技术采用的特征提取方案大多是SIFT算法，该算法尽管具有较好的稳定性和不变性，但其对光滑边缘目标的特征提取不足，且对之后需要进行的粗配对及精配对等效果欠佳，对于手部关键点的提取来说并不是最佳的解决方案。

虽然近年来出现了很多基于深度图像的全手姿态估计算法研究，但由于指尖面积较小、运动较快，因此其生成的深度图手指部分的质量较差，造成检测的精度较低，计算得出的三维空间坐标误差也更大。

发明内容

针对现有技术中存在的缺陷，本发明提供了一种基于双目视觉的手部关键点空间坐标获取方法，该方法不仅能够获取上面提及的指尖及掌心三维空间坐标，还能获取手部所有关节点共21个关键点的三维空间坐标，进而感知手部形状与运动轨迹，同时避免了基于深度图的检测方法中深度成像过程的误差影响，使得对手部关键点的定位更加精确。

为解决上述技术问题，本发明提供以下技术方案：

一种基于双目视觉的手部关键点空间坐标获取方法，包括以下几个步骤：

步骤1：将双目摄像机水平固定放置，对双目摄像机的左右目摄像头进行标定，建立各个坐标系转换模型，分别获取两摄像头的内参矩阵、畸变系数及其之间的姿态参数，即建立相机成像模型。

步骤2：对双目摄像机拍摄的同步视频进行预处理。

步骤3：利用机器学习流水线分别处理预处理后的左右目视频，推断出每一帧图像中的21个3D手部关键点，获得关键点在左右目摄像头拍摄图像中的像素坐标。

步骤4：根据步骤1得到的摄像头参数并基于最小二乘法计算出各关键点在世界坐标系中的空间坐标。

进一步的，所述步骤1包括：

步骤1-1：构建世界坐标系到相机坐标系的转换模型：X_c＝rX_w+t，也即：

其中X_c代表相机坐标系，X_w代表世界坐标系，r为3×3旋转矩阵，t为3×1平移向量。旋转矩阵r受X、Y、Z三个方向上的分量共同控制，所以具有三个自由度，则r为分别绕X、Y、Z三轴旋转的效果之和。

步骤1-2：构建相机坐标系到图像坐标系的转换模型，也即小孔成像模型，则

(齐次坐标形式)

其中(x，y)为图像坐标系中的坐标，(x_c，y_c，z_c)为相机坐标系中的坐标，f为相机焦距。其中z_c可由三角测距法求得，即

B为左右目相机光心连线的距离，X_L、X_R为左右目图像对应像素点的横坐标。

步骤1-3：构建图像坐标系到像素坐标系的转换模型：

(齐次坐标形式)

其中，(u，v)为像素坐标系坐标，(x，y)为图像坐标系坐标，d_x、d_y分别表示每个像素在横轴x和纵轴y上的物理尺寸，(u₀，v₀)为图像坐标系原点(即相机光轴与图像平面的交点)在像素坐标系下的坐标。

步骤1-4：结合步骤1-1、1-2、1-3模型得出世界坐标系到像素坐标系的转换模型，如下：

特别地，

为相机内参矩阵，f/d_x、f/d_y分别表示以每个像素在横轴x和纵轴y上的实际物理尺寸为单位的焦距长度，

为相机外参矩阵，其中r_3×3为旋转矩阵，t_3×1为平移向量，世界坐标系到像素坐标系转换矩阵即相机的投影矩阵P为

步骤1-5：在主点(即图像中心点)周围进行泰勒级数展开来构建镜头畸变模型，取前几项系数即获取相机畸变系数，计算右目摄像机坐标系相对于左目摄像机坐标系的3×3旋转矩阵R和3×1平移向量T。

进一步的，所述步骤2包括：

步骤2-1：对双目摄像机拍摄的同步视频进行裁剪，分别得到左目摄像机拍摄视频和右目摄像机拍摄视频。

步骤2-2：使用步骤1-5得到的两摄像头畸变系数分别对两摄像头拍摄的视频逐帧进行畸变校正，使其成像过程符合小孔成像模型。

进一步的，所述步骤3包括：

步骤3-1：使用手掌检测模型对整个图像进行检测并返回手部区域边界框。这里手掌检测部分本发明采用BlazePalm模型，该模型采用了类似FPN(特征金字塔)的编码-解码特征提取器，通过对每一种尺度的图像进行特征提取，产生多尺度的特征表示，使所有等级的特征图都具有较强的语义信息和更高的分辨率，从而能够很好地解决手掌检测过程中由于距离变化而产生的尺度变化问题。同时相应地采用Focal Loss(焦点损失)来解决因多尺度而产生的大量锚点问题。

为了提高检测效率，这里采用的是手掌检测器，仅对手掌进行检测而非检测整个手部，因为手部缺少高对比度的特征区域，很难仅凭视觉特征实现可靠的手部检测，而相较于检测出具有关节和手指的手部，手掌检测器只需检测出手掌和拳头等固定对象的边界框，显然这项任务要简单的多。

步骤3-2：使用手部关键部位检测模型在步骤3-1检测到的手部区域内通过预测高斯热图对21个3D关键点坐标进行定位。

所述手部关键部位检测模型采用CNN卷积神经网络对关键点的高斯热图进行预测，然后对热图进行argmax找出峰值对应的索引得出每个关键点的坐标。模型回归手部21个关键点，预测输出特征图为21通道，每个通道都是预测一个关键点的热图。这里损失函数采用了欧氏距离损失函数，即：

式中R为标注的真实坐标，P为模型预测坐标。

进一步的，所述步骤4包括：

根据光轴汇聚模型得到世界坐标系坐标到像素坐标系坐标转换公式，对于左右目摄像头分别有：

其中

为左目摄像头的投影矩阵，

为右目摄像头的投影矩阵，(u₁，v₁)、(u₂，v₂)分别为关键点在左右目图像上的像素坐标，z_c1、z_c2分别为关键点在左右目相机坐标系下的z坐标，可由步骤1-2求取。特别地，将左目摄像头旋转矩阵设为3×3单位矩阵，平移向量设为3×1零向量，将右目摄像头旋转矩阵设为步骤1-5得到的矩阵R，平移向量设为步骤1-5得到的向量T，此时世界坐标系的原点即为左目摄像头光心。

上式即：

采用最小二乘法解上式得到手部关键点的真实3D空间坐标(x_w，y_w，z_w)。

由上述技术方案可知，本发明所述的一种基于双目视觉的手部关键点空间坐标获取方法具有较高的识别精度。本发明采用双目摄像机模拟人眼，建立各坐标系转换模型，获取两摄像头中同一目标点的像素坐标，这里区别于传统采用SIFT算法获取图像特征的方案，本发明采用机器学习模型来对手部关键点进行捕捉，不仅实现了对指尖及掌心的空间定位，还能精确获取手部所有关节的三维空间坐标，所得到的结果精确且可靠，为人机交互中的手部关键点定位的应用研究提供了精确的技术支持。

本发明的优点及有益效果在于：

1、本发明的技术方案中，采用机器学习模型，以流水线的方式分别对左右目摄像头获取的图像进行处理，获取每一帧图像中手部关键点的像素坐标，而没有采用传统的SIFT算法进行特征点提取，使得捕捉的关键点更加精准，从而提高了关键点三维空间坐标定位的准确性。

2、本发明的技术方案中，获取关键点在左右目图像上的像素坐标后，采用最小二乘法对关键点的三维空间坐标进行求解，使得最终结果更加精确。

3、本发明的技术方案与现有的仅检测指尖及掌心的技术方案对比，所检测的关键点更加全面，覆盖包括指尖、掌心及关节点在内的全部21个关键点，对手部形态重建的更加精准。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本发明的一种基于双目视觉的手部关键点空间坐标获取方法的流程示意图。

图2是本发明的应用实施例中各坐标系转换的流程示意图。

图3是本发明的应用实施例中21个手部关键点示意图。

图4是本发明的应用实施例中步骤3机器学习流水线流程示意图。

图5是本发明的应用实施例中光轴汇聚模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明不需要特定的运行环境，硬件设备只需要计算机以及双目摄像机，图1是本发明提供的基于双目视觉的手部关键点空间坐标获取方法的较佳实施例步骤流程图，首先需要对双目摄像机的两个摄像头进行标定，将获取的参数写入***中。运行双目摄像机进行拍摄，将获取的视频流传输给计算机，然后对视频流进行预处理，包括左右目图像分隔以及图像校正。然后使用机器学习模型分别对左右目视频帧进行关键点检测获取坐标，最后使用最小二乘法恢复出手部关键点的三维空间坐标。下面结合图1对本发明所述基于双目视觉的手部关键点空间坐标获取方法进行详细说明：

步骤1：将双目摄像机水平固定放置，对双目摄像机的左右目摄像头进行标定，建立各个坐标系转换模型，其过程如图2所示，分别获取两摄像头的内参矩阵、畸变系数及其之间的姿态参数，即建立相机成像几何模型。

步骤1-1：将双目相机固定，确保两摄像头光心所在的直线水平，且两摄像头均能拍摄到完整的手部。

步骤1-2：对左右目摄像头进行双目标定。首先需要准备打印好的标定板，本实施例中标定板是一块由黑白方块交替排列组成的7×10棋盘格，每个方块边长是25mm，其中黑白方块的交点作为特征点，共54个特征点。

步骤1-3：使用双目摄像机从不同的方位对标定板进行拍摄，为了使标定的结果更加精确，需要从10个及以上不同的方位进行拍摄，过程中需要标定板始终置于相机的拍摄区域内，得到标定板的左右目图像。

步骤1-4：分别提取左右目图像中棋盘格特征点，其中图像坐标系的原点为相机成像面与其光轴的交点。利用极线约束原则分别匹配同一方位下的左右目棋盘图像特征点，利用Levenberg-Marquardt算法求取单应矩阵进而求取左右目摄像头的内外参数，获取相机之间的姿态参数，将所获参数写入***。其中，内部参数是由摄像头内部光学与几何性质决定的固有参数，包括像素的实际尺寸(d_x，d_y)、主点像素坐标(u₀，v₀)、焦距f、坐标轴倾斜系数s、畸变系数(k₁，k₂，k₃，p₁，p₂)，外部参数是指表征像素坐标系与世界坐标系之间的相对位置与方位信息的参数，包括旋转矩阵r、平移向量t以及右目相机坐标系相对于左目相机坐标系的旋转矩阵R和平移向量T。

进一步的，步骤1-4所述极线约束原则即空间中任意一点在图像平面上的投影点必然处于由该点和两个摄像头中心组成的对极平面上，因此对于图像上的某一特征点，其在另一视图上的匹配点必处于对应的对极线上。极线约束使得特征匹配由二维搜索降低为一维搜索，从而大大加快了计算速度，并减少了误匹配。所述单应矩阵描述世界坐标系与像素坐标系之间的映射关系，也即相机的投影矩阵。所述Levenberg-Marquardt(LM)算法是一种最优化算法，其目的是为了在计算出的特征点对出现噪声甚至出现特征点对误匹配的情况下能够获得单应矩阵的最优解。所述相机之间的姿态参数包括相机之间的旋转矩阵R和平移向量T。

步骤2：对双目摄像机拍摄的同步视频进行预处理。

步骤2-1：标定完成后，使用双目摄像机进行手部画面的拍摄，采集的图像为720×2560的RGB彩色空间的数字图像，拍摄过程中注意手需要始终在相机拍摄范围内。由于本实施例所采用的双目摄像机为同步拍摄，所以需要对拍摄的同步视频进行分割，分别得到左目摄像机视频和右目摄像机视频，分割后视频分辨率为720×1280。

步骤2-2：使用步骤1-4得到的两摄像头畸变系数分别对两摄像头拍摄的视频进行畸变校正，使其成像过程符合小孔成像模型，校正公式如下：

x₀＝x(1+k₁r²+k₂r⁴+k₃r⁶)

径向畸变校正：y₀＝y(1+k₁r²+k₂r⁴+k₃r⁶)

x₀＝2p₁xy+p₂(r²+2x²)+1

切向畸变校正：y₀＝p₂(r²+2y²)+2p₂xy+1

式中(x₀，y₀)是畸变点在像平面的原始位置，(x，y)是畸变校正后新的位置，r²＝x²+y²，k₁、k₂、k₃为径向畸变系数，p₁、p₂为切向畸变系数。

步骤3：利用机器学习流水线分别处理预处理后的左右目视频，推断出每一帧图像中的21个3D手部关键点，手部关键点示意图如图3所示，获得关键点在左右目图像中的像素坐标。特别地，所述机器学习流水线将机器学习任务构建为数据流管道，可有效管理计算资源达到低延迟性能。在该步骤中机器学习流水线主要包含两个模型，手掌检测模型和手部关键部位检测模型，该部分流程如图4，具体步骤如下：

为了提高处理效率，在获取预处理后的左右目视频流后，使用多线程并行处理左右目视频流，具体的：

步骤3-1：采用手掌检测器检测视频流首帧图像中的ROI(也即手部区域)并返回边界框。

步骤3-2：对ROI进行图像裁剪，使用手部关键部位检测模型对裁剪图像进行关键点的精确定位，并输出关键点的坐标和裁剪图像中手部存在并合理对齐的置信度。

为了提高检测效率减少计算时间，在之后的帧图像处理中，将不再运行手掌检测器，而是从前一帧中计算得出的手部关键点推断出当前帧中的手部区域，从而避免了在每一帧中都使用手掌检测器，只有当手部关键部位检测模型输出的置信度低于设置的阈值threshold或手部丢失时，手掌检测模型才会重新应用于整个帧，本实施例中设置threshold＝0.8。

在进行ROI检测时，本实施例采用手掌检测器进行手掌的检测，而非对整个手部区域进行检测，因为相对于手掌检测，手部检测任务更为复杂：手部检测必须要解决各种手部尺寸的问题，这需要更大的检测范围，且手部缺少高对比度的特征区域，很难仅凭视觉特征实现可靠的手部检测。而相较于手部检测需要检测具有关节和手指的手部，手掌检测器只需检测出手掌和拳头等刚性对象的边界框，显然这项任务要简单的多。该步骤将大大减少数据增强的需要，比如图像的旋转、平移、缩放，从而允许网络将更多的容量用于关键点定位精度的提高。

为了提高手掌检测精度，本实施例的手掌检测采用BlazePalm模型，该模型具有较大的缩放范围，可识别多种不同手掌大小。其采用NMS算法，即使在双手自遮挡的情况下依然能够很好地对手掌区域进行检测，并且能够通过手臂、躯干或个人特征的识别来对手掌进行准确定位，弥补手部高对比度纹理特征的缺失。

本实施例中的手部关键部位检测模型需要收集足够多的人手样本进行训练，模型采用CNN卷积神经网络对关键点的高斯热图进行预测，因此label是基于每个关键点生成的高斯图。模型需要回归21个手部关键点，预测输出特征图为21通道，即每个通道都是预测一个关键点的热图，然后对每个通道进行argmax即可得到关键点的整数坐标。特别地，为了减少预测结果的偏移，本实施例中高斯热图回归的损失函数并没有采用主流的MSE，而是使用欧氏距离损失函数，即

式中R为标注的真实坐标，P为模型预测坐标。本实施例通过优化整个模型输出的预测坐标的损失来间接学习热图，也就是说损失的计算是基于预测关键点和真实关键点的，热图的学习是网络自发的。相比于使用全连接直接回归坐标点的方式，预测高斯热图的方案空间泛化能力更强，预测坐标精度更高。

步骤4：由步骤1得到的摄像头参数及步骤3获取的手部关键点在左右目图像上的像素坐标并基于最小二乘法计算出各关键点在世界坐标系中的空间坐标。

光轴汇聚模型如图5所示：

由该模型得到对于左右目摄像头分别有：

其中

为左目相机的投影矩阵，

为右目相机的投影矩阵，(u₁，v₁)、(u₂，v₂)分别为关键点在左右目图像上的像素坐标。特别地，将左目摄像头旋转矩阵设为3×3单位矩阵，平移向量设为3×1零向量，将右目相机旋转矩阵设为步骤1-4得到的旋转矩阵R，右目相机平移向量设为步骤1-4得到的向量T，此时世界坐标系的原点即为左目摄像头光心。

上式即：

最后应当说明的是：以上实施例仅用于说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，所有的这些修改和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：包括以下几个步骤：

步骤1：将双目摄像机水平固定放置，对双目摄像机的左右目摄像头进行标定，建立各个坐标系转换模型，分别获取两摄像头的内参矩阵、畸变系数及其之间的姿态参数，即建立相机成像模型；

步骤2：对双目摄像机拍摄的同步视频进行预处理；

步骤3：利用机器学习流水线分别处理预处理后的左右目视频，推断出每一帧图像中的21个3D手部关键点，获得关键点在左右目摄像头拍摄图像中的像素坐标；

2.根据权利要求1所述的一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：进一步的，所述步骤1包括：

其中，X_c代表相机坐标系，X_w代表世界坐标系，r为3×3旋转矩阵，t为3×1平移向量；旋转矩阵r受X、Y、Z三个方向上的分量共同控制，所以具有三个自由度，则r为分别绕X、Y、Z三轴旋转的效果之和；

其中(x，y)为图像坐标系中的坐标，(x_c，y_c，z_c)为相机坐标系中的坐标，f为相机焦距；其中z_c由三角测距法求得，即

B为左右目相机光心连线的距离，X_L、X_R为左右目图像对应像素点的横坐标；

步骤1-3：构建图像坐标系到像素坐标系的转换模型：

其中，(u，v)为像素坐标系坐标，(x，y)为图像坐标系坐标，d_x、d_y分别表示每个像素在横轴x和纵轴y上的物理尺寸，(u₀，v₀)为图像坐标系原点在像素坐标系下的坐标；

其中，

为相机外参矩阵，其中r_3×3为旋转矩阵，t_3×1为平移向量，世界坐标系到像素坐标系转换矩阵即相机的投影矩阵P为：

步骤1-5：在主点周围进行泰勒级数展开来构建镜头畸变模型，取前几项系数即获取相机畸变系数，计算右目摄像机坐标系相对于左目摄像机坐标系的3×3旋转矩阵R和3×1平移向量T。

3.根据权利要求1所述的一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：进一步的，所述步骤2包括：

步骤2-1：对双目摄像机拍摄的同步视频进行裁剪，分别得到左目摄像机拍摄视频和右目摄像机拍摄视频；

4.根据权利要求1所述的一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：进一步的，所述步骤3包括：

步骤3-1：使用手掌检测模型对整个图像进行检测并返回手部区域边界框；手掌检测采用BlazePalm模型，该模型采用了类似特征金字塔FPN的编码-解码特征提取器，通过对每一种尺度的图像进行特征提取，产生多尺度的特征表示，使所有等级的特征图都具有较强的语义信息和更高的分辨率，从而能够很好地解决手掌检测过程中由于距离变化而产生的尺度变化问题；同时相应地采用焦点损失Focal Loss来解决因多尺度而产生的大量锚点问题；

5.根据权利要求1所述的一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：在步骤3-1中，采用手掌检测器，仅对手掌进行检测而非检测整个手部，因为手部缺少高对比度的特征区域，很难仅凭视觉特征实现可靠的手部检测，而相较于检测出具有关节和手指的手部，手掌检测器只需检测出手掌和拳头的固定对象的边界框。

6.根据权利要求1所述的一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：在步骤3-2中，所述手部关键部位检测模型采用CNN卷积神经网络对关键点的高斯热图进行预测，然后对热图进行argmax找出峰值对应的索引得出每个关键点的坐标；模型回归手部21个关键点，预测输出特征图为21通道，每个通道都是预测一个关键点的热图；损失函数采用了欧氏距离损失函数，即：

式中R为标注的真实坐标，P为模型预测坐标。

7.根据权利要求1所述的一种基于双目视觉的手部关键点空间坐标获取方法，其特征在于：进一步的，所述步骤4包括：

其中

为左目摄像头的投影矩阵，

为右目摄像头的投影矩阵，(u₁，v₁)、(u₂，v₂)分别为关键点在左右目图像上的像素坐标，z_c1、z_c2分别为关键点在左右目相机坐标系下的z坐标，由步骤1-2求取；将左目摄像头旋转矩阵设为3×3单位矩阵，平移向量设为3×1零向量，将右目摄像头旋转矩阵设为步骤1-5得到的矩阵R，平移向量设为步骤1-5得到的向量T，此时世界坐标系的原点即为左目摄像头光心；

上式即：