CN111539288A

CN111539288A - 一种双手姿势的实时检测方法

Info

Publication number: CN111539288A
Application number: CN202010301111.1A
Authority: CN
Inventors: 高成英; 李文盛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-14
Anticipated expiration: 2040-04-16
Also published as: CN111539288B

Abstract

本发明公开了一种双手姿势的实时检测方法，通过采用2d关节点位置和3d关节点位置进行双手姿势重建，能够重建出两只手的骨架模型，即使是复杂交互的双手姿势也能够清楚地构建，解决了现有技术存在的无法对复杂交互的双手姿势进行检测的问题，同时，通过采用2d关节点位置和3d关节点位置进行拟合的方式，能够降低重建两只手骨架模型的运算难度，提升重建双手骨架模型的速度，从而保证了检测双手姿势的实时性，从而解决了现有技术存在的难以实现实时性的问题。

Description

一种双手姿势的实时检测方法

技术领域

本发明涉及姿势检测技术领域，特别涉及一种双手姿势的实时检测方法。

背景技术

手部在人类日常生活中有着非常关键的作用，手部姿势中包含着大量的非语言交流信息，对于手部姿势的跟踪与重建工作变得越来越重要，预测3d手部姿势是计算机视觉中的一个长期研究方向，在虚拟/增强现实(VR/AR)、人机交互、人体动作追踪与控制等领域中有着大量的应用，在这些应用中都要求对手部姿势进行实时、准确的检测，现有对于手部姿势进行检测的方法大多是依赖于RGB图像、深度图或者是RGB-D图像进行姿势重建。

但是，现有对手部姿势进行检测的方法存在以下缺点：1、仅仅能够对具有简单姿势的双手进行检测，并不能对有复杂交互的双手姿势进行检测；2、重建手部姿势的网格时，需要很大的计算量和较多的硬件资源，很难满足实时性。

发明内容

本发明的目的在于提供一种双手姿势的实时检测方法，解决了现有技术存在的无法对复杂交互的双手姿势进行检测和难以实现实时性的问题。

本发明通过以下技术方案实现的：

一种双手姿势的实时检测方法，所述方法基于单目摄像机，具体包括以下步骤：

步骤S1，通过单目摄像机捕捉到双手的单帧图像，将所述单帧图像输入到图像分割网络进行分割，分割出包括左手、右手和背景三种类别的分割结果；

步骤S2，依据分割结果提取出包括左手2d关节点位置的左手热度图和包括右手2d关节点位置的右手热度图；

步骤S3，依据包括左手2d关节点位置的左手热度图和包括右手2d关节点位置的右手热度图，计算出左手3d关节点位置和右手3d关节点位置；

步骤S4，将左手2d关节点位置和左手3d关节点位置与左手骨架模型进行拟合，并将右手2d关节点位置和右手3d关节点位置与右手骨架模型进行拟合，得到左右手骨架模型的参数，从而得到双手的姿势。

作为所述双手姿势的实时检测方法的进一步可选方案，所述步骤S1包括以下步骤：

步骤S11，依据输入的双手单帧图像提取出图像特征；

步骤S12，将所述图像特征进行上采样操作，得到包括左手、右手和背景三种类别的概率图；

步骤S13，依据包括左手、右手和背景的概率图，得到包括左手、右手和背景三种类别的分割结果。

作为所述双手姿势的实时检测方法的进一步可选方案，所述图像分割网络包括第一卷积层、第二卷积层和转置卷积层。

作为所述双手姿势的实时检测方法的进一步可选方案，所述步骤S11包括以下步骤：

步骤S111，将双手单帧图像输入第一卷积层进行下采样处理；

步骤S112，将下采样处理后的图像输入第二卷积层进行图像特征提取。

作为所述双手姿势的实时检测方法的进一步可选方案，所述步骤S2包括以下步骤：

步骤S21，将包括左手、右手和背景三种类别的分割结果与原单帧图像进行叠加，叠加后输入到二维关节点提取网络进行下采样处理，得到姿势特征；

步骤S22，将姿势特征进行上采样处理，得到包括左手2d关节点位置的左手热度图和包括右手2d关节点位置的右手热度图。

作为所述双手姿势的实时检测方法的进一步可选方案，所述二维关节点提取网络包括Hourglass结构的网络和第三卷积层。

作为所述双手姿势的实时检测方法的进一步可选方案，所述步骤S3包括以下步骤：

步骤S31，依据左手热度图和右手热度图，提取出左手2d关节点的置信度和右手2d关节点的置信度；

步骤S32，将左手2d关节点位置和左手2d关节点的置信度，以及右手2d关节点位置和右手2d关节点的置信度输入三维关节点提取网络，得到左手3d关节点位置和右手3d关节点位置。

作为所述双手姿势的实时检测方法的进一步可选方案，所述三维关节点提取网络包括第一全连接层、二重线性模块和第二全连接层。

作为所述双手姿势的实时检测方法的进一步可选方案，所述二重线性模块包括第一二重线性模块和第二二重线性模块，所述第一二重线性模块和第二二重线性模块分别包括两个全连接层。

作为所述双手姿势的实时检测方法的进一步可选方案，所述步骤S4中的拟合是通过最小化能量方程进行拟合，所述最小化能量方程包括2d关节点约束项、3d关节点约束项、关节角约束项和时间约束项。

本发明的有益效果：

使用本发明方法，通过采用2d关节点位置和3d关节点位置进行双手姿势重建，能够重建出两只手的骨架模型，即使是复杂交互的双手姿势也能够清楚地构建，解决了现有技术存在的无法对复杂交互的双手姿势进行检测的问题，同时，通过采用2d关节点位置和3d关节点位置进行拟合的方式，能够降低重建两只手骨架模型的运算难度，提升重建双手骨架模型的速度，从而保证了检测双手姿势的实时性，从而解决了现有技术存在的难以实现实时性的问题。

附图说明

图1为本发明的一种双手姿势的实时检测方法的流程示意图；

图2为本发明的一种双手姿势的实时检测方法中的图像分割网络的组成示意图；

图3为本发明的一种双手姿势的实时检测方法中的二维关节点提取网络组成示意图；

图4为本发明的一种双手姿势的实时检测方法中的三维关节点提取网络组成示意图；

附图标记说明：1、第一卷积层；2、第二卷积层；3、转置卷积层；4、Hourglass结构的网络；5、第三卷积层；6、第一全连接层；7、第一二重线性模块；8、第二二重线性模块；9、第二全连接层。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，在此以本发明的示意下面将结合附图以及具体实施例来详细说明本发明，在此以本发明的示意性实施例及说明用来解释本发明，但并不作为对本发明的限定。

如图1-4所示，一种双手姿势的实时检测方法，所述方法基于单目摄像机，具体包括以下步骤：

在本实施例中，通过采用2d关节点位置和3d关节点位置进行双手姿势重建，能够重建出两只手的骨架模型，即使是复杂交互的双手姿势也能够清楚地构建，解决了现有技术存在的无法对复杂交互的双手姿势进行检测的问题，同时，通过采用2d关节点位置和3d关节点位置进行拟合的方式，能够降低重建两只手骨架模型的运算难度，提升重建双手骨架模型的速度，从而保证了检测双手姿势的实时性，从而解决了现有技术存在的难以实现实时性的问题。

需要说明的是，两只手的骨架模型，其中每个手包括21个2d关节点和21个3d关节点，其中手腕处的关节点作为根关节点，每个手指上有四个关节点，每个手的骨架有26个自由度，其中手腕处的根关节点处有6个自由度，每个手指有4个自由度。

优选的，所述步骤S1包括以下步骤：

步骤S11，依据输入的双手单帧图像提取出图像特征；

在本实施例中，将捕捉到的单帧图像输入到图像分割网络中，得到一个包括左手、右手和背景三个类别的分割图；具体为：图像分割网络首先经过下采样提取出来图像特征，之后经过上采样还原到原图像素，在上采样的时候与下采样时像素相同的特征相加作为下一次上采样的输入，这样可以保证不丢失原图中的特征。

优选的，所述图像分割网络包括第一卷积层1、第二卷积层2和转置卷积层3。

在本实施例中，所述第一卷积层1为编码器，所述转置卷积层3为译码器，通过编码器进行降低图像的分辨率，通过译码器恢复图像的分辨率。

优选的，所述步骤S11包括以下步骤：

步骤S111，将双手单帧图像输入第一卷积层进行下采样处理；

在本实施例中，所述第一卷积层1包括五个卷积核大小为3步长为2的卷积层，能够将输入的图像分辨率降为原来的一半，在经过连续的五次降低维度后，将分辨率降为原图的三十二分之一，第二卷积层2的卷积核大小为3步长为1，能够提取图像特征，转置卷积层3包括五个卷积核大小为3步长为2的卷积层，能够将输入特征的分辨率提升为原来的两倍。

优选的，所述步骤S2包括以下步骤：

在本实施例中，将原单帧图像与分割结果叠加到一起，叠加后输入到二维关节点提取网络，该网络首先下采样提取姿势特征，之后上采样得到42张H*W的概率图，其中，H为原图的高,W为原图的宽，每一张概率图表示一个关节点的位置，概率图中值最大的点对应的位置即是对应的二维关节点所在的位置，可以从中提取出对应的42个关节点，其中左手21个关节点，右手有21个关节点。

优选的，所述二维关节点提取网络包括Hourglass结构的网络4和第三卷积层5。

优选的，所述步骤S3包括以下步骤：

在本实施例中，每张热度图中值最大的点的位置即是2d关节点的位置，这个值就是此2d关节点预测的置信度，所以通过热度图能够提取出左手2d关节点位置和左手2d关节点的置信度，以及右手2d关节点位置和右手2d关节点的置信度。

优选的，所述三维关节点提取网络包括第一全连接层6、二重线性模块和第二全连接层9。

优选的，所述二重线性模块包括第一二重线性模块7和第二二重线性模块8，所述第一二重线性模块7和第二二重线性模块8分别包括两个全连接层。

优选的，所述步骤S4中的拟合是通过最小化能量方程进行拟合，所述最小化能量方程包括2d关节点约束项、3d关节点约束项、关节角约束项和时间约束项。

实施例：

步骤S1，通过单目摄像机拍摄双手的单帧图像，将拍摄到的单帧图像输入到图像分割网络中，得到一个三类别的分割图，分别为：左手、右手、以及背景；具体为，图像分割网络首先经过下采样提取出来图像特征，之后经过上采样还原到原图像素，在上采样的时候与下采样时像素相同的特征相加作为下一次上采样的输入，这样可以保证不丢失原图中的特征，网络的输出是H*W*3的概率图，其中，H为原图的高,W为原图的宽，在H*W的结果中，每个点对应着三个通道的值作为三种类别的概率，从中提取出H*W*1的结果，在该结果中，背景部分的值为0，左手部分的值为1，右手部分的值为2；需要说明的是，此分割结果与原图像是一一对应的，分割结果中值为1的点所在的位置对应到原图就是左手所在的像素点，分割结果中值为2的点对应到原图中就是右手所在的像素点；在训练图像分割网络时，使用如下损失函数计算预测值与真实值的交叉熵：

其中，M表示三个类别，在本发明中取3，S_i和

分别表示第i个类别分割结果的真实值和预测值。

步骤S2，将原单帧图像与分割结果叠加到一起，得到一个H*W*4的特征作为输入到二维关节点提取网络，该网络首先下采样提取特征，之后上采样得到42张H*W的概率图，其中每一张概率图表示一个关节点的位置，概率图中值最大的点对应的位置即是对应的二维关节点所在的位置，可以从中提取出对应的42个关节点，其中左手21个关节点，右手有21个关节点。

步骤S3，采用热度图来表示每个关节点的位置，从热度图中提取出值最大的点的位置即是预测得到的2d关节点的位置，第i张热度图中的最大值c_i∈[0，1]为预测得到的第i个关节点的置信度，在每一层后都需要进行批量归一化操作和sigmoid激活操作，此步骤训练采用如下损失函数:

其中，N为2d关节点的数目，在本发明中取42，u_i和

分别表示第i个关键点的真实值和预测值；

将左手2d关节点位置和左手2d关节点的置信度进行合并，并将右手2d关节点位置和右手2d关节点的置信度进行合并，将合并结果输入三维关节点提取网络，得到左手3d关节点位置和右手3d关节点位置，具体为，首先经过一个全连接层将输入向量展开到1024维，随后经过两个二重线性模块，最后通过一个全连接层将其变换到42*3，得到42个左右手关节点的全局位置；

需要说明的是，采用以下损失函数进行训练：

其中，J_i为关节点位置的真实值，

为关节点位置的预测值，N为关节点的数目。

步骤S4，使用一个运动的骨架模型拟合于预测得到的2d/3d关节点。每只手的骨架模型包括26个自由度，t∈R³和R∈SO(3)分别表示根关节点的全局位置以及旋转角度，θ∈R²⁰表示手指的关节角。记Θ＝{t，R，θ}作为骨架模型的参数，通过变换M(Θ)∈R^21×3得到手部关节点的全局位置，记左右手骨架参数分别为Θ_L和Θ_R，Θ_H＝{Θ_L,Θ_R}表示双手的骨架参数，通过最小化下式使得骨架模型拟合于3d关节点，其中J_i表示第i个3d关节点的全局位置：

除此之外，还使用2d关节点作为额外的约束以使得预测得到的结果能够更加拟合于原图中手部的特征。通过最小化下式使得骨架拟合于2d关节点，其中u_i表示第i个2d关节点的位置，л用于将3d关节点投影到2d平面：

为了使得手部骨架模型的姿势保持正常，需要保证手部关节不要有大角度的弯曲，因此需要对关节角添加限制。在此处我们仅对第一帧预测得到的参数进行约束，设

和

分别为第i个关节角的上限与下限，通过下式对关节角进行监督：

为了避免相邻帧之间重建得到的手部姿势幅度过大的变化，需要对相邻两帧预测得到的参数的变化率进行约束，如下式所示：

通过上述四式对骨架拟合过程进行约束，通过最小化下面的能量方程拟合得到Θ_H,其中w为各项所占的比重，在预测第一帧的参数时w₃不为0，在后续的预测中，w₃为0：

E＝ω₁E_3D+ω₂E_2D+ω₃E

在训练的时候，首先对左右手分割、2d关节点预测以及3d关节点预测任务分别进行预训练，随后对2d/3d关节点的预测进行端到端的训练。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种双手姿势的实时检测方法，所述方法基于单目摄像机，其特征在于：所述方法具体包括以下步骤：

步骤S1，通过单目摄像机捕捉到双手单帧图像，将所述单帧图像输入到图像分割网络进行分割，分割出包括左手、右手和背景三种类别的分割结果；

2.根据权利要求1所述的一种双手姿势的实时检测方法，其特征在于：所述步骤S1包括以下步骤：

步骤S11，依据输入的双手单帧图像提取出图像特征；

3.根据权利要求2所述的一种双手姿势的实时检测方法，其特征在于：所述图像分割网络包括第一卷积层、第二卷积层和转置卷积层。

4.根据权利要求3所述的一种双手姿势的实时检测方法，其特征在于：所述步骤S11包括以下步骤：

步骤S111，将双手单帧图像输入第一卷积层进行下采样处理；

5.根据权利要求1或4所述的一种双手姿势的实时检测方法，其特征在于：所述步骤S2包括以下步骤：

6.根据权利要求5所述的一种双手姿势的实时检测方法，其特征在于：所述二维关节点提取网络包括Hourglass结构的网络和第三卷积层。

7.根据权利要求6所述的一种双手姿势的实时检测方法，其特征在于：所述步骤S3包括以下步骤：

8.根据权利要求7所述的一种双手姿势的实时检测方法，其特征在于：所述三维关节点提取网络包括第一全连接层、二重线性模块和第二全连接层。

9.根据权利要求8所述的一种双手姿势的实时检测方法，其特征在于：所述二重线性模块包括第一二重线性模块和第二二重线性模块，所述第一二重线性模块和第二二重线性模块分别包括两个全连接层。

10.根据权利要求9所述的一种双手姿势的实时检测方法，其特征在于：所述步骤S4中的拟合是通过最小化能量方程进行拟合，所述最小化能量方程包括2d关节点约束项、3d关节点约束项、关节角约束项和时间约束项。