CN113191243B

CN113191243B - 基于相机距离的人手三维姿态估计模型建立方法及其应用

Info

Publication number: CN113191243B
Application number: CN202110447818.8A
Authority: CN
Inventors: 桑农; 崔园; 李默然; 高常鑫; 高源�
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-05-20
Anticipated expiration: 2041-04-25
Also published as: CN113191243A

Abstract

本发明公开了一种基于相机距离的人手三维姿态估计模型建立方法及其应用，属于计算机视觉领域，包括：建立待训练模型；模型中，2D卷积网络以包含人手图像的单目RGB图像为输入，用于估计各关节点二维坐标；第一生成网络用于根据2D卷积网络输出的估计结果估计人手各关节点在手势坐标系下的三维坐标；相机距离学***移；第二生成网络用于根据平移后的关节点三维坐标估计相机坐标系下的关节点三维坐标，完成人手三维姿态的估计；构建训练集并对待训练模型进行训练，得到人手三维姿态估计模型。本发明能够提高人手三维姿态估计的准确度。

Description

基于相机距离的人手三维姿态估计模型建立方法及其应用

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于相机距离的人手三维姿态估计模型建立方法及其应用。

背景技术

人手三维姿态估计，即根据包含人手的图像估计人手各关节点在相机坐标系下的三维坐标，属于智能人机交互的一个分支，是当前计算机视觉中一个重要的研究热点。它在当前社会各行各业有着广泛的应用，例如TCL，三星，康佳等公司在电视上开发人手交互用手势替代遥控器操控电视；微软的Xobx游戏机可通过Kinect完成对手势的识别，控制游戏人物角色；一些汽车厂商如宝马，奔驰，大众等也在汽车中加入车载手势交互功能，提高安全系数；手机厂商如华为，小米等也加入了隔空手势操作的功能，同时手势在VR/AR的领域也有很多应用。手势交互的应用前景广阔，准确的3D手势姿态估计可以帮助手势交互在越来越多设备上应用。

基于单目RGB图像的3D手势估计是人手在相机镜头中成像成2D图像的逆过程。由于人手距离相机镜头的距离以及人手实际的尺寸大小很难在RGB图像上体现，故为使能从RGB图像估计出人手3D姿态，研究者常将手势进行尺度归一化，将手归一化为相同的大小，并将以相机镜头为原点的相机坐标系下的手转换为以手掌掌心为原点的手势坐标系的手，不去考虑手势到相机镜头的相机距离。而根据相机的透视成像原理，物体在投影面上成像有着近大远小的性质，当相同手势在相机镜头前的不同位置时，在投影面上的成像也是不同的，如图1所示。而使用以掌心为原点的手势(人手三维姿态)作为监督的时候，该监督信息因为缺失3D手势与2D手势之间的尺度和位置的信息联系，使得经过模型估计的手势准确度不高，同时手势图像分辨率低，背景杂乱，手势的自遮挡以及和物体的遮挡，以及手的自由度高，形状与尺度差异较大等问题也降低了基于掌心为原点的手势作为监督信息的方法的手势估计性能。

由此可见，基于单目RGB图像估计人手3D姿态存在准确度较低的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于相机距离的人手三维姿态估计模型建立方法及其应用，其目的在于，通过将3D人手关节点与2D关节点之间的尺度关系与透视投影关系融入到模型中，提高人手三维姿态估计的准确度，从而有效解决现有的人手三维姿态估计方法准确度低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于相机距离的人手三维姿态估计模型建立方法，包括：

建立包含2D卷积网络、第一生成网络、相机距离学***移；第二生成网络以相机距离学***移后的三维坐标为输入，用于估计人手各关节点在相机坐标系下的三维坐标，完成人手三维姿态的估计；

构建由包含人手的RGB图像构成的训练集；训练集中，每张单目RGB图像已标注了标注人手各关节点的二维坐标和在相机坐标系下的三维坐标，且人手各关节点在手势坐标系下的三维坐标已知；利用训练集对待训练模型进行训练，在训练结束后，得到人手三维姿态估计模型。

本发明所建立的人手三维姿态估计模型，在利用2D卷积网络和第一生成网络根据单目RGB图像估计得到人手各关节点在手势坐标系下的三维坐标的基础上，进一步引入相机距离学习网络和第二生成网络，由相机距离学习网络根据二维坐标和手势坐标系下的三维坐标的估计值计算相机距离，并融入到第二生成网络的输入信息中，由此能够显式地为模型提供3D人手关节点与2D人手关节点之间的透视投影关系，避免了3D人手关节点与2D人手关节点间尺度和位置信息的缺失，能够有效提高人手三维姿态估计的准确度。

在一些可选的实施例中，2D卷积网络为对沙漏模型进行修改后的模型；

修改包括：将各下采样部分中的池化模块替换为依次连接的核尺寸为3步长为2的卷积层、BN层和ReLU激活函数层；将每一个阶段的分支部分替换为输入输出通道相同、卷积核尺寸为3、步长为1的主干双卷积层堆叠的残差模块；将各上采样部分中的最近邻上采样模块替换为核尺寸为2、步长为2的反卷积层。

传统的沙漏模型中，下采用使用pooling池化操作，上采样使用的是最近邻上采样，这些操作会导致细节信息的丢失，而且传统的沙漏模型对分支模块没有进行任何操作，不能充分利用多尺度信息，本发明在传统沙漏模型的基础上，对其中的上采样部分、下采样部分和分支部分进行上述修改，能够有效避免在下采样和上采样过程中丢失细节信息，并且能够充分利用多尺度信息，从而进一步提高估计准确度。

在一些可选的实施例中，第一生成网络和/或第二生成网络为图卷积神经网络。

图卷积神经网络除了可以输入2D/3D坐标信息，还可以输入邻接矩阵，在人手三维姿态估计中，人手的拓扑结构，及各关节点的相邻关系是固定不变的，本发明以图卷积神经网络作为第一生成网络和第二生成网络，网络参数较少，且使得模型可以通过输入的邻接矩阵获得人手关节点的相邻关系，在模型的训练过程中，能够充分利用人手关节点与关节点之间的生理骨架结构的约束关系，只做相邻关节点的信息交换，避免了无关信息的干扰，同时隐式地强调了人手的拓扑结构，能够有效提高估计结果。

在一些可选的实施例中，2D卷积网络为沙漏模型。

沙漏模型(Hourglass)通过网络的编码-解码，对图像先进行下采样而后进行上采样的方式，能够将各个尺度的信息结合利用起来，最终输出与输入图尺度相同的图像，本发明使用沙漏模型作为2D卷积网络，根据输入的单目RGB图像估计人手各关节点的二维坐标，能够有效融合多个尺度信息，具有较高的估计准确度。

进一步地，对待训练模型进行训练，包括：

将2D卷积网络作为第一阶段模型，以训练集中的单目RGB图像为训练数据集合，以训练集中人手各关节点的二维坐标为监督信息集合，对第一阶段模型进行训练，得到训练好的第一阶段模型；

将第一生成网络、相机距离学习网络和第二生成网络连接而成的模型作为第二阶段模型，以训练集中人手各关节点的二维坐标为训练数据集合，以训练集中人手各关节点在手势坐标系下的三维坐标和在相机坐标系下的三维坐标为监督信息集合，对第二阶段模型进行训练，得到训练好的第二阶段模型；

连接训练好的第一阶段模型和训练好的第二阶段模型，以训练集中的单目RGB图像为训练数据集合，以训练集中人手各关节点的二维坐标、在手势坐标系下三维坐标和在相机坐标系下的三维坐标为监督信息集合，对连接所得的模型进行训练微调。

本发明将整体模型划分为两个阶段，第一阶段模型完成从单目RGB图像到二维坐标的估计，第二阶段模型完成从二维坐标到三维坐标的估计以及修正，对两个阶段的模型先单独进行训练，然后将训练好的两个阶段模型连接为整体模型，进行端到端的训练，对整体模型参数进行训练，此时第二阶段模型的输入为第一阶段输出的二维坐标，由此能够在保证模型训练效果的基础上，简化模型训练过程中的参数调整，提高模型的训练效率。

进一步地，对第一阶段模型进行训练时，所采用的损失函数为：

其中，P表示标注的人手各关节点的二维坐标，

表示第一阶段模型估计的人手各关节点的二维坐标，|| ||₁表示1范数；

对第二阶段模型进行训练时，所采用的损失函数为：

其中，J^rel表示人手各关节点在手势坐标系下的三维坐标；

表示第一生成网络估计的人手各关节点在手势坐标系下的三维坐标；Jⁿ表示标注的人手各关节点在相机坐标系下的三维坐标；

表示第二生成网络估计的人手各关节点在相机坐标系下的三维坐标；|| ||₂表示2范数；

对连接所得的模型进行训练微调时，所采用的损失函数为：

L＝λ_2DL_2D+λ_3DL_3D；

其中，λ_2D和λ_3D表示权重系数。

进一步地，构建由包含人手的RGB图像构成的训练集，包括：

对已标注人手各关节点的二维坐标和在相机坐标系下的三维坐标，且包含人手的单目RGB图像进行预处理，得到训练集；

预处理包括：

将人手各关节点在相机坐标系下的三维坐标减去掌心关节点的坐标，得到人手各关节点在手势坐标系下的三维坐标；

识别出单目RGB图像中的人手部分，以中指指根为中心点，分别计算可以包含手掌的最小长和宽，并分别扩大为原来的η倍；按照扩大后的长和宽裁剪得到包含人手的单目RGB图像；

将裁剪得到所有单目RGB图像缩放到同一尺寸下；

将人手各关节点在相机坐标系下的三维坐标进行尺度归一化；

其中，η>1。

一般情况下，单目相机所拍摄的单目RGB图像除了包含人手部分，还会包含其他的人体部分，本发明识别出单目RGB图像中的人手部分，依次进行裁剪和缩放，能够有效缓解手势图像分辨率低、背景杂乱的问题，提高了所构建的训练集的质量；人手会因为年龄、性别、体格等存在手的大小不一致的情况，但人手骨架中指骨(两个相邻指关节的距离)与整体手势的大小是大约成比例的，本发明通过对关节点在相机坐标系下的三维坐标进行尺度归一化，能够使不同手势的大小尺度相似，有利于提高模型的训练效果。

进一步地，预处理还包括：对裁剪并缩放后的单目RGB图像进行数据增强，和/或将左、右手变换为同一手势。

本发明通过对裁剪和缩放得到的单目RGB图像进行数据增强，能够扩充训练样本的数量，提高模型的训练效果；人手存在左手和右手的区别，利用同一个模型同时学习两种手势，模型的性能会受到影响，本发明先将左、右手变换为同一手势，然后再对模型进行训练，使得模型只需学习一种手势，能够有效提升模型的训练效果。

按照本发明的另一个方面，提供了一种人手三维姿态估计方法，包括：将包含人手的单目RGB图像输入至由本发明提供的基于相机距离的人手三维姿态估计模型建立方法所建立的人手三维姿态估计模型，得到单目RGB图像中人手各关节点在相机坐标系下的三维坐标，完成人手三维姿态估计。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于相机距离的人手三维姿态估计模型建立方法，和/或本发明提供的人手三维姿态估计方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在根据2D关节点坐标学习3D关节点坐标的阶段，引入相机距离作为输入，显式提供3D手势与2D关节点之间的透视投影关系，明确3D手势与2D关节点的尺度(近大远小)与位置(偏移)的变换关系，解决了不同的2D关节点输入，同样的3D手势监督对网络的引导不明确的负影响，提升了手势关节点的估计准确度。

(2)本发明对传统的沙漏模型中的上采样部分、下采样部分和分支部分进行修改，将修改后的沙漏模型作为估计关节点二维坐标的2D卷积网络，能够有效避免在下采样和上采样过程中丢失细节信息，并且能够充分利用多尺度信息，从而进一步提高估计准确度。

(3)本发明中，第一生成网络和第二生成网络利用图卷积网络结构实现，在网络参数量较小的条件下，能够充分利用人手关节点与关节点之间的生理骨架结构的约束关系，有效提高估计准确度。

(4)本发明在根据估计阶段计算得到相机距离的情况下，利用第二生成网络通过学习的方法估计人手各关节点在相机坐标系下的三维坐标，能够降低计算出来的相机距离带来的误差的影响，进一步提高人手三维姿态估计的准确度。

(5)本发明在实际相机距离未知的情况下，可以通过模型自身估计的结果计算出相机距离，使得估计过程不依赖于已知的相机距离参数，适用范围广泛；对于任意单目RGB摄像头拍摄的包含人手的RGB图像，本发明均可实现人手三维姿态估计，单目RGB摄像头在生活中使用广泛，数据获得较为低廉，本发明获得的更准确的3D手势估计性能，可以很好的和实际设备结合。

附图说明

图1为现有的相同手势在相机镜头前的不同位置时，在投影面上的成像示意图；

图2为本发明实施例提供的基于相机距离的人手三维姿态估计模型建立方法示意图；

图3为本发明实施例提供的基于相机距离的人手三维姿态估计模型建立方法示意图；

图4为现有的沙漏模型示意图；

图5为现有的沙漏模型中分支部分、下采样部分和上采样部分的示意图；其中，(a)为下采样部分示意图，(b)为上采样部分示意图，(c)为分支部分示意图；

图6为本发明实施例提供的修改的沙漏模型中分支部分、下采样部分和上采样部分的示意图；其中，(a)为下采样部分示意图，(b)为上采样部分示意图，(c)为分支部分示意图；

图7为本发明实施例提供的第二阶段模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

针对现有的从RGB图像估计人手三维姿态的方法，估计准确度不高的技术问题，本发明提供了一种基于相机距离的人手三维姿态估计方法及其应用，其整体思路在于：在利用模型从RGB图像估计出人手各关节点的二维坐标，以及在手势坐标系下的三维坐标的基础上，进一步在模型中引入相机距离学习网络和第二生成网络，由相机距离学习模块根据已有的估计结果计算相机距离并融入模型，从而为模型显式地提供3D手势与3D关节点之间的透视投影关系，由第二生成网络根据该透视投影关系进一步通过学习的方式得到人手各关节点在相机坐标系下的三维坐标，提高人手三维姿态的估计准确度。

以下为实施例。

实施例1：

一种基于相机距离的人手三维姿态估计模型建立方法，如图2和图3所示，包括：

作为一种优选的实施方式，如图3所示，本实施例中，人手三维姿态估计模型中的2D卷积网络具体是改进的沙漏模型，该模型是对传统的沙漏模型(Hourglass)中的分支部分、下采样部分和上采样部分进行修改后得到的模型；传统的沙漏模型如图4所示，其通过网络的编码-解码，对图像先进行下采样而后进行上采样的方式，下采样部分得到的特征图会通过分支部分复制到下采样部分，与对应尺度的特征图进行融合，作为下一级上采样层的输入，由此能够将各个尺度的信息结合利用起来，最终输出与输入图像尺度相同的图像；传统的沙漏模型中，下采用使用pooling池化操作，上采样使用的是最近邻上采样，如图5中的(a)和(b)所示，这些操作会导致细节信息的丢失，而且，传统的沙漏模型对分支模块没有进行任何操作，如图5中的(c)所示，不能充分利用多尺度信息；为了进一步提高估计精度，本实施例中，对沙漏模型的具体修改如下：

将各下采样部分中的池化模块替换为依次连接的核尺寸为3步长为2的卷积层、BN层和ReLU激活函数层，修改后的下采样部分如图6中的(a)所示；将各上采样部分中的最近邻上采样模块替换为核尺寸为2、步长为2的反卷积层，修改后的上采样部分如图6中的(b)所示；将每一个阶段的分支部分替换为输入输出通道相同、卷积核尺寸为3、步长为1的主干双卷积层堆叠的残差模块，修改后的分支部分如图6中的(c)所示；

基于以上修改，本实施例能够有效避免在下采样和上采样过程中丢失细节信息，并且能够充分利用多尺度信息，从而进一步提高估计准确度；应当说明的是，此处仅为本发明优选的实施方式，不应理解为对本发明的唯一限定；由于使用传统的沙漏模型已经可以达到很好的估计准确度，因此，在本发明其他的一些实施例中，也可知直接使用沙漏模型作为2D卷积网络；在本发明其他的而一些实施例中，在估计准确度可满足应用需求的情况下，也可以使用残差网络(Resnet),VGG等其他的2D卷积网络，在此将不作一一列举。

人手有21个关节点，具体为每一根手指的指尖(TIP)、远掌心关节(DIP)、近掌心关节(PIP)和掌根关节(MCP)，以及掌心关节；本实施例中，利用修改的沙漏模型针对每一个关节点分别学习与输入的RGB图像同样尺寸的概率图，概率图中描述了各位置为对应关节点的概率，之后通过softmax函数规范后，与像素坐标做加权求和，即可得到关节点的二维坐标，相关公式如下：

其中，Ω为输出的原始概率图的坐标空间，p为对应的像素坐标。

为第k(k＝1，2，……，21)个关节点的原始概率图；

为第k个关节点使用softmax函数规范后的概率图；

为求和后的第k个2D关节点坐标，基于概率图的性质计算2D关节点，网络的参数梯度在这里仍然可以进行传播，且关节点的准确度更高。

如图3和图7所示，本实施例中，第一生成网络和第二生成网络具体由图卷积神经网络实现；图卷积神经网络(Graph Convolutional Network，GCN)除了可以输入2D/3D坐标信息，还可以输入邻接矩阵，在人手三维姿态估计中，人手的拓扑结构，及各关节点的相邻关系是固定不变的，本实施例以图卷积神经网络作为第一生成网络和第二生成网络，网络参数较少，且使得模型可以通过输入的邻接矩阵获得人手关节点的相邻关系，在模型的训练过程中，能够充分利用人手关节点与关节点之间的生理骨架结构的约束关系，只做相邻关节点的信息交换，避免了无关信息的干扰，同时隐式地强调了人手的拓扑结构，能够有效提高估计结果；应当说明的是，具体利用图卷积神经网络实现第一生成网络和第二生成网络，仅为本发明优选的实施方式，不应理解为对本发明唯一的限定，在本发明其他一些实施例中，也可以使用变分自动编码网络(VAE)、1D卷积网络等模型来实现第一生成网络和第二生成网络。

基于相机的透视投影公式即可推导得到相机距离的计算公式，相机的透视投影公式具体如下：

其中，(f_x,f_y,m,n)为相机自身参数，f_x、f_y分别表示相机x、y轴的焦距，m、n分别表示对应x、y轴的偏移量；J_i＝(x_i,y_i,z_i)表示第i个关节点在以相机镜头为原点的相机坐标系下的三维坐标，i＝1,2,……,21；J_a＝(x_a,y_a,z_a)表示中指掌根坐标；J_r＝(x_r,y_r,z_r)表示掌心坐标；P＝(u_i,v_i)表示第i个关节点在图像上的二维坐标；上标n表示归一化之后的结果，上标rel表示在以掌心为原点的手势坐标系下的坐标；

其中归一化后的相机手势满足中指指根关节点

与掌心关节点

的欧式距离为1，即：

基于以上公式可得：

消除

与

即可最终计算得出相机距离

本实施例所计算的相机距离同时包含x、y、z方向的坐标，将其融合进后续网络的输入后，能够明确3D手势与2D关节点的尺度与位置的变换关系；

本实施例中，相机距离学习模块计算相机距离时，即根据上述计算公式完成计算；由于本实施例中，相机距离具体是根据2D卷积网络输出的二维坐标估计结果和第一生成网络输出的三维坐标估计结果计算得到，不依赖于实际的相机距离参数，适用范围广泛。

由于一般情况下，单目相机所拍摄的单目RGB图像除了包含人手部分，还会包含其他的人体部分，分辨率低且背景杂乱，因此，直接使用已标注人手关节点二维坐标和三维坐标的单目RGB图像进行模型训练，会影响模型的训练效果，因此，本实施例中，在构建训练集时，会对已标注的RGB图像做如下预处理：

识别出单目RGB图像中的人手部分，以中指指根为中心点，分别计算可以包含手掌的最小长和宽，并分别扩大为原来的η倍；按照扩大后的长和宽裁剪得到包含人手图像的单目RGB图像；η>1；

将裁剪得到所有单目RGB图像缩放到同一尺寸下；可选地，本实施例中，缩放后，图像大小为256*256；

通过裁剪出人手部分，并缩放到同一尺寸下，能够有效缓解手势图像分辨率低、背景杂乱的问题，提高所构建的训练集的质量；在裁剪时，按照扩大后的长和宽进行裁剪，而不是按照最小长和宽裁剪，能够避免边缘细节信息的丢失；可选地，本实施例中，η＝1.2。

人手会因为年龄、性别、体格等存在手的大小不一致的情况，但人手骨架中指骨(两个相邻指关节的距离)与整体手势的大小是大约成比例的，因此，本实施例对已标注的RGB图像的预处理还包括：

将人手各关节点在相机坐标系下的三维坐标进行尺度归一化，归一化公式如下：

J_r为以相机镜头为原点的相机坐标系下掌心坐标，称为相机距离，在构建训练集时，使用已知的相机距离参数；s为手的中指指根关节与掌心的欧式距离；J_i ⁿ为第i个关节点在相机坐标系下的三维坐标归一化之后的结果。

除了以上预处理，为了进一步提高模型的训练效果，本实施例中，对已标注的RGB图像的预处理还包括：对裁剪并缩放后的单目RGB图像进行数据增强，和/或将左、右手变换为同一手势；

本实施例通过对裁剪和缩放得到的单目RGB图像进行数据增强，能够扩充训练样本的数量，提高模型的训练效果；人手存在左手和右手的区别，利用同一个模型同时学习两种手势，模型的性能会受到影响，本实施例先将左、右手变换为同一手势，然后再对模型进行训练，使得模型只需学习一种手势，能够有效提升模型的训练效果；具体地，本实施例中，构建训练集时，预先将左手镜像成右手，使得网络只学习左手模式，后续是可以将估计的镜像的人手还原成原本的左手或者右手模式的。

基于所构建的训练集，为了在保证模型估计准确度的情况下，有效提高模型的训练效率，本实施例中，对模型进行训练时，具体将模型分为两个阶段，先分别训练两个阶段的模型，然后再把两个阶段模型连接为整体进行训练微调，具体如下：

如图3所示，将2D卷积网络作为第一阶段模型，以训练集中的单目RGB图像为训练数据集合，以训练集中人手各关节点的二维坐标为监督信息集合，对第一阶段模型进行训练，得到训练好的第一阶段模型；

对第一阶段模型进行训练时，所采用的损失函数为：

其中，P表示标注的人手各关节点的二维坐标，

如图3所示，将第一生成网络、相机距离学习网络和第二生成网络连接而成的模型作为第二阶段模型，以训练集中人手各关节点的二维坐标为训练数据集合，以训练集中人手各关节点在手势坐标系下的三维坐标和在相机坐标系下的三维坐标为监督信息集合，对第二阶段模型进行训练，得到训练好的第二阶段模型；

对第二阶段模型进行训练时，所采用的损失函数为：

其中，J^rel表示人手各关节点在手势坐标系下的三维坐标；

上述损失函数中，

表示第一生成网络的估计损失；

表示第二生成网络的估计损失；

在第一阶段模型和第二阶段模型均训练完成后，连接训练好的第一阶段模型和训练好的第二阶段模型，以训练集中的单目RGB图像为训练数据集合，以训练集中人手各关节点在相机坐标系下的三维坐标为监督信息集合，对连接所得的模型进行训练微调，此时第二阶段的输入为第一阶段输出的二维坐标；

对连接所得的模型进行训练微调时，所采用的损失函数为：

L＝λ_2DL_2D+λ_3DL_3D；

其中，λ_2D和λ_3D表示权重系数；可选地，本实施例中，λ_2D＝1和λ_3D＝500；

通过上述先分阶段训练，然后进行微调的训练方法，本实施例能够在保证模型训练效果的基础上，简化模型训练过程中的参数调整，提高模型的训练效率。

本实施例估计值计算相机距离，并融入到第二生成网络的输入信息中，由此能够显式地为模型提供3D人手关节点与2D人手关节点之间的透视投影关系，避免了3D人手关节点与2D人手关节点间尺度和位置信息的缺失，解决了不同的2D关节点输入，同样的3D手势监督对网络的引导不明确的负影响，提升了手势关节点的估计准确度，能够有效提高人手三维姿态估计的准确度。

实施例2：

一种人手三维姿态估计方法，包括：将包含人手的单目RGB图像输入至由上述实施例1提供的基于相机距离的人手三维姿态估计模型建立方法所建立的人手三维姿态估计模型，得到单目RGB图像中人手各关节点在相机坐标系下的三维坐标，完成人手三维姿态估计。

实施例3：

一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于相机距离的人手三维姿态估计模型建立方法，和/或上述实施例2提供的人手三维姿态估计方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于相机距离的人手三维姿态估计模型建立方法，其特征在于，包括：

建立包含2D卷积网络、第一生成网络、相机距离学***移；所述第二生成网络以所述相机距离学***移后的三维坐标为输入，用于估计人手各关节点在相机坐标系下的三维坐标，完成人手三维姿态的估计；

构建由包含人手的RGB图像构成的训练集；所述训练集中，每张单目RGB图像已标注了标注人手各关节点的二维坐标和在相机坐标系下的三维坐标，且人手各关节点在手势坐标系下的三维坐标已知；利用所述训练集对所述待训练模型进行训练，在训练结束后，得到所述人手三维姿态估计模型。

2.如权利要求1所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，所述2D卷积网络为对沙漏模型进行修改后的模型；

所述修改包括：将各下采样部分中的池化模块替换为依次连接的核尺寸为3步长为2的卷积层、BN层和ReLU激活函数层；将每一个阶段的分支部分替换为输入输出通道相同、卷积核尺寸为3、步长为1的主干双卷积层堆叠的残差模块；将各上采样部分中的最近邻上采样模块替换为核尺寸为2、步长为2的反卷积层。

3.如权利要求1所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，所述第一生成网络和/或所述第二生成网络为图卷积神经网络。

4.如权利要求1所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，所述2D卷积网络为沙漏模型。

5.如权利要求1～4任一项所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，对所述待训练模型进行训练，包括：

将所述2D卷积网络作为第一阶段模型，以所述训练集中的单目RGB图像为训练数据集合，以所述训练集中人手各关节点的二维坐标为监督信息集合，对所述第一阶段模型进行训练，得到训练好的第一阶段模型；

将所述第一生成网络、所述相机距离学习网络和所述第二生成网络连接而成的模型作为第二阶段模型，以所述训练集中人手各关节点的二维坐标为训练数据集合，以所述训练集中人手各关节点在手势坐标系下的三维坐标和在相机坐标系下的三维坐标为监督信息集合，对所述第二阶段模型进行训练，得到训练好的第二阶段模型；

连接所述训练好的第一阶段模型和所述训练好的第二阶段模型，以所述训练集中的单目RGB图像为训练数据集合，以所述训练集中人手各关节点的二维坐标、在手势坐标系下的三维坐标和在相机坐标系下的三维坐标为监督信息集合，对连接所得的模型进行训练微调。

6.如权利要求5所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，对所述第一阶段模型进行训练时，所采用的损失函数为：

其中，P表示标注的人手各关节点的二维坐标，

表示所述第一阶段模型估计的人手各关节点的二维坐标，|| ||₁表示1范数；

对所述第二阶段模型进行训练时，所采用的损失函数为：

其中，J^rel表示人手各关节点在手势坐标系下的三维坐标；

表示所述第一生成网络估计的人手各关节点在手势坐标系下的三维坐标；Jⁿ表示标注的人手各关节点在相机坐标系下的三维坐标；

对连接所得的模型进行训练微调时，所采用的损失函数为：

L＝λ_2DL_2D+λ_3DL_3D；

其中，λ_2D和λ_3D表示权重系数。

7.如权利要求1～4任一项所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，所述构建由包含人手的RGB图像构成的训练集，包括：

对已标注人手各关节点的二维坐标和在相机坐标系下的三维坐标，且包含人手的单目RGB图像进行预处理，得到所述训练集；

所述预处理包括：

将裁剪得到所有单目RGB图像缩放到同一尺寸下；

其中，η>1。

8.如权利要求7所述的基于相机距离的人手三维姿态估计模型建立方法，其特征在于，所述预处理还包括：对裁剪并缩放后的单目RGB图像进行数据增强，和/或将左、右手变换为同一手势。

9.一种人手三维姿态估计方法，其特征在于，包括：将包含人手的单目RGB图像输入至由权利要求1-8任一项所述的基于相机距离的人手三维姿态估计模型建立方法所建立的人手三维姿态估计模型，得到所述单目RGB图像中人手各关节点在相机坐标系下的三维坐标，完成人手三维姿态估计。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1-8任一项所述的基于相机距离的人手三维姿态估计模型建立方法，和/或权利要求9所述的人手三维姿态估计方法。