CN111597976A

CN111597976A - 一种基于rgbd相机的多人三维姿态估计方法

Info

Publication number: CN111597976A
Application number: CN202010408082.9A
Authority: CN
Inventors: 秦昊; 李冬平; 杨颢
Original assignee: Hangzhou Faceunity Technology Co ltd
Current assignee: Hangzhou Faceunity Technology Co ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-08-28

Abstract

本发明公开了一种基于RGBD相机的多人三维姿态估计方法，该方法首先在真实人体数据集上，训练得到一个支持人***置检测和语义分割的深度卷积网络；然后构建一个虚拟合成的人体深度图‑三维特征点数据集，通过该数据集训练得到能够从深度图中估计人体关节点的深度卷积网络；最后用户输入RGBD图片或视频，即可得到所有人体三维关节点的世界坐标。本发明给出了从单个RGBD相机恢复多人三维姿态的鲁棒算法；在网络预训练阶段，只需要预标注好的RGB图片即可，而对于深度图可以使用虚拟合成的方法自动得到，因此预训练对数据标注的需求度很小；在实际运行阶段，同时考虑单帧姿态估计和多帧姿态估计，可以输出精确同时稳定的多人三维姿态。

Description

一种基于RGBD相机的多人三维姿态估计方法

技术领域

本发明属于机器视觉及深度学习技术领域，尤其涉及一种基于RGBD相机的多人三维姿态估计方法。

背景技术

人体姿态估计的目的是从输入图像中得到人体关节点的坐标，从而可以分析出人体关节方向、旋转等信息。人们还可以进一步地考虑时间序列的信息，观察一段时间内人体关节点的位置变化情况，进行更抽象层次的语义理解，从而实现动作识别、跟踪、预测等复杂的任务。人体姿态估计应用十分广泛，它常常被运用于游戏、娱乐、安防、医疗康复等领域。利用人体姿态估计的结果，人们不需要任何体感设备便可以感受体感游戏和人机交互的乐趣；电影厂商不需要额外辅助设备便可以驱动动画模型，完成便捷的动作序列生成；儿女也不再需要担心家中的老年人摔倒，却因信息通知不及时而错过送医救治的宝贵时间的意外情况。

人们对于人体姿态估计的问题已经有了很久的研究历史。早期的方法大多数都是在几何先验的基础上，识别人体的各个部分来进行匹配，从而计算出人体姿态。近年来，随着深度学习的迅速发展，卷积神经网络在计算机视觉方向的很多领域，如物体分类、物体检测、语义分割等任务上都取得了突破性的进展。同样人们利用深度学习的方法，在人体姿态估计的领域也获得了巨大的突破。很多基于卷积神经网络的人体姿态估计的方法都被提出，如DeepPose,Stacked Hourglass Networks,OpenPose等。相比于传统的视觉方法，这些方法通常是由大量数据训练的，可以利用数据中蕴含的丰富的先验信息，所以在精度上和稳定性上有了很大的提升。

由于目前大部分公开的数据集的输入都是彩色的RGB图像，所以目前大部分对于姿态估计的研究仅仅局限在二维的关节点的估计。不过，二维的关节点在应用领域上存在较大的局限性。比如二维关节点很难计算人体各个关节的平移、旋转信息，无法胜任很多涉及三维相关的场景。所以，人们其实对于三维人体姿态估计的研究有着相当迫切的需求。

要从传统的RGB图像中得到三维关节点的估计是一件非常困难的事情。深度相机的诞生，却给了人们提供了解决该问题的新思路，深度相机可以获得物体的深度值，从而对物体的距离信息有了感知。2009年，第一个大众普及的深度相机Kinect由微软推出，它具有人体姿态动态捕捉等功能。Kinect辅助了相应的Xbox360游戏平台，进一步拓展了游戏的操作模式，充分展现出了人机互动的概念。2017年，随着首个配备深度相机的手机IPhone X发布，深度相机集成到移动手机上也将慢慢成为一个趋势。因此基于RGBD相机的人体姿态估计方法将具有更佳的便捷性和普及性。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于RGBD相机的多人三维姿态估计方法。本发明用于解决用户从RGBD图片输入中自动获得人体关节点坐标的问题。

本发明的目的是通过以下技术方案来实现的：一种基于RGBD相机的多人三维姿态估计方法，包括以下步骤：

(1)人体检测分割网络预训练：根据真实人体RGB图片数据集以及对应的标注信息，训练得到支持人***置检测和语义分割的深度卷积网络；

(2)三维人体姿态估计网络预训练：通过构建一个合成的人体深度图-三维特征点数据集，然后通过该数据集训练得到能够从深度图中估计人体关节点的深度卷积网络三维人体姿态估计网络；

(3)用户实际使用过程：当输入待处理RGBD图片时，运行步骤(1)训练得到的人体检测分割网络并提取出相应的深度图，运行步骤(2)训练得到的三维人体姿态估计网络对人体进行三维关节点的估计，得到所有人体三维关节点的世界坐标；当输入连续视频场景时，利用多帧图像信息的关联，使用贝叶斯方法和指数平滑的方式改善人体的三维关节点的世界坐标的预测结果。

进一步地，所述步骤(1)具体为：根据输入图片以及对应的标注信息，训练支持人***置检测和语义分割的深度卷积网络，其输入为RGB图片，输出为人体所在位置的包围盒和人体区域掩膜。

进一步地，所述多任务深度卷积网络由三个子网络构成，具体为：第一个子网络为特征金字塔网络，通过输入RGB图片，进行多层次多尺度的卷积相关操作，提取出图片的抽象特征；第二个子网络为区域候选网络，输入为第一个子网络输出的抽象特征，通过卷积相关操作，生成人***置的候选框；第三个子网络为全卷积神经网络，输入为第二个子网络输出的人***置候选框内的抽象特征，通过卷积相关操作，生成人体区域掩模。

进一步地，所述步骤(2)包括以下子步骤：

(2.1)构建一个合成的人体深度图-三维特征点数据集具体为：自动合成若干三维人体模型，并将三维人体模型和人体动作骨骼数据绑定，通过蒙皮操作获得具有不同人体不同动作的三维人体模型，最后通过对所有三维人体模型进行深度图的绘制，获得人体深度图-三维特征点数据集；

(2.2)通过人体深度图-三维特征点数据集训练得到能够从深度图中估计人体关节点的深度卷积网络具体为：根据人体深度图-三维特征点数据集的标注信息，训练一个三维人体姿态估计网络，其输入为单通道的深度图片，输出包括人体三维关节点的xy热图和z距离响应图；三维人体姿态估计网络的基本结构是堆叠沙漏型网络，通过多次下采样和上采样的操作，利用卷积模块反复提取特征，最后输出两种输出图。

进一步地，所述步骤(3)包括两种情况：

(3.1)当输入待处理RGBD图片时，运行步骤(1)训练得到的人体检测分割网络并提取出相应的深度图，然后运行步骤(2)训练得到的三维人体姿态估计网络对人体进行三维关节点的估计，得到所有人体三维关节点的坐标，具体为：用户输入单幅RGBD图像，首先提取其中的RGB图片，运行所述人体检测分割网络得到人体所在位置和人体分割掩模；利用提取出的单人深度图像，估计出每个人相应的三维关节点局部坐标，根据相机参数以及各个局部坐标之间的关联，获得图像中人体的三维关节点的世界坐标；

(3.2)当输入连续视频场景时，根据步骤(3.1)得到前一帧中人体三维关节点坐标，然后根据前一帧的人体三维关节点坐标构造当前帧该人体三维关节点坐标的先验概率分布，再利用贝叶斯公式优化当前帧该人体三维关节点的xy热图，利用指数平滑优化当前帧该人体三维关节点的z距离响应图，最后获得当前帧优化后的人体三维关节点坐标。

本发明的有益效果是：本发明给出了从单个RGBD相机恢复多人三维姿态的鲁棒算法；在网络预训练阶段，只需要预标注好的RGB图片(公开数据集中可以非常容易得到)即可，而对于深度图可以使用虚拟合成的方法自动得到，因此预训练对数据标注的需求度很小；在实际运行阶段，同时考虑单帧姿态估计和多帧姿态估计，可以输出精确同时稳定的多人三维姿态。

附图说明

图1是基于RGBD相机的多人三维姿态估计方法的流程示意图；

图2是虚拟合成的带有不同动作的三维人体模型示意图；

图3是堆叠沙漏型网络结构示意图；

图4是四阶沙漏模块结构示意图；

图5是姿态估计网络输出示意图；其中，(a)为深度输入图，(b)为xy热图，(c)为z距离响应图；

图6是从输入RGBD图片到输出三维姿态的运行流程可视化图；

图7是本发明的具体实施例结果图；其中，(a)为输入RGB图像示意图及人体包围盒，(b)为输入深度图像叠加二维姿态估计结果示意图，(c)为输出的三维姿态骨骼结果示意图。

具体实施方式

本实施例采用的真实人体RGB图片数据集为公开数据集COCO(http://cocodataset.org/#home)，该数据集在图像检测和分割中被广泛使用，包含25万以上的RGB图片及对应的人体检测和分割标注信息；所述人体检测和分割标注信息为人体检测框和分割掩码图。本实施例采用的动作骨架数据集来自CMU Mocap数据库(http://mocap.cs.cmu.edu/)，也可以自行补充，存储的格式为bvh，包含了约2000个动作序列和31个人体关节点；所述动作序列包括行走、跳跃、攀爬、跑步、篮球、足球、拳击等常见的动作。

本发明基于RGBD相机的多人三维姿态估计方法，如图1所示，包括以下步骤：

(1)人体检测分割网络预训练：根据真实人体RGB图片数据集，训练支持人***置检测和语义分割的多任务深度卷积网络，得到人体检测分割网络，其输入为RGB图片，输出为人体所在位置的包围盒[x_min,y_min,x_max,y_max]和人体区域掩膜。其中，所述人体区域掩膜是一张二值图片，每个像素点的值表示属于人体或背景的概率，人体区域的像素值为1，背景区域的像素值为0；(x_min,y_min)、(x_max,y_max)分别是人体所在位置左上角坐标和右下角坐标。包围盒和区域掩膜的概念在图形检测和分割任务中已经广泛使用。

所述支持人***置检测和语义分割的多任务深度卷积网络由三个子网络构成，具体为：

(1.1)第一个子网络为特征金字塔网络(Feature Pyramid Networks，FPN)，通过输入RGB图片，进行多层次多尺度的卷积相关操作，提取出RGB图片的抽象特征，得到特征图。

所述金字塔特征提取网络以标准的残差神经网络(Residual Neural Network，ResNet)为整体的网络骨干，包含5个标准的残差下采样模块；每个模块包含一个下采样层L_i(i＝1～5)，步长为2，特征提取主干网络ResNet能够感受1、1/2、1/4、1/8、1/16的尺度范围；假设输入图像分辨率为512*512，经过5次下采样后，输入图分辨率降低，那么最小的特征尺度对应的图像大小为32*32。为了进一步增强网络的特征提取能力，在每个下采样层后增加一个融合分支，包含一个步长为2的上采样层和一个1*1的卷积层，每个融合分支将对应的下采样层L_i输出的特征放大2倍分辨率后，用标准的神经网络层concat操作将其与下采样层L_i-1输出的特征进行拼接，有效融合不同特征，提高网络表达能力，得到最终的特征图。

(1.2)第二个子网络为区域候选网络(Region Proposal Networks，RPN)，输入为步骤(1.1)中第一个子网络提取的特征图，通过卷积相关操作，生成人***置的候选框，具体为：

(1.2.1)类似于经典的目标检测方法Faster-RCNN，对于输入的特征图中的每个像素点设置5个固定框，这些固定框的中心设定在特征图的每个像素点上，且有长宽比的变化；5个固定框的长宽比分别为1:1、1:2、2:1、1:3、3:1。

(1.2.2)对输入的特征图进行两次卷积运算，第一次使用3*3的卷积对特征图的进一步提取中间层特征；第二次用输出通道数分别为固定框数量的两倍和四倍的两组1*1卷积对中间层特征进行处理，输出通道数为固定框数量两倍的卷积输出特征为属于人体的概率p的固定框得分值和属于背景的概率1-p的固定框得分值，输出通道数为固定框数量四倍的卷积输出特征为固定框修正值[Δx,Δy,Δw,Δh]，用于修正固定框的位置和大小；其中Δx是固定框中心的横坐标修正值，Δy是固定框中心的纵坐标修正值，Δw是固定框宽度的修正值，Δh是固定框高度的修正值。

(1.2.3)将属于人体的概率概率p＞0.5的固定框作为候选框，采用标准的非极大值抑制(non maximum suppression，NMS)算法合并这些候选框，具体为：首先对这些候选框按属于人体的概率p从大到小排序；然后，计算p值最大候选框与其它候选框的交并比IoU，删除与该候选框IoU>0.7的候选框，根据p值从大到小遍历剩余的候选框，重复以上操作，直到所有候选框都处理完毕，得到几个不重叠的候选框；最后根据保留的候选框得到每个人体所在位置的包围盒

其中上标(i)表示第i个检测到的人体，

分别为该人体候选框中左边界坐标、右边界坐标、上边界坐标、下边界坐标。

(1.3)第三个子网络为全卷积神经网络(Fully Convolutional Networks，FCN)，输入为位于第二个子网络输出的人体所在位置的包围盒内的特征图抽象特征，通过卷积相关操作，生成人体区域掩模，具体为：首先，截取特征图中人体所在位置的包围盒的区域得到特征子图，并通过双线性插值的方式调整为全卷积神经网络的输入尺寸；然后，使用一个全卷积神经网络对该特征子图进行语义分割，得到人体区域掩模；所述全卷积神经网络首先进行两次3x3,256通道的全卷积层处理，每个全卷积层后跟一个非线性变换Relu层，然后进行一次2倍的上采样层，最后通过一个1x1,2通道全卷积层，输出属于人体的概率图和不属于人体的概率图，当像素点属于人体的概率大于等于不属于人体的概率时，该点像素值为1，否则为0，最后得到人体区域掩膜。本实施例中全卷积神经网络的输入分辨率为14*14，输出分辨率为28*28。

(2)三维人体姿态估计网络预训练：构建一个合成的人体深度图-三维特征点数据集，然后通过该数据集训练能够从人体深度图中估计人体关节点的深度卷积网络，得到三维人体姿态估计网络。

(2.1)构建人体深度图-三维特征点数据集：

(2.1.1)首先使用三维人物角色建模软件Maya生成若干三维人体模型，这些模型包含了不同性别、不同年龄、不同身材、不同装饰(衣服、发型、帽子等)。

(2.1.2)使用动作骨架数据集，获得包含31个人体关节点的不同的人体姿态数据；将三维人体模型和动作骨架数据集进行绑定、蒙皮，配合动作骨架数据集中的动作序列，获得具有不同人体不同动作的三维人体模型(图2)；

(2.1.3)随机生成相机参数，包括相机高度、相机水平角度和人体渲染位置，渲染步骤(2.1.2)获得的三维人体模型，绘制所有三维人体模型的人体深度图，对应31个人体关节点坐标位置，获得人体深度图-三维特征点数据集；所述相机高度范围为1.6～1m，所述相机水平角度范围为0～15°，所述人体渲染位置范围为2～6m。本实施例中人体深度图-三维特征点数据集的总数据数量为300000张。

(2.2)训练估计人体关节点的深度卷积网络，具体为：根据步骤(2.1)得到的人体深度图-三维特征点数据集，训练三维人体姿态估计网络，其输入为单通道的人体深度图，输出为62通道的对应每个人体关节点的人体三维关节点的xy热图和z距离响应图。这个网络类似于现有的标准RGB图像人体2D关节点热图预测网络方法，只不过RGB图像只有2D监督信息，所以只输出xy热图，而深度图同时包含2D和3D监督信息，所以可以训练CNN输出包含xy热图和z距离响应图的多个通道信息。

如图3所示，所述三维人体姿态估计网络的基本结构是堆叠沙漏型网络(StackedHourglass Networks)，由多个四阶沙漏模块横向拼接堆叠而成，如图3所示，四阶沙漏模块之间设置中间监督，对每个关键点的xy热图和z距离响应图分别计算L2损失函数，加和得到总损失函数，用来监督四阶沙漏模块的有效收敛；如图4所示，所述四阶沙漏模块采用残差模块作为基本的结构单元，在残差模块的基础上构造一阶沙漏模块；所述一阶沙漏模块分成两个分支：第一个分支是在人体深度图的原尺度上的特征提取，由一个残差模块构成；第二个分支采用先下采样再上采样的策略，首先用最大池化的方式下采样至原尺度的1/2，然后连接三个残差模块，再用最近邻插值的方式上采样2倍到原尺度提取特征；将两个分支提取的特征相加，得到一阶沙漏模块的输出。在一阶沙漏模块的基础上，将其第二个分支的第二个残差模块替换成一阶沙漏模块，得到二阶沙漏模块，二阶沙漏模块在原尺度、1/2尺度、1/4尺度上进行特征提取；类似地嵌套下去，得到四阶沙漏型模块，四阶沙漏模块在原尺度、1/2尺度、1/4尺度、1/8尺度、1/16尺度上进行特征提取，并且沙漏模块的输入尺度和输出尺度相同，输出为人体三维关节点的xy热图和z距离响应图；进一步地，还可以得到多阶沙漏模块，多阶沙漏模块可以逐步改进输出的精度。与卷积神经网络中常用的卷积-修正线性激活函数模块，或者卷积-批标准化-修正线性激活函数模块相比，所述残差模块在多个卷积模块的基础上额外增加了旁路相加的结构。

如图5所示，所述xy热图表示在人体深度图的每个位置上存在关节点的概率估计；所述z距离响应图是对人体深度图的每个位置均预测一个z方向距离的估计值，z方向指深度方向，z距离指深度方向上的值；xy热图中关节点的概率估计最大的位置为模型预测的关节点，该关节点的深度为z距离响应图对应位置的值。虽然人体深度图是已知的，但是实时运行时深度相机采集的图像由于遮挡、噪音等因素，并不能直接用来得到关节点的z距离值。

(3)实际使用时可输入RGBD图片或视频，包括两种情况：

(3.1)输入RGBD图片时，运行步骤(1)训练的人体检测分割网络得到人体所在位置的包围盒和人体区域掩膜，并提取出单人深度图输入步骤(2)训练的三维人体姿态估计网络，得到所有人体三维关节点的xy热图和z距离响应图，最终计算出人体三维关节点的世界坐标。

(3.1.1)运行人体检测分割网络并提取深度图，具体为：输入单幅待处理RGBD图片，运行人体检测分割网络，根据RGBD图片预测RGB通道中第i(i＝1～N)个人体所在位置的包围盒

和对应的人体区域掩膜

其中，N为检测到的人体的数量。随后利用图像分割GraphCut算法提取RGBD图片的D通道深度图中第i个人体所在位置的包围盒

和对应的人体区域掩膜

得到深度图中的各人体部分。这一步骤的主要目的是为了排除背景、其他人体对于人体关节点预测的干扰。

(3.1.2)运行三维人体姿态估计网络估计人体三维关节点，具体为：根据步骤(3.1.1)得到的深度图中第i个人体所在位置的包围盒

和对应的人体区域掩膜

提取RGBD图片D通道中的单人深度图像，将单人深度图像输入步骤(2)训练的三维人体姿态估计网络，预测得到第i个人体的第k个关节点的xy热图

和z距离响应图

(3.1.3)通过下式计算第i个人体的第k个关节点的人体三维关节点的相对坐标

其中，

表示像素点(x,y)为第i个人体第k个关节点的概率，

是使

最大的坐标。

(3.1.4)通过下式计算第i个人体的第k个关节点的人体三维关节点的屏幕坐标

将步骤(3.1.4)的计算过程记为(x',y')＝f(x,y)。

(3.1.5)根据RGBD相机的内参和几何关系，通过下式计算得到xy坐标和z坐标的比例关系scale：

其中，w和h表示RGBD图片的宽度和高度，fov_x表示相机水平投影角，fov_y表示相机竖直投影角。

(3.1.6)通过下式计算得到以RGBD相机为原点的第i个人体的第k个关节点的人体三维关节点的世界坐标

(3.2)输入RGBD视频时，需在步骤(3.1)的基础上进一步优化，利用视频中多帧图片间的关联，使用贝叶斯方法和指数平滑的方式改善人体三维关节点世界坐标的预测结果

提升整体预测的精度和鲁棒性，流程如图6所示：

(3.2.1)通过下式计算第t-1帧(前一帧)中第i个人体第k个关节点的人体三维关节点的相对坐标

(3.2.2)根据步骤(3.1.3)的计算过程获得第t-1帧中第i个人体第k个关节点的人体三维关节点的屏幕坐标

(3.2.3)根据第t-1帧的屏幕坐标

构造第t帧(当前帧)时对应的屏幕坐标的先验概率分布

该概率分布是均值为

方差为

的正态分布，忽略二维高斯分布前面的常数：

其中，a是方差分布范围的大小，本实施例中xy热图的分辨率为64*64，a取2；定义

为屏幕坐标

的可靠度。

越大表示此次预测结果的可信程度越高，当上一帧结果的可靠度

越大的时候，先验概率的方差Σ越小，当前帧结果就有越大的概率集中在前一帧的预测结果处。

(3.2.4)利用贝叶斯公式，得到后验分布的概率图

优化

(3.2.5)通过下式计算当前帧的xy方向相对坐标

为：

本发明对于z方向距离的估计，同样考虑了之前帧的信息。由于前一帧和当前帧的人体所在位置的包围盒会有差别，导致当前帧的部分位置不能获得相应的z距离响应图信息，所以要对前一帧的z距离响应图采用最近邻插值的方式进行拓展。采用指数平滑的方式来缓解z方向距离预测的波动性；指数平滑实际上是一种特殊的加权移动平均方法，它对不同帧的值赋予的权值不等，且加大了近几帧的权数，使得预测值能够迅速反应新的变化。

(3.2.6)通过下式计算得到优化的当前帧z距离响应图

其中，

表示第t-1帧第i个人第k个关节点的z距离响应图，

表示第t帧第i个人第k个关节点的z距离响应图；设定

这种设定考虑了前帧预测结果的可信度，从而可以动态控制权数的变化，选择适合的权重0.8进行平滑处理。

(3.2.7)通过下式计算第i个人第k个关节点的当前帧的z方向距离结果得到相对坐标中的

(3.2.8)根据步骤(3.2.5)和(3.2.7)得到的相对坐标，按照步骤(3.1.4)～(3.1.6)得到第t帧第i个人第k个关节点的世界坐标。

本实施例具体结果如图7所示，从图7中可以看出，给定输入RGBD图像，本发明方法可以有效计算不同人的人体区域包围盒，提取每个包围盒内的人体深度图，进而计算每个人的三维关节点位置，从关节点的绘制结果可以看出，所得到的三维关节点位置符合真实人体的位置。

Claims

1.一种基于RGBD相机的多人三维姿态估计方法，其特征在于，包括以下步骤：

(1)人体检测分割网络预训练：根据真实人体RGB图片数据集以及对应的标注信息，训练得到支持人***置检测和语义分割的深度卷积网络。

(2)三维人体姿态估计网络预训练：通过构建一个合成的人体深度图-三维特征点数据集，然后通过该数据集训练得到能够从深度图中估计人体关节点的深度卷积网络三维人体姿态估计网络。

2.根据权利要求1所述基于RGBD相机的多人三维姿态估计方法，其特征在于，所述步骤(1)具体为：根据输入图片以及对应的标注信息，训练支持人***置检测和语义分割的深度卷积网络，其输入为RGB图片，输出为人体所在位置的包围盒和人体区域掩膜等。

3.根据权利要求2所述基于RGBD相机的多人三维姿态估计方法，其特征在于，所述多任务深度卷积网络由三个子网络构成，具体为：第一个子网络为特征金字塔网络，通过输入RGB图片，进行多层次多尺度的卷积相关操作，提取出图片的抽象特征；第二个子网络为区域候选网络，输入为第一个子网络输出的抽象特征，通过卷积相关操作，生成人***置的候选框；第三个子网络为全卷积神经网络，输入为第二个子网络输出的人***置候选框内的抽象特征，通过卷积相关操作，生成人体区域掩模。

4.根据权利要求3所述基于RGBD相机的多人三维姿态估计方法，其特征在于，所述步骤(2)包括以下子步骤：

5.根据权利要求4所述基于RGBD相机的多人三维姿态估计方法，其特征在于，所述步骤(3)包括两种情况：