CN111597976A - 一种基于rgbd相机的多人三维姿态估计方法 - Google Patents

一种基于rgbd相机的多人三维姿态估计方法 Download PDF

Info

Publication number
CN111597976A
CN111597976A CN202010408082.9A CN202010408082A CN111597976A CN 111597976 A CN111597976 A CN 111597976A CN 202010408082 A CN202010408082 A CN 202010408082A CN 111597976 A CN111597976 A CN 111597976A
Authority
CN
China
Prior art keywords
human body
dimensional
network
joint points
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010408082.9A
Other languages
English (en)
Inventor
秦昊
李冬平
杨颢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Faceunity Technology Co ltd
Original Assignee
Hangzhou Faceunity Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Faceunity Technology Co ltd filed Critical Hangzhou Faceunity Technology Co ltd
Priority to CN202010408082.9A priority Critical patent/CN111597976A/zh
Publication of CN111597976A publication Critical patent/CN111597976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于RGBD相机的多人三维姿态估计方法,该方法首先在真实人体数据集上,训练得到一个支持人***置检测和语义分割的深度卷积网络;然后构建一个虚拟合成的人体深度图‑三维特征点数据集,通过该数据集训练得到能够从深度图中估计人体关节点的深度卷积网络;最后用户输入RGBD图片或视频,即可得到所有人体三维关节点的世界坐标。本发明给出了从单个RGBD相机恢复多人三维姿态的鲁棒算法;在网络预训练阶段,只需要预标注好的RGB图片即可,而对于深度图可以使用虚拟合成的方法自动得到,因此预训练对数据标注的需求度很小;在实际运行阶段,同时考虑单帧姿态估计和多帧姿态估计,可以输出精确同时稳定的多人三维姿态。

Description

一种基于RGBD相机的多人三维姿态估计方法
技术领域
本发明属于机器视觉及深度学习技术领域,尤其涉及一种基于RGBD相机的多人三维姿态估计方法。
背景技术
人体姿态估计的目的是从输入图像中得到人体关节点的坐标,从而可以分析出人体关节方向、旋转等信息。人们还可以进一步地考虑时间序列的信息,观察一段时间内人体关节点的位置变化情况,进行更抽象层次的语义理解,从而实现动作识别、跟踪、预测等复杂的任务。人体姿态估计应用十分广泛,它常常被运用于游戏、娱乐、安防、医疗康复等领域。利用人体姿态估计的结果,人们不需要任何体感设备便可以感受体感游戏和人机交互的乐趣;电影厂商不需要额外辅助设备便可以驱动动画模型,完成便捷的动作序列生成;儿女也不再需要担心家中的老年人摔倒,却因信息通知不及时而错过送医救治的宝贵时间的意外情况。
人们对于人体姿态估计的问题已经有了很久的研究历史。早期的方法大多数都是在几何先验的基础上,识别人体的各个部分来进行匹配,从而计算出人体姿态。近年来,随着深度学习的迅速发展,卷积神经网络在计算机视觉方向的很多领域,如物体分类、物体检测、语义分割等任务上都取得了突破性的进展。同样人们利用深度学习的方法,在人体姿态估计的领域也获得了巨大的突破。很多基于卷积神经网络的人体姿态估计的方法都被提出,如DeepPose,Stacked Hourglass Networks,OpenPose等。相比于传统的视觉方法,这些方法通常是由大量数据训练的,可以利用数据中蕴含的丰富的先验信息,所以在精度上和稳定性上有了很大的提升。
由于目前大部分公开的数据集的输入都是彩色的RGB图像,所以目前大部分对于姿态估计的研究仅仅局限在二维的关节点的估计。不过,二维的关节点在应用领域上存在较大的局限性。比如二维关节点很难计算人体各个关节的平移、旋转信息,无法胜任很多涉及三维相关的场景。所以,人们其实对于三维人体姿态估计的研究有着相当迫切的需求。
要从传统的RGB图像中得到三维关节点的估计是一件非常困难的事情。深度相机的诞生,却给了人们提供了解决该问题的新思路,深度相机可以获得物体的深度值,从而对物体的距离信息有了感知。2009年,第一个大众普及的深度相机Kinect由微软推出,它具有人体姿态动态捕捉等功能。Kinect辅助了相应的Xbox360游戏平台,进一步拓展了游戏的操作模式,充分展现出了人机互动的概念。2017年,随着首个配备深度相机的手机IPhone X发布,深度相机集成到移动手机上也将慢慢成为一个趋势。因此基于RGBD相机的人体姿态估计方法将具有更佳的便捷性和普及性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于RGBD相机的多人三维姿态估计方法。本发明用于解决用户从RGBD图片输入中自动获得人体关节点坐标的问题。
本发明的目的是通过以下技术方案来实现的:一种基于RGBD相机的多人三维姿态估计方法,包括以下步骤:
(1)人体检测分割网络预训练:根据真实人体RGB图片数据集以及对应的标注信息,训练得到支持人***置检测和语义分割的深度卷积网络;
(2)三维人体姿态估计网络预训练:通过构建一个合成的人体深度图-三维特征点数据集,然后通过该数据集训练得到能够从深度图中估计人体关节点的深度卷积网络三维人体姿态估计网络;
(3)用户实际使用过程:当输入待处理RGBD图片时,运行步骤(1)训练得到的人体检测分割网络并提取出相应的深度图,运行步骤(2)训练得到的三维人体姿态估计网络对人体进行三维关节点的估计,得到所有人体三维关节点的世界坐标;当输入连续视频场景时,利用多帧图像信息的关联,使用贝叶斯方法和指数平滑的方式改善人体的三维关节点的世界坐标的预测结果。
进一步地,所述步骤(1)具体为:根据输入图片以及对应的标注信息,训练支持人***置检测和语义分割的深度卷积网络,其输入为RGB图片,输出为人体所在位置的包围盒和人体区域掩膜。
进一步地,所述多任务深度卷积网络由三个子网络构成,具体为:第一个子网络为特征金字塔网络,通过输入RGB图片,进行多层次多尺度的卷积相关操作,提取出图片的抽象特征;第二个子网络为区域候选网络,输入为第一个子网络输出的抽象特征,通过卷积相关操作,生成人***置的候选框;第三个子网络为全卷积神经网络,输入为第二个子网络输出的人***置候选框内的抽象特征,通过卷积相关操作,生成人体区域掩模。
进一步地,所述步骤(2)包括以下子步骤:
(2.1)构建一个合成的人体深度图-三维特征点数据集具体为:自动合成若干三维人体模型,并将三维人体模型和人体动作骨骼数据绑定,通过蒙皮操作获得具有不同人体不同动作的三维人体模型,最后通过对所有三维人体模型进行深度图的绘制,获得人体深度图-三维特征点数据集;
(2.2)通过人体深度图-三维特征点数据集训练得到能够从深度图中估计人体关节点的深度卷积网络具体为:根据人体深度图-三维特征点数据集的标注信息,训练一个三维人体姿态估计网络,其输入为单通道的深度图片,输出包括人体三维关节点的xy热图和z距离响应图;三维人体姿态估计网络的基本结构是堆叠沙漏型网络,通过多次下采样和上采样的操作,利用卷积模块反复提取特征,最后输出两种输出图。
进一步地,所述步骤(3)包括两种情况:
(3.1)当输入待处理RGBD图片时,运行步骤(1)训练得到的人体检测分割网络并提取出相应的深度图,然后运行步骤(2)训练得到的三维人体姿态估计网络对人体进行三维关节点的估计,得到所有人体三维关节点的坐标,具体为:用户输入单幅RGBD图像,首先提取其中的RGB图片,运行所述人体检测分割网络得到人体所在位置和人体分割掩模;利用提取出的单人深度图像,估计出每个人相应的三维关节点局部坐标,根据相机参数以及各个局部坐标之间的关联,获得图像中人体的三维关节点的世界坐标;
(3.2)当输入连续视频场景时,根据步骤(3.1)得到前一帧中人体三维关节点坐标,然后根据前一帧的人体三维关节点坐标构造当前帧该人体三维关节点坐标的先验概率分布,再利用贝叶斯公式优化当前帧该人体三维关节点的xy热图,利用指数平滑优化当前帧该人体三维关节点的z距离响应图,最后获得当前帧优化后的人体三维关节点坐标。
本发明的有益效果是:本发明给出了从单个RGBD相机恢复多人三维姿态的鲁棒算法;在网络预训练阶段,只需要预标注好的RGB图片(公开数据集中可以非常容易得到)即可,而对于深度图可以使用虚拟合成的方法自动得到,因此预训练对数据标注的需求度很小;在实际运行阶段,同时考虑单帧姿态估计和多帧姿态估计,可以输出精确同时稳定的多人三维姿态。
附图说明
图1是基于RGBD相机的多人三维姿态估计方法的流程示意图;
图2是虚拟合成的带有不同动作的三维人体模型示意图;
图3是堆叠沙漏型网络结构示意图;
图4是四阶沙漏模块结构示意图;
图5是姿态估计网络输出示意图;其中,(a)为深度输入图,(b)为xy热图,(c)为z距离响应图;
图6是从输入RGBD图片到输出三维姿态的运行流程可视化图;
图7是本发明的具体实施例结果图;其中,(a)为输入RGB图像示意图及人体包围盒,(b)为输入深度图像叠加二维姿态估计结果示意图,(c)为输出的三维姿态骨骼结果示意图。
具体实施方式
本实施例采用的真实人体RGB图片数据集为公开数据集COCO(http://cocodataset.org/#home),该数据集在图像检测和分割中被广泛使用,包含25万以上的RGB图片及对应的人体检测和分割标注信息;所述人体检测和分割标注信息为人体检测框和分割掩码图。本实施例采用的动作骨架数据集来自CMU Mocap数据库(http://mocap.cs.cmu.edu/),也可以自行补充,存储的格式为bvh,包含了约2000个动作序列和31个人体关节点;所述动作序列包括行走、跳跃、攀爬、跑步、篮球、足球、拳击等常见的动作。
本发明基于RGBD相机的多人三维姿态估计方法,如图1所示,包括以下步骤:
(1)人体检测分割网络预训练:根据真实人体RGB图片数据集,训练支持人***置检测和语义分割的多任务深度卷积网络,得到人体检测分割网络,其输入为RGB图片,输出为人体所在位置的包围盒[xmin,ymin,xmax,ymax]和人体区域掩膜。其中,所述人体区域掩膜是一张二值图片,每个像素点的值表示属于人体或背景的概率,人体区域的像素值为1,背景区域的像素值为0;(xmin,ymin)、(xmax,ymax)分别是人体所在位置左上角坐标和右下角坐标。包围盒和区域掩膜的概念在图形检测和分割任务中已经广泛使用。
所述支持人***置检测和语义分割的多任务深度卷积网络由三个子网络构成,具体为:
(1.1)第一个子网络为特征金字塔网络(Feature Pyramid Networks,FPN),通过输入RGB图片,进行多层次多尺度的卷积相关操作,提取出RGB图片的抽象特征,得到特征图。
所述金字塔特征提取网络以标准的残差神经网络(Residual Neural Network,ResNet)为整体的网络骨干,包含5个标准的残差下采样模块;每个模块包含一个下采样层Li(i=1~5),步长为2,特征提取主干网络ResNet能够感受1、1/2、1/4、1/8、1/16的尺度范围;假设输入图像分辨率为512*512,经过5次下采样后,输入图分辨率降低,那么最小的特征尺度对应的图像大小为32*32。为了进一步增强网络的特征提取能力,在每个下采样层后增加一个融合分支,包含一个步长为2的上采样层和一个1*1的卷积层,每个融合分支将对应的下采样层Li输出的特征放大2倍分辨率后,用标准的神经网络层concat操作将其与下采样层Li-1输出的特征进行拼接,有效融合不同特征,提高网络表达能力,得到最终的特征图。
(1.2)第二个子网络为区域候选网络(Region Proposal Networks,RPN),输入为步骤(1.1)中第一个子网络提取的特征图,通过卷积相关操作,生成人***置的候选框,具体为:
(1.2.1)类似于经典的目标检测方法Faster-RCNN,对于输入的特征图中的每个像素点设置5个固定框,这些固定框的中心设定在特征图的每个像素点上,且有长宽比的变化;5个固定框的长宽比分别为1:1、1:2、2:1、1:3、3:1。
(1.2.2)对输入的特征图进行两次卷积运算,第一次使用3*3的卷积对特征图的进一步提取中间层特征;第二次用输出通道数分别为固定框数量的两倍和四倍的两组1*1卷积对中间层特征进行处理,输出通道数为固定框数量两倍的卷积输出特征为属于人体的概率p的固定框得分值和属于背景的概率1-p的固定框得分值,输出通道数为固定框数量四倍的卷积输出特征为固定框修正值[Δx,Δy,Δw,Δh],用于修正固定框的位置和大小;其中Δx是固定框中心的横坐标修正值,Δy是固定框中心的纵坐标修正值,Δw是固定框宽度的修正值,Δh是固定框高度的修正值。
(1.2.3)将属于人体的概率概率p>0.5的固定框作为候选框,采用标准的非极大值抑制(non maximum suppression,NMS)算法合并这些候选框,具体为:首先对这些候选框按属于人体的概率p从大到小排序;然后,计算p值最大候选框与其它候选框的交并比IoU,删除与该候选框IoU>0.7的候选框,根据p值从大到小遍历剩余的候选框,重复以上操作,直到所有候选框都处理完毕,得到几个不重叠的候选框;最后根据保留的候选框得到每个人体所在位置的包围盒
Figure BDA0002492081630000051
其中上标(i)表示第i个检测到的人体,
Figure BDA0002492081630000052
Figure BDA0002492081630000053
分别为该人体候选框中左边界坐标、右边界坐标、上边界坐标、下边界坐标。
(1.3)第三个子网络为全卷积神经网络(Fully Convolutional Networks,FCN),输入为位于第二个子网络输出的人体所在位置的包围盒内的特征图抽象特征,通过卷积相关操作,生成人体区域掩模,具体为:首先,截取特征图中人体所在位置的包围盒的区域得到特征子图,并通过双线性插值的方式调整为全卷积神经网络的输入尺寸;然后,使用一个全卷积神经网络对该特征子图进行语义分割,得到人体区域掩模;所述全卷积神经网络首先进行两次3x3,256通道的全卷积层处理,每个全卷积层后跟一个非线性变换Relu层,然后进行一次2倍的上采样层,最后通过一个1x1,2通道全卷积层,输出属于人体的概率图和不属于人体的概率图,当像素点属于人体的概率大于等于不属于人体的概率时,该点像素值为1,否则为0,最后得到人体区域掩膜。本实施例中全卷积神经网络的输入分辨率为14*14,输出分辨率为28*28。
(2)三维人体姿态估计网络预训练:构建一个合成的人体深度图-三维特征点数据集,然后通过该数据集训练能够从人体深度图中估计人体关节点的深度卷积网络,得到三维人体姿态估计网络。
(2.1)构建人体深度图-三维特征点数据集:
(2.1.1)首先使用三维人物角色建模软件Maya生成若干三维人体模型,这些模型包含了不同性别、不同年龄、不同身材、不同装饰(衣服、发型、帽子等)。
(2.1.2)使用动作骨架数据集,获得包含31个人体关节点的不同的人体姿态数据;将三维人体模型和动作骨架数据集进行绑定、蒙皮,配合动作骨架数据集中的动作序列,获得具有不同人体不同动作的三维人体模型(图2);
(2.1.3)随机生成相机参数,包括相机高度、相机水平角度和人体渲染位置,渲染步骤(2.1.2)获得的三维人体模型,绘制所有三维人体模型的人体深度图,对应31个人体关节点坐标位置,获得人体深度图-三维特征点数据集;所述相机高度范围为1.6~1m,所述相机水平角度范围为0~15°,所述人体渲染位置范围为2~6m。本实施例中人体深度图-三维特征点数据集的总数据数量为300000张。
(2.2)训练估计人体关节点的深度卷积网络,具体为:根据步骤(2.1)得到的人体深度图-三维特征点数据集,训练三维人体姿态估计网络,其输入为单通道的人体深度图,输出为62通道的对应每个人体关节点的人体三维关节点的xy热图和z距离响应图。这个网络类似于现有的标准RGB图像人体2D关节点热图预测网络方法,只不过RGB图像只有2D监督信息,所以只输出xy热图,而深度图同时包含2D和3D监督信息,所以可以训练CNN输出包含xy热图和z距离响应图的多个通道信息。
如图3所示,所述三维人体姿态估计网络的基本结构是堆叠沙漏型网络(StackedHourglass Networks),由多个四阶沙漏模块横向拼接堆叠而成,如图3所示,四阶沙漏模块之间设置中间监督,对每个关键点的xy热图和z距离响应图分别计算L2损失函数,加和得到总损失函数,用来监督四阶沙漏模块的有效收敛;如图4所示,所述四阶沙漏模块采用残差模块作为基本的结构单元,在残差模块的基础上构造一阶沙漏模块;所述一阶沙漏模块分成两个分支:第一个分支是在人体深度图的原尺度上的特征提取,由一个残差模块构成;第二个分支采用先下采样再上采样的策略,首先用最大池化的方式下采样至原尺度的1/2,然后连接三个残差模块,再用最近邻插值的方式上采样2倍到原尺度提取特征;将两个分支提取的特征相加,得到一阶沙漏模块的输出。在一阶沙漏模块的基础上,将其第二个分支的第二个残差模块替换成一阶沙漏模块,得到二阶沙漏模块,二阶沙漏模块在原尺度、1/2尺度、1/4尺度上进行特征提取;类似地嵌套下去,得到四阶沙漏型模块,四阶沙漏模块在原尺度、1/2尺度、1/4尺度、1/8尺度、1/16尺度上进行特征提取,并且沙漏模块的输入尺度和输出尺度相同,输出为人体三维关节点的xy热图和z距离响应图;进一步地,还可以得到多阶沙漏模块,多阶沙漏模块可以逐步改进输出的精度。与卷积神经网络中常用的卷积-修正线性激活函数模块,或者卷积-批标准化-修正线性激活函数模块相比,所述残差模块在多个卷积模块的基础上额外增加了旁路相加的结构。
如图5所示,所述xy热图表示在人体深度图的每个位置上存在关节点的概率估计;所述z距离响应图是对人体深度图的每个位置均预测一个z方向距离的估计值,z方向指深度方向,z距离指深度方向上的值;xy热图中关节点的概率估计最大的位置为模型预测的关节点,该关节点的深度为z距离响应图对应位置的值。虽然人体深度图是已知的,但是实时运行时深度相机采集的图像由于遮挡、噪音等因素,并不能直接用来得到关节点的z距离值。
(3)实际使用时可输入RGBD图片或视频,包括两种情况:
(3.1)输入RGBD图片时,运行步骤(1)训练的人体检测分割网络得到人体所在位置的包围盒和人体区域掩膜,并提取出单人深度图输入步骤(2)训练的三维人体姿态估计网络,得到所有人体三维关节点的xy热图和z距离响应图,最终计算出人体三维关节点的世界坐标。
(3.1.1)运行人体检测分割网络并提取深度图,具体为:输入单幅待处理RGBD图片,运行人体检测分割网络,根据RGBD图片预测RGB通道中第i(i=1~N)个人体所在位置的包围盒
Figure BDA0002492081630000071
和对应的人体区域掩膜
Figure BDA0002492081630000072
其中,N为检测到的人体的数量。随后利用图像分割GraphCut算法提取RGBD图片的D通道深度图中第i个人体所在位置的包围盒
Figure BDA0002492081630000073
和对应的人体区域掩膜
Figure BDA0002492081630000074
得到深度图中的各人体部分。这一步骤的主要目的是为了排除背景、其他人体对于人体关节点预测的干扰。
(3.1.2)运行三维人体姿态估计网络估计人体三维关节点,具体为:根据步骤(3.1.1)得到的深度图中第i个人体所在位置的包围盒
Figure BDA0002492081630000075
和对应的人体区域掩膜
Figure BDA0002492081630000076
提取RGBD图片D通道中的单人深度图像,将单人深度图像输入步骤(2)训练的三维人体姿态估计网络,预测得到第i个人体的第k个关节点的xy热图
Figure BDA0002492081630000077
和z距离响应图
Figure BDA0002492081630000078
(3.1.3)通过下式计算第i个人体的第k个关节点的人体三维关节点的相对坐标
Figure BDA0002492081630000079
Figure BDA00024920816300000710
Figure BDA00024920816300000711
其中,
Figure BDA00024920816300000712
表示像素点(x,y)为第i个人体第k个关节点的概率,
Figure BDA00024920816300000713
是使
Figure BDA00024920816300000714
最大的坐标。
(3.1.4)通过下式计算第i个人体的第k个关节点的人体三维关节点的屏幕坐标
Figure BDA00024920816300000715
Figure BDA00024920816300000716
Figure BDA00024920816300000717
将步骤(3.1.4)的计算过程记为(x',y')=f(x,y)。
(3.1.5)根据RGBD相机的内参和几何关系,通过下式计算得到xy坐标和z坐标的比例关系scale:
Figure BDA0002492081630000081
其中,w和h表示RGBD图片的宽度和高度,fovx表示相机水平投影角,fovy表示相机竖直投影角。
(3.1.6)通过下式计算得到以RGBD相机为原点的第i个人体的第k个关节点的人体三维关节点的世界坐标
Figure BDA0002492081630000082
Figure BDA0002492081630000083
Figure BDA0002492081630000084
Figure BDA0002492081630000085
(3.2)输入RGBD视频时,需在步骤(3.1)的基础上进一步优化,利用视频中多帧图片间的关联,使用贝叶斯方法和指数平滑的方式改善人体三维关节点世界坐标的预测结果
Figure BDA0002492081630000086
提升整体预测的精度和鲁棒性,流程如图6所示:
(3.2.1)通过下式计算第t-1帧(前一帧)中第i个人体第k个关节点的人体三维关节点的相对坐标
Figure BDA0002492081630000087
Figure BDA0002492081630000088
Figure BDA0002492081630000089
(3.2.2)根据步骤(3.1.3)的计算过程获得第t-1帧中第i个人体第k个关节点的人体三维关节点的屏幕坐标
Figure BDA00024920816300000810
(3.2.3)根据第t-1帧的屏幕坐标
Figure BDA00024920816300000811
构造第t帧(当前帧)时对应的屏幕坐标的先验概率分布
Figure BDA00024920816300000812
该概率分布是均值为
Figure BDA00024920816300000813
方差为
Figure BDA00024920816300000814
的正态分布,忽略二维高斯分布前面的常数:
Figure BDA00024920816300000815
其中,a是方差分布范围的大小,本实施例中xy热图的分辨率为64*64,a取2;定义
Figure BDA00024920816300000816
为屏幕坐标
Figure BDA00024920816300000817
的可靠度。
Figure BDA00024920816300000818
越大表示此次预测结果的可信程度越高,当上一帧结果的可靠度
Figure BDA00024920816300000819
越大的时候,先验概率的方差Σ越小,当前帧结果就有越大的概率集中在前一帧的预测结果处。
(3.2.4)利用贝叶斯公式,得到后验分布的概率图
Figure BDA0002492081630000091
优化
Figure BDA0002492081630000092
Figure BDA0002492081630000093
(3.2.5)通过下式计算当前帧的xy方向相对坐标
Figure BDA0002492081630000094
为:
Figure BDA0002492081630000095
本发明对于z方向距离的估计,同样考虑了之前帧的信息。由于前一帧和当前帧的人体所在位置的包围盒会有差别,导致当前帧的部分位置不能获得相应的z距离响应图信息,所以要对前一帧的z距离响应图采用最近邻插值的方式进行拓展。采用指数平滑的方式来缓解z方向距离预测的波动性;指数平滑实际上是一种特殊的加权移动平均方法,它对不同帧的值赋予的权值不等,且加大了近几帧的权数,使得预测值能够迅速反应新的变化。
(3.2.6)通过下式计算得到优化的当前帧z距离响应图
Figure BDA0002492081630000096
Figure BDA0002492081630000097
其中,
Figure BDA0002492081630000098
表示第t-1帧第i个人第k个关节点的z距离响应图,
Figure BDA0002492081630000099
表示第t帧第i个人第k个关节点的z距离响应图;设定
Figure BDA00024920816300000910
这种设定考虑了前帧预测结果的可信度,从而可以动态控制权数的变化,选择适合的权重0.8进行平滑处理。
(3.2.7)通过下式计算第i个人第k个关节点的当前帧的z方向距离结果得到相对坐标中的
Figure BDA00024920816300000911
Figure BDA00024920816300000912
(3.2.8)根据步骤(3.2.5)和(3.2.7)得到的相对坐标,按照步骤(3.1.4)~(3.1.6)得到第t帧第i个人第k个关节点的世界坐标。
本实施例具体结果如图7所示,从图7中可以看出,给定输入RGBD图像,本发明方法可以有效计算不同人的人体区域包围盒,提取每个包围盒内的人体深度图,进而计算每个人的三维关节点位置,从关节点的绘制结果可以看出,所得到的三维关节点位置符合真实人体的位置。

Claims (5)

1.一种基于RGBD相机的多人三维姿态估计方法,其特征在于,包括以下步骤:
(1)人体检测分割网络预训练:根据真实人体RGB图片数据集以及对应的标注信息,训练得到支持人***置检测和语义分割的深度卷积网络。
(2)三维人体姿态估计网络预训练:通过构建一个合成的人体深度图-三维特征点数据集,然后通过该数据集训练得到能够从深度图中估计人体关节点的深度卷积网络三维人体姿态估计网络。
(3)用户实际使用过程:当输入待处理RGBD图片时,运行步骤(1)训练得到的人体检测分割网络并提取出相应的深度图,运行步骤(2)训练得到的三维人体姿态估计网络对人体进行三维关节点的估计,得到所有人体三维关节点的世界坐标;当输入连续视频场景时,利用多帧图像信息的关联,使用贝叶斯方法和指数平滑的方式改善人体的三维关节点的世界坐标的预测结果。
2.根据权利要求1所述基于RGBD相机的多人三维姿态估计方法,其特征在于,所述步骤(1)具体为:根据输入图片以及对应的标注信息,训练支持人***置检测和语义分割的深度卷积网络,其输入为RGB图片,输出为人体所在位置的包围盒和人体区域掩膜等。
3.根据权利要求2所述基于RGBD相机的多人三维姿态估计方法,其特征在于,所述多任务深度卷积网络由三个子网络构成,具体为:第一个子网络为特征金字塔网络,通过输入RGB图片,进行多层次多尺度的卷积相关操作,提取出图片的抽象特征;第二个子网络为区域候选网络,输入为第一个子网络输出的抽象特征,通过卷积相关操作,生成人***置的候选框;第三个子网络为全卷积神经网络,输入为第二个子网络输出的人***置候选框内的抽象特征,通过卷积相关操作,生成人体区域掩模。
4.根据权利要求3所述基于RGBD相机的多人三维姿态估计方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)构建一个合成的人体深度图-三维特征点数据集具体为:自动合成若干三维人体模型,并将三维人体模型和人体动作骨骼数据绑定,通过蒙皮操作获得具有不同人体不同动作的三维人体模型,最后通过对所有三维人体模型进行深度图的绘制,获得人体深度图-三维特征点数据集;
(2.2)通过人体深度图-三维特征点数据集训练得到能够从深度图中估计人体关节点的深度卷积网络具体为:根据人体深度图-三维特征点数据集的标注信息,训练一个三维人体姿态估计网络,其输入为单通道的深度图片,输出包括人体三维关节点的xy热图和z距离响应图;三维人体姿态估计网络的基本结构是堆叠沙漏型网络,通过多次下采样和上采样的操作,利用卷积模块反复提取特征,最后输出两种输出图。
5.根据权利要求4所述基于RGBD相机的多人三维姿态估计方法,其特征在于,所述步骤(3)包括两种情况:
(3.1)当输入待处理RGBD图片时,运行步骤(1)训练得到的人体检测分割网络并提取出相应的深度图,然后运行步骤(2)训练得到的三维人体姿态估计网络对人体进行三维关节点的估计,得到所有人体三维关节点的坐标,具体为:用户输入单幅RGBD图像,首先提取其中的RGB图片,运行所述人体检测分割网络得到人体所在位置和人体分割掩模;利用提取出的单人深度图像,估计出每个人相应的三维关节点局部坐标,根据相机参数以及各个局部坐标之间的关联,获得图像中人体的三维关节点的世界坐标;
(3.2)当输入连续视频场景时,根据步骤(3.1)得到前一帧中人体三维关节点坐标,然后根据前一帧的人体三维关节点坐标构造当前帧该人体三维关节点坐标的先验概率分布,再利用贝叶斯公式优化当前帧该人体三维关节点的xy热图,利用指数平滑优化当前帧该人体三维关节点的z距离响应图,最后获得当前帧优化后的人体三维关节点坐标。
CN202010408082.9A 2020-05-14 2020-05-14 一种基于rgbd相机的多人三维姿态估计方法 Pending CN111597976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010408082.9A CN111597976A (zh) 2020-05-14 2020-05-14 一种基于rgbd相机的多人三维姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010408082.9A CN111597976A (zh) 2020-05-14 2020-05-14 一种基于rgbd相机的多人三维姿态估计方法

Publications (1)

Publication Number Publication Date
CN111597976A true CN111597976A (zh) 2020-08-28

Family

ID=72190853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010408082.9A Pending CN111597976A (zh) 2020-05-14 2020-05-14 一种基于rgbd相机的多人三维姿态估计方法

Country Status (1)

Country Link
CN (1) CN111597976A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101259A (zh) * 2020-09-21 2020-12-18 中国农业大学 一种基于堆叠沙漏网络的单只猪体姿态识别***及方法
CN112258555A (zh) * 2020-10-15 2021-01-22 佛山科学技术学院 实时姿态估计运动分析方法、***、计算机设备及存储介质
CN112487974A (zh) * 2020-11-30 2021-03-12 叠境数字科技(上海)有限公司 视频流多人分割方法、***、芯片及介质
CN112560618A (zh) * 2020-12-06 2021-03-26 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112651316A (zh) * 2020-12-18 2021-04-13 上海交通大学 二维和三维多人姿态估计***及方法
CN112785692A (zh) * 2021-01-29 2021-05-11 东南大学 一种基于深度uv先验的单视角多人人体重建方法
CN112800905A (zh) * 2021-01-19 2021-05-14 浙江光珀智能科技有限公司 一种基于rgbd相机姿态估计的引体向上计数方法
CN112836652A (zh) * 2021-02-05 2021-05-25 浙江工业大学 一种基于事件相机的多阶段人体姿态估计方法
CN113191243A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN113221626A (zh) * 2021-03-04 2021-08-06 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113313720A (zh) * 2021-06-30 2021-08-27 上海商汤科技开发有限公司 对象分割方法和装置
CN113327320A (zh) * 2021-06-30 2021-08-31 北京字跳网络技术有限公司 三维模型重建方法、装置、设备及计算机可读存储介质
CN113379904A (zh) * 2021-07-05 2021-09-10 东南大学 一种基于隐空间运动编码的多人人体模型重建方法
CN113421328A (zh) * 2021-05-27 2021-09-21 中国人民解放军军事科学院国防科技创新研究院 一种三维人体虚拟化重建方法及装置
CN114529605A (zh) * 2022-02-16 2022-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN116957919A (zh) * 2023-07-12 2023-10-27 珠海凌烟阁芯片科技有限公司 一种基于rgbd图像的3d人体模型生成方法及***
CN117372628A (zh) * 2023-12-01 2024-01-09 北京渲光科技有限公司 单视图室内场景三维重建方法、***及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846403A (zh) * 2017-01-04 2017-06-13 北京未动科技有限公司 一种三维空间中手部定位的方法、装置及智能设备
CN107066935A (zh) * 2017-01-25 2017-08-18 网易(杭州)网络有限公司 基于深度学习的手部姿态估计方法及装置
CN107423698A (zh) * 2017-07-14 2017-12-01 华中科技大学 一种基于并联卷积神经网络的手势估计方法
CN109003301A (zh) * 2018-07-06 2018-12-14 东南大学 一种基于OpenPose和Kinect的人体姿态估计方法及康复训练***
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN110188598A (zh) * 2019-04-13 2019-08-30 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110490171A (zh) * 2019-08-26 2019-11-22 睿云联(厦门)网络通讯技术有限公司 一种危险姿态识别方法、装置、计算机设备及存储介质
CN110516670A (zh) * 2019-08-26 2019-11-29 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846403A (zh) * 2017-01-04 2017-06-13 北京未动科技有限公司 一种三维空间中手部定位的方法、装置及智能设备
CN107066935A (zh) * 2017-01-25 2017-08-18 网易(杭州)网络有限公司 基于深度学习的手部姿态估计方法及装置
CN107423698A (zh) * 2017-07-14 2017-12-01 华中科技大学 一种基于并联卷积神经网络的手势估计方法
CN109003301A (zh) * 2018-07-06 2018-12-14 东南大学 一种基于OpenPose和Kinect的人体姿态估计方法及康复训练***
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN110188598A (zh) * 2019-04-13 2019-08-30 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110490171A (zh) * 2019-08-26 2019-11-22 睿云联(厦门)网络通讯技术有限公司 一种危险姿态识别方法、装置、计算机设备及存储介质
CN110516670A (zh) * 2019-08-26 2019-11-29 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUSHYANT MEHTA 等: "VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera", 《HTTPS://ARXIV.ORG/ABS/1705.01583》 *
陈国军 等: "基于RGBD的实时头部姿态估计", 《图学学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101259A (zh) * 2020-09-21 2020-12-18 中国农业大学 一种基于堆叠沙漏网络的单只猪体姿态识别***及方法
CN112258555A (zh) * 2020-10-15 2021-01-22 佛山科学技术学院 实时姿态估计运动分析方法、***、计算机设备及存储介质
CN112487974A (zh) * 2020-11-30 2021-03-12 叠境数字科技(上海)有限公司 视频流多人分割方法、***、芯片及介质
CN112560618A (zh) * 2020-12-06 2021-03-26 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112560618B (zh) * 2020-12-06 2022-09-16 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112651316A (zh) * 2020-12-18 2021-04-13 上海交通大学 二维和三维多人姿态估计***及方法
CN112651316B (zh) * 2020-12-18 2022-07-15 上海交通大学 二维和三维多人姿态估计***及方法
CN112800905A (zh) * 2021-01-19 2021-05-14 浙江光珀智能科技有限公司 一种基于rgbd相机姿态估计的引体向上计数方法
CN112785692A (zh) * 2021-01-29 2021-05-11 东南大学 一种基于深度uv先验的单视角多人人体重建方法
CN112836652A (zh) * 2021-02-05 2021-05-25 浙江工业大学 一种基于事件相机的多阶段人体姿态估计方法
CN112836652B (zh) * 2021-02-05 2024-04-19 浙江工业大学 一种基于事件相机的多阶段人体姿态估计方法
CN113221626A (zh) * 2021-03-04 2021-08-06 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113221626B (zh) * 2021-03-04 2023-10-20 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113191243A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN113421328A (zh) * 2021-05-27 2021-09-21 中国人民解放军军事科学院国防科技创新研究院 一种三维人体虚拟化重建方法及装置
CN113313720A (zh) * 2021-06-30 2021-08-27 上海商汤科技开发有限公司 对象分割方法和装置
CN113327320A (zh) * 2021-06-30 2021-08-31 北京字跳网络技术有限公司 三维模型重建方法、装置、设备及计算机可读存储介质
CN113313720B (zh) * 2021-06-30 2024-03-29 上海商汤科技开发有限公司 对象分割方法和装置
CN113379904A (zh) * 2021-07-05 2021-09-10 东南大学 一种基于隐空间运动编码的多人人体模型重建方法
CN114529605A (zh) * 2022-02-16 2022-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN114529605B (zh) * 2022-02-16 2024-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN116957919A (zh) * 2023-07-12 2023-10-27 珠海凌烟阁芯片科技有限公司 一种基于rgbd图像的3d人体模型生成方法及***
CN116957919B (zh) * 2023-07-12 2024-07-16 珠海凌烟阁芯片科技有限公司 一种基于rgbd图像的3d人体模型生成方法及***
CN117372628A (zh) * 2023-12-01 2024-01-09 北京渲光科技有限公司 单视图室内场景三维重建方法、***及设备
CN117372628B (zh) * 2023-12-01 2024-02-23 北京渲光科技有限公司 单视图室内场景三维重建方法、***及设备

Similar Documents

Publication Publication Date Title
CN111597976A (zh) 一种基于rgbd相机的多人三维姿态估计方法
US11727596B1 (en) Controllable video characters with natural motions extracted from real-world videos
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
KR100483806B1 (ko) 예제동작을 이용한 영상기반 동작복원방법
CN110033505A (zh) 一种基于深度学习的人体动作捕捉与虚拟动画生成方法
CN106997618A (zh) 一种虚拟现实与真实场景融合的方法
US11648477B2 (en) Systems and methods for generating a model of a character from one or more images
US11138743B2 (en) Method and apparatus for a synchronous motion of a human body model
CN112258555A (zh) 实时姿态估计运动分析方法、***、计算机设备及存储介质
CN111402412A (zh) 数据采集方法及装置、设备、存储介质
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及***
CN112819951A (zh) 一种基于深度图修复的带遮挡三维人体重建方法
CN113538667A (zh) 动态场景光场重建方法及装置
CN107016730A (zh) 一种虚拟现实与真实场景融合的装置
CN115331265A (zh) 姿态检测模型的训练方法和数字人的驱动方法、装置
CN113724155A (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
CN107018400B (zh) 一种将2d视频转换成3d视频的方法
CN110415322B (zh) 虚拟对象模型的动作指令的生成方法和装置
CN112308977A (zh) 视频处理方法、视频处理装置和存储介质
CN106981100A (zh) 一种虚拟现实与真实场景融合的装置
CN113920270B (zh) 一种基于多视角全景的布局重建方法及其***
CN114943746A (zh) 一种利用深度信息辅助和轮廓增强损失的运动迁移方法
CN114882405A (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法
JP4221681B2 (ja) ジェスチャ認識装置
CN113112586A (zh) 基于先验模型的实时人体三维重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200828