CN111339870B

CN111339870B - 一种针对物体遮挡场景的人体形状和姿态估计方法

Info

Publication number: CN111339870B
Application number: CN202010099358.XA
Authority: CN
Inventors: 王雁刚; 黄步真; 张天舒; 彭聪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2022-04-26
Anticipated expiration: 2040-02-18
Also published as: CN111339870A

Abstract

本发明公开了一种针对物体遮挡场景的人体形状和姿态估计方法,将计算得到的弱透视投影参数转换到相机坐标下，获得不带遮挡情况下包含人体形状信息的UV图像；对人体二维图像加入随机物体图片遮挡，并获取遮挡情况下的人体掩膜；将获得的虚拟遮挡数据训练编码‑解码结构的UV贴图修复网络；输入真实物体遮挡人体彩色图像，以掩膜图像作为真值构建编码‑解码结构的显著性检测网络；使用编码得到的隐空间特征监督人体编码网络训练；输入遮挡人体彩色图像，得到完整的UV图像；使用UV图像与人体三维模型的顶点对应关系恢复出遮挡情况下的人体三维模型。本发明将遮挡人体形状估计转化为二维UV贴图的图像修复问题，进而实现遮挡场景下人体的实时、动态重建。

Description

一种针对物体遮挡场景的人体形状和姿态估计方法

技术领域

本发明属于计算机视觉及三维视觉领域，具体涉及一种针对物体遮挡场景下的人体形状和姿态估计方法。

背景技术

从单张图像中估计三维人体的形状和姿态是近年来三维视觉领域的一个研究热点。它在人体运动捕捉、虚拟试衣和人体动画等虚拟现实技术的应用方面有着重要的作用。近年来，深度学习技术简化了从单张图像恢复人体整体形状的求解方式，特别是在SMPL模型被提出并得到广泛应用以后，单目图像三维人体形状和姿态估计经历了多个阶段的蓬勃发展，包括(1)通过匹配二维视觉特征来优化求解SMPL参数；使(2)用卷积神经网络(CNN)直接回归SMPL参数；(3)利用二维UV贴图表示SMPL表面三维点，进而将三维人体形状估计转化成基于CNN的图像翻译问题。深度神经网络凭借其准确性和运行效率成为三维人体形状估计的主流方法，它们能够在特定场景下获得较好的重建结果。然而，现有方法大多都没有考虑人和物体之间的遮挡这一常见的现象。如果不明确考虑遮挡，这类方法就不能直接转移到处理遮挡场景下的人体估计。这导致它们对带遮挡甚至轻微物体遮挡的场景十分敏感，难以满足现实需求。

一直以来，遮挡场景下的人体三维形状和姿态估计始终是领域内的难点，其主要原因有：(1)对象遮挡会在网络训练中引入严重的歧义，并且导致可直接利用的图像特征大大减少，从而影响完整的三维人体形状估计效果。(2)由于遮挡物体的普遍性和随机性，网络难以准确分割图像中人体和遮挡对象所在的像素，导致重建结果受到干扰。

发明内容

发明目的：针对遮挡场景下的人体形状和姿态估计问题，本发明提出一种针对物体遮挡场景的人体形状和姿态估计方法，将遮挡人体形状估计转化为二维UV贴图的图像修复问题，进而实现遮挡场景下人体的实时、动态重建。

技术方案：本发明所述的一种针对物体遮挡场景的人体形状和姿态估计方法，包括以下步骤：

(1)在数据准备阶段，利用三维人体数据集人体三维关节点与二维关节点之间的对应关系计算弱透视投影参数；

(2)根据计算得到的弱透视投影参数，通过三维旋转、平移将人体三维模型转换到相机坐标下；

(3)将相机坐标下的人体三维模型顶点x,y,z坐标值归一化到-0.5至0.5范围内后存入UV贴图的R,G,B三个通道中，获得不带遮挡情况下包含人体形状信息的UV贴图；

(4)对人体二维图像加入随机物体图片遮挡，并获取遮挡情况下的人体掩膜；

(5)重复步骤(3)，使用弱透视投影后落在掩膜区域之外的三维点为视觉遮挡下的三维点，其x,y,z坐标固定设为-0.5，获得对应遮挡下的UV贴图；

(6)在训练阶段，基于步骤(1)至步骤(5)获得的虚拟遮挡数据训练编码-解码结构的UV贴图修复网络；所述修复网络以与完整人体UV图之间的L1损失，相邻像素之间的拉普拉斯平滑项以及UV连接处一致性作为约束；

(7)利用真实物体遮挡人体彩色图像作为输入，以掩膜图像作为真值构建编码-解码结构的显著性检测网络；

(8)将遮挡人体彩色图片与显著性图连接后送入人体编码网络，同时将相应遮挡下的UV贴图使用步骤(6)训练好的修复网络进行编码，使用编码得到的隐空间特征监督人体编码网络训练；

(9)在测试阶段，输入遮挡人体彩色图像，经由显著性检测网络，人体编码网络，将人体编码网络编码得到的隐空间特征值使用修复网络的解码器解码，得到完整的UV图像；

(10)使用UV贴图与人体三维模型的顶点对应关系恢复出遮挡情况下的人体三维模型。

进一步地，步骤(6)所述的UV贴图修复网络使用ResNet作为编码器，以堆叠的反卷积层作为解码器。

进一步地，所述步骤(6)通过以下公式实现：

L＝L₁+λL_tv+μL_p

其中，λ，μ为权重，L_tv为拉普拉斯平滑项，L_p为UV连接处一致性约束：

其中，V_b是对应多个UV像素的模型顶点点集，P(v)是模型顶点v对应的UV像素值。

进一步地，步骤(8)所述的人体编码网络使用VGG-19结构。

进一步地，步骤(9)所述的彩色图像为从单目彩色相机获取的经过预处理的人体遮挡图像。

有益效果：与现有技术相比，本发明的有益效果为：1、使用大量虚拟遮挡数据训练图像修复网络，使得整体框架对各类遮挡均具有较好鲁棒性；2、使用显著性检测，减小遮挡和背景等无效图像特征对重建的干扰，增强对图像中人体与遮挡边缘的鲁棒性，避免了分割不准确的问题；3、使用隐空间一致性的方法，将人体三维形状估计转化为图像修复问题，降低了求解复杂度；4、提出一种UV连接处一致性约束，提高了以UV贴图进行人体重建方法中重建结果的平滑度。

附图说明

图1为本发明的流程图；

图2为人体信息UV图生成示意图；

图3为人体形状信息UV图；

图4为人体三维模型示意图；

图5为显著性检测网络结构图；

图6为本发明的重建结果示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述。如图1所示，本发明所述的一种针对物体遮挡场景的人体形状和姿态估计方法实现过程如下：

如图2所示，人体信息UV图的生成方式为：在数据准备阶段，首先利用三维人体数据集中人体三维模型关节点与二维关节点之间的投影关系计算弱透视投影参数并通过三维平移、旋转等操作将人体模型转化到相机坐标下，将相机坐标下的人体三维模型顶点x,y,z坐标归一化到[-0.5，0.5]并存入UV贴图的R,G,B三个通道，由此获得如图3所示的不带遮挡情况下包含人体形状信息的UV贴图。为了获取遮挡人体UV图，对人体二维图像加入随机物体图片遮挡，并获取遮挡情况下的人体掩膜。将人体三维模型通过投影参数向人体掩膜进行弱透视投影。落在掩膜区域之外的三维点为视觉遮挡下的三维点，其x,y,z坐标固定设为-0.5，掩膜区域内的仍然存入顶点三维坐标，从而获得如图4中所示的对应遮挡下的UV贴图。由于此步骤中遮挡UV图与完整UV图均与彩色图像的背景无关，因此可以使用虚拟遮挡产生大量遮挡UV数据，增强网络的鲁棒性。

使用获取得到的大量遮挡UV图和完整UV图，训练以ResNet-50为编码器，堆叠反卷积层为解码器的图像修复网络。该网络能够遮挡UV图编码为高维人体特征，并从高维特征中解码出完整的人体形状UV图。网络以与完整人体UV图之间的L1 loss，相邻像素之间的拉普拉斯平滑项以及UV连接处一致性作为约束。

其具体公式为：

L＝L₁+λL_tv+μL_p

其中，V_b是对应多个UV像素的模型顶点点集，P(v)是模型顶点v对应的UV像素值。该约束能够使如图3所示的UV图的各个部分平滑连接。

以真实物体遮挡人体彩色图像作为输入，掩膜图像作为真值构建编码-解码结构的显著性检测网络，经过如图5所示的显著性图检测网络后，得到该遮挡图像的人体显著性图。将遮挡人体彩色图片与显著性图连接后送入人体编码网络，同时将相应遮挡下的UV贴图使用训练好的修复网络进行编码，使用编码得到的隐空间特征监督人体编码网络训练。此处输入以VGG-19为基本结构的人体编码网络。使用与该彩色图像对应的遮挡UV图，经过图像修复网络的编码器得到的高维特征作为人体编码网络的监督。同时如图5，以不同缩放比例的人体掩膜作为显著性网络的监督，对两个网络进行端到端训练。

完成网络训练之后，直接从单目彩色相机获取人体遮挡图像并进行裁剪、缩放等预处理。将预处理后的彩色图像输入网络，直接经过显著性检测网络，人体编码网络后得到高维人体特征。将人体编码网络编码得到的隐空间特征值使用修复网络的解码器解码得到高维特征，然后使用图像修复网络的解码器解码得到完整UV图像。经过UV贴图与人体三维模型之间的对应关系，可以直接从人体形状UV图中恢复出对应形状的人体三维模型。图6中展示了遮挡人体彩色图像经过该方法的重建结果。

Claims

1.一种针对物体遮挡场景的人体形状和姿态估计方法，其特征在于，包括以下步骤：

(6)在训练阶段，基于步骤(1)至步骤(5)获得的虚拟遮挡数据训练编码-解码结构的UV贴图修复网络；所述修复网络以与完整人体UV图之间的L₁损失，相邻像素之间的拉普拉斯平滑项以及UV连接处一致性作为约束；

2.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法，其特征在于，步骤(6)所述的UV贴图修复网络使用ResNet作为编码器，以堆叠的反卷积层作为解码器。

3.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法，其特征在于，所述步骤(6)通过以下公式实现：

L＝L₁+λL_tv+μL_p

4.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法，其特征在于，步骤(8)所述的人体编码网络使用VGG-19结构。

5.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法，其特征在于，步骤(9)所述的彩色图像为从单目彩色相机获取的经过预处理的人体遮挡图像。