CN114495164A

CN114495164A - 基于单张图像的多人3d人体姿态估计方法和装置以及设备

Info

Publication number: CN114495164A
Application number: CN202210044310.8A
Authority: CN
Inventors: 王子恬; 曲晓超; 刘偲; 陈云鹏; 聂学成
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-13

Abstract

本发明公开了一种基于单张图像的多人3D人体姿态估计方法、装置、设备及存储介质，其包括：获取输入的待估计图像，对所述待估计图像进行特征提取，生成特征图，其中，所述待估计图像为包括多个人物的二维单张图像；基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归；将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果。能够减少模型复杂度和计算消耗，提高处理精度。

Description

基于单张图像的多人3D人体姿态估计方法和装置以及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及基于单张图像的多人3D人体姿态估计方法和装置以及设备。

背景技术

3D人体姿态估计可以广泛应用于VR/AR、游戏、运动分析、虚拟试衣等技术中。相对于基于多视角图像的3D人体姿态估计而言，基于单张图像的3D人体姿态估计对于部署环境、部署成本、设备计算量的要求更为友好，因此具有更广泛的应用场景。

现有主流的基于单张图像的多人3D人体姿态方法是基于深度人工神经网络的方法，该种方法具有自顶向下的两阶段流程：第一阶段先使用人体检测器检测出图像中的所有人物及其位置；第二阶段对检测出的人物分别应用单人姿态估计器以及深度估计器得到空间中多人的3D姿态估计结果。这种两阶段方法具有较高的计算消耗，时间复杂度与场景中的人物数量线性相关，在场景中人数增加的情况下模型推理时间也急剧增加，在现实复杂场景中难以应用。

发明内容

有鉴于此，本发明的目的在于提出一种基于单张图像的多人3D人体姿态估计方法和装置以及设备，旨在解决现有的模型复杂度高和计算消耗大的问题。

为实现上述目的，本发明提供一种基于单张图像的多人3D人体姿态估计方法，所述方法包括：

获取输入的待估计图像，对所述待估计图像进行特征提取，生成特征图，其中，所述待估计图像为包括多个人物的二维单张图像；

基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归；

将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果。

优选的，所述对基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归，包括：

基于二分类判断所述特征图中每一像素是否属于对应人物的人体中心，将最靠近所述人体中心在图像平面中二维投影的N个像素定义为正样本像素，其余像素定义为负样本像素，以通过预测所述中心置信度图进行图像平面内的人体中心定位；其中，所述正样本像素的置信度设为1，所述负样本像素的置信度设为0；

通过回归所述正样本像素至所述人体中心的偏移确定二维人体中心至三维人体中心的映射，以通过预测所述中心坐标图进行相机坐标系下的人体中心坐标回归；

将所述三维人体中心回归至对应人物的人体关键点位置，确定所述人体中心至人体关键点的偏移，以通过预测所述相对中心的人体关键点偏移回归图进行相对中心的人体关键点偏移回归。

优选的，还包括：

根据

对所述中心置信度图的预测进行优化，其中，C_H表示所述中心置信度图，

表示目标中心置信度图。

优选的，还包括：

根据

对所述中心坐标图的预测进行优化，其中，U_root[p]表示所述中心坐标图，

表示目标中心坐标图。

优选的，还包括：

根据

对所述相对中心的人体关键点偏移回归图的预测进行优化，其中，U_k[p]表示所述相对中心的人体关键点偏移回归图，

表示目标相对中心的人体关键点偏移回归图。

优选的，还包括：

对所述相对中心的人体关键点偏移回归图的预测进行递归式更新，利用normalizing flow模型对所述人体关键点位置在空间中的概率分布进行学习，并利用最大似然估计目标函数进行优化。

优选的，将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果，包括：

通过选取所述中心置信度图上预测得分值大于预设值的像素作为所述二维人体中心，并在对应位置选取所述中心坐标图以及所述相对中心的人体关键点偏移回归图所对应的值进行相加，得到各个人物对应的3D人体姿态估计结果。

为实现上述目的，本发明还提供一种基于单张图像的多人3D人体姿态估计装置，所述装置包括：

特征提取单元，用于获取输入的待估计图像，对所述待估计图像进行特征提取，生成特征图，其中，所述待估计图像为包括多个人物的单张图像；

预测单元，用于基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归；

姿态估计单元，用于将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果。

为了实现上述目的，本发明还提出一种设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种基于单张图像的多人3D人体姿态估计方法的步骤。

为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种基于单张图像的多人3D人体姿态估计方法的步骤。

有益效果：

以上方案，通过输入一张二维图像至模型中，将所输出的中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行结合处理，直接得到各个人物对应的3D人体姿态估计结果，无需额外的人体检测器与串行的单人姿态估计器，通过将多人3D人体姿态估计分解为多个并行任务，减少模型复杂度和计算消耗，并且提高处理精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于单张图像的多人3D人体姿态估计方法的流程示意图。

图2为本发明一实施例提供的3D人体姿态估计网络的网络框架示意图。

图3为本发明一实施例提供的3D人体姿态估计可视化结果示意图。

图4为本发明一实施例提供的一种基于单张图像的多人3D人体姿态估计装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

以下结合实施例详细阐述本发明的内容。

在现有中除了上述的自顶向下的方法，还有另一种流派的方法包括具有自底向上的两阶段流程：第一阶段先对场景中所有的人物关键点进行定位，该定位步骤不区分人物实例；第二阶段通过关联聚类算法将属于各个人物的关键点分别聚合，组成最终的多人3D姿态。该种方法的运算时间与场景中人物数量相关性较低，但是需要复杂设计的第二阶段关键点聚类算法，且精度通常劣于自顶向下的多人3D姿态估计方法。综上，现有的3D人体姿态估计方法都需要较高的计算消耗，且精度较低。

基于此，本发明提出一种基于单张图像的多人3D人体姿态估计方法，通过将多人3D人体姿态估计转化为图像平面内的人体中心定位，相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归。此外，通过引入normalizing flow建模3D关键点位置在空间中的内在分布，引导回归模型的学习，并通过递归式更新不断优化相对中心的人体关键点偏移预测，使得3D人体姿态估计结果更加准确。本方法基于卷积神经网络实现，在一次网络前向过程中产生三种中间输出：中心置信度图(center confidence map)、中心坐标图(center coordinate map)、相对中心的人体关键点偏移回归图(center-relativejointoffsetmap)，将这些中间输出结合起来即能产生多人3D人体姿态估计结果，无需其它复杂的关联聚类方法。能够减少模型复杂度和计算消耗，提高处理精度。

参照图1所示为本发明一实施例提供的一种基于单张图像的多人3D人体姿态估计方法的流程示意图。

本实施例中，该方法基于预先训练得到的3D人体姿态估计网络实现，其中，该3D人体姿态估计网络的网络框架包括特征提取主干网络、特征金字塔网络、中心置信度预测子网络、中心坐标预测子网络、人体关键点偏移回归子网络，可参照图2所示的3D人体姿态估计网络的网络框架示意图。其中，该方法包括：

S11，获取输入的待估计图像，对所述待估计图像进行特征提取，生成特征图，其中，所述待估计图像为包括多个人物的二维单张图像。

S12，基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归。

S13，将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果。

其中，将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果，包括：

进一步的，所述对所述特征图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归的预测，包括：

S12-1，基于二分类判断所述特征图中每一像素是否属于对应人物的人体中心，将最靠近所述人体中心在图像平面中二维投影的N个像素定义为正样本像素，其余像素定义为负样本像素，以通过预测所述中心置信度图进行图像平面内的人体中心定位；其中，所述正样本像素的置信度设为1，所述负样本像素的置信度设为0。

进一步的，还包括：

根据

表示目标中心置信度图。

在本实施例中，给定图像中的人物H_i＝{j_ik＝(x_ik,y_ik,d_ik)|k∈[1…K]}，其中j_ik为第i个人物的第k个关键点的3D坐标。人体关键点3D坐标j由图像平面内的二维坐标(x,y)与相机坐标系内的深度值d共同表示。对于每个人物H，定义其人体中心为根关键点(通常设置为骨盆关键点)的位置，记为j_root。将图像平面内的人体中心定位问题视为二分类问题，即判断特征图中每一像素是否属于某一人体中心j_root，其中，最靠近每个人体中心j_root在图像平面中二维投影(x_root,y_root)的N_pos个像素都将被视为正样本像素(置信度为1)，其它像素视为负样本像素(置信度为0)。在本实施例中，通过预测中心置信度图来进行人体中心定位。具体地，预测的中心置信度图为C_H,目标中心置信度图为

使用Focal loss优化中心置信度的预测，公式如下：

S12-2，通过回归所述正样本像素至所述人体中心的偏移确定二维人体中心至三维人体中心的映射，以通过预测所述中心坐标图进行相机坐标系下的人体中心坐标回归。

进一步的，还包括：

根据

表示目标中心坐标图。

在本实施例中，对于人体中心j_root＝(x_root,y_root,d_root)及其对应的某一图像平面内的正样本像素p＝(x_p,y_p)，算法回归从p到人体中心坐标j_root的偏移(x_root-x_p,y_root-y_p,d_root)。通过预测中心坐标图U_root来表示从每个检出的二维人体中心到三维人体中心的映射。具体地，设置回归目标为

算法使用L1loss优化中心坐标回归的预测，公式如下：

S12-3，将所述三维人体中心回归至对应人物的人体关键点位置，确定所述人体中心至人体关键点的偏移，以通过预测所述相对中心的人体关键点偏移回归图进行相对中心的人体关键点偏移回归。

进一步的，还包括：

根据

表示目标相对中心的人体关键点偏移回归图。

在本实施例中，直接从3D人体中心回归各个人体关键点位置，设置从人体中心j_root到第k个人体关键点j_k的偏移为j_root-j_k＝(x_root-x_k,y_root-y_k,d_root-d_k)。预测相对中心的人体关键点偏移回归图U_joint＝{U₁,…,U_K}，其中，U_k编码了从人体中心到人体关键点j_k的偏移。对于每一人物H的一正样本像素p，目标相对中心的人体关键点偏移回归图为

算法使用L1 loss优化中心坐标回归的预测，公式如下：

进一步的，还包括：

在本实施例中，对于正样本像素p，为了更好建模人体关键点位置u＝U[p]，对预测的人体关键点偏移进行递归式更新：

U[p]←U[p]+U[p+U[p]]

进一步还采用normalizing flow模型学习人体关键点位置的概率分布。记normalizing flow模型参数为θ，学习到的人体关键点位置分布为u～P(u|θ)，算法采用最大似然估计目标函数优化人体关键点位置分布的学习，其中

为目标人体关键点位置：

另外，在大规模公开多人3D姿态基准数据集上验证提出上述方法的有效性。CMUPanoptic是一个大规模室内场景多人3D姿态数据集，含有多个摄像头捕捉的65段日常活动视频。依照之前的评价协议在CMU Panoptic数据集上进行方法验证，采用来自(Haggling,Mafia,Ultimatum,Pizza)四种活动的9600帧上计算MPJPE(mean perjointpositionerror)。实验结果如下表所示：

进一步的，本实施例通过输入一张二维图像，输出中心置信度图C_H，中心坐标图U_root以及相对中心的人体关键点偏移回归图U_joint。通过选取中心置信度图C_H上预测得分大于一定阈值的像素作为二维人体中心，并在相应位置取中心坐标图U_root以及相对中心的人体关键点偏移回归图U_joint上的对应值，相加得到各个人物3D人体姿态估计结果。算法采用姿态非极大值抑制来减少冗余的预测。可视化结果如图3所示。

综上，本实施例将多人3D姿态估计分解为多个并行任务，避免了之前两阶段方法的串行操作，减少模型复杂度和计算消耗。此外，本实施例精度优于现有的自底向上方法和大部分自顶向下方法，且模型推理时间不受场景中人数影响，为多人3D人体姿态估计的应用提供一种新的解决方案。

参照图4所示为本发明一实施例提供的一种基于单张图像的多人3D人体姿态估计装置的结构示意图。

在本实施例中，该装置40包括：

特征提取单元41，用于获取输入的待估计图像，对所述待估计图像进行特征提取，生成特征图，其中，所述待估计图像为包括多个人物的单张图像；

预测单元42，用于基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归；

姿态估计单元43，用于将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果。

进一步的，所述预测单元42，包括：

第一预测单元，用于基于二分类判断所述特征图中每一像素是否属于对应人物的人体中心，将最靠近所述人体中心在图像平面中二维投影的N个像素定义为正样本像素，其余像素定义为负样本像素，以通过预测所述中心置信度图进行图像平面内的人体中心定位；其中，所述正样本像素的置信度设为1，所述负样本像素的置信度设为0；

第二预测单元，用于通过回归所述正样本像素至所述人体中心的偏移确定二维人体中心至三维人体中心的映射，以通过预测所述中心坐标图进行相机坐标系下的人体中心坐标回归；

第三预测单元，用于将所述三维人体中心回归至对应人物的人体关键点位置，确定所述人体中心至人体关键点的偏移，以通过预测所述相对中心的人体关键点偏移回归图进行相对中心的人体关键点偏移回归。

进一步的，还包括：

根据

表示目标中心置信度图。

进一步的，还包括：

根据

表示目标中心坐标图。

进一步的，还包括：

根据

表示目标相对中心的人体关键点偏移回归图。

进一步的，还包括：

进一步的，所述姿态估计单元43，还用于：

该装置40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种设备，该设备包括如上所述的基于单张图像的多人3D人体姿态估计装置，其中，基于单张图像的多人3D人体姿态估计装置可以采用图4实施例的结构，其对应地，可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。

所述设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的基于单张图像的多人3D人体姿态估计方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于单张图像的多人3D人体姿态估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于单张图像的多人3D人体姿态估计方法，其特征在于，所述基于所述特征图分别通过预测中心置信度图、中心坐标图以及相对中心的人体关键点偏移回归图进行图像平面内的人体中心定位、相机坐标系下的人体中心坐标回归以及相对中心的人体关键点偏移回归，包括：

3.根据权利要求2所述的一种基于单张图像的多人3D人体姿态估计方法，其特征在于，还包括：

根据

表示目标中心置信度图。

4.根据权利要求2所述的一种基于单张图像的多人3D人体姿态估计方法，其特征在于，还包括：

根据

表示目标中心坐标图。

5.根据权利要求2所述的一种基于单张图像的多人3D人体姿态估计方法，其特征在于，还包括：

根据

表示目标相对中心的人体关键点偏移回归图。

6.根据权利要求2所述的一种基于单张图像的多人3D人体姿态估计方法，其特征在于，还包括：

对所述相对中心的人体关键点偏移回归图的预测进行递归式更新，利用normalizingflow模型对所述人体关键点位置在空间中的概率分布进行学习，并利用最大似然估计目标函数进行优化。

7.根据权利要求2所述的一种基于单张图像的多人3D人体姿态估计方法，其特征在于，将所输出的所述中心置信度图、所述中心坐标图以及所述相对中心的人体关键点偏移回归图进行结合处理，得到各个人物对应的3D人体姿态估计结果，包括：

8.一种基于单张图像的多人3D人体姿态估计装置，其特征在于，所述装置包括：

9.一种设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至7任意一项所述的一种基于单张图像的多人3D人体姿态估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述的一种基于单张图像的多人3D人体姿态估计方法的步骤。