CN115049764A

CN115049764A - Smpl参数预测模型的训练方法、装置、设备及介质

Info

Publication number: CN115049764A
Application number: CN202210727053.8A
Authority: CN
Inventors: 孙红岩
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-13
Anticipated expiration: 2042-06-24
Also published as: CN115049764B

Abstract

本发明涉及计算机视觉领域，尤其涉及一种SMPL参数预测模型的训练方法、装置、设备及介质。所述方法包括：获取包括人体的图片并构造训练集；将训练集中的图片输入至SMPL参数预测模型以得到SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态；基于L1损失函数分别计算SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态对应的第一预测损失；基于预设关节转动正则化函数计算各个关节点的第二预测损失；以每张图片为单位利用第一预测损失与第二预测损失的加和反向训练SMPL参数预测模型。本发明的方案在训练过程中加入相对关节转动正则化项，防止远端关节相对根节点转动过小而出现的失真现象。

Description

SMPL参数预测模型的训练方法、装置、设备及介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种SMPL参数预测模型的训练方法、装置、设备及介质。

背景技术

近些年由于元宇宙概念的兴起，跟随而来虚拟人技术的数字人、虚拟形象的开发逐渐成为了新兴的技术议题，除了用于虚拟真人类形象，数字人的开发技术也能让角色表情更加生动，并且与观众互动，在整个数字人的技术栈中，虚拟人的3D重建是制作虚拟人不可缺少的一环，传统的数字人3D重建主要用到静态扫描建模的方法，即通过相机阵列来采集物体的深度信息来生成点云，把这些点按照顺序连接成三角面，就生成了计算机环境下三维模型网格的基本单位。

随着深度学习的兴起，越来越多的使用深度学习的方法进行建模，从建模方式来看深度学习建模主要分为3D形状表示重建、单视图重建、多视图重建、可微分渲染重建等方法，其中单视图3D重建又分为自底向上和自顶向下两种方法，其中自顶向下方法的主要思想是先进行实例分割，然后检测包围框内的单个人的关键点。其中人体bounding boxes通常由Mask R-CNN网络直接生成，在Mask R-CNN上添加一个关键点检测分支，并在ROIPooling之后重用特征，在得出三维模板模型的参数后进行网格的生成。而自底向上方法则是检测图像中所有人的身体关节，然后将他们分组，并学习连接关键点的二维向量场，最后通过三维模板模型进行3D重建。

三维模板模型常用的模型主要有三种，分别是SCAPE、SMPL(Skinned Multi-Person Linear Model，多人蒙皮线性模型)、SMPL-X三种，其中SCAPE假设人体是由若干三角形构成的，不同姿态下人体的变形，其本质可以认为是三角形的变形，而SMPL可以理解为是一个基础模型和在该模型基础上进行形变的总和，在形变基础上进行PCA，得到刻画形状的低维参数——形状参数(shape)(刻画人体高矮胖瘦、头身比等比例)；同时，使用运动树表示人体的姿势，即运动树每个关节点和父节点的旋转关系，该关系可以表示为三维向量，最终每个关节点的局部旋转向量构成了SMPL模型的姿势参数(pose)，采用这种方式进行建模可以兼容目前市面上的绝大多数渲染器并且参数可以直接在Unity或者Maya等建模软件中使用，而SMPL-X则是在SMPL基础上发展而来，在3D建模身体的同时也进行手部和面部的建模。SMPL的输入参数有85个，分别是：体型参数beta：10姿态参数theta：72相机参数cam：3，再通过已训练好的参数进行计算，即可得出一个3Dmesh，其中包含：顶点数：6890面元数：13776，通过使用SMPL参数模型表示人体，可以使得在shape和pose双重影响下的人体更加能够仿真人在不同体型和姿势下关节点的偏移。

现有的3D重建的方法主要有3DcrowdNet、ROMP、BMP、HMR等方法，其中3DCrowdNet利用二维的姿态输出特征来使得相互有遮挡的人进行分离，并从二维姿态特征来推导出SMPL参数，而ROMP建立一个排斥场来使得相互靠近的两个人通过“互斥”作用彼此推离。以上几种方法都可以做到将需要重建的目标人物进行推离来重建3D人物，3D多人重建面临的最重要的两个挑战，人体重叠渗透和深度顺序不一致性在上述论文中也存在一定的解决办法。虽然上述方法都能够一定程度的解决人体重叠渗透和深度顺序不一致性等问题，但其重建出的模型都存在不同程度的失真或漏检，使得建模出来的人物“难以理解”，例如请参照图1A至图1D所示。

出现上述问题，究其原因主要有两点，其一是因为3D重建人物与场景信息交互性的缺乏，身处场景中的人物无法理解自己在做什么，导致在进行3D重建时，重建出来的图片和场景具有一定的违和感。其二是由于3D建模后人物本身的真实性缺失，在3D建模中使用的形状和姿态参数能够重建3D人物，但姿势参数无法真实进行仿真虚拟人，骨架的关节点一般定义为铰链运动的节点。请参照图1E所示人体的骨架一般被设置为树的结构，这样保证能够对每个节点定义一个父节点，直至根节点(0SpineBase)，而根节点可认为是世界坐标的原点。在标准姿态下，各关节点的坐标都和世界坐标系方向一致。然而，按照坐标系计算出来的运动，当节点和根节点距离较远(例如图1A足球场或图1C篮球场的人体大幅度展开)且Head节点(15节点)和Neck节点(12节点)的转动相对过小时无法判断人物是进行低头还是正常姿态。

发明内容

有鉴于此，有必要针对单视图3D重建中，由于远端节点相对根节点转动过小从而导致3D重建中出现的动作失真现象，提供一种SMPL参数预测模型的训练方法、装置、设备及介质。

根据本发明的第一方面，提供了一种SMPL参数预测模型的训练方法，所述方法包括：

获取包括人体的图片并构造训练集；

将所述训练集中的图片输入至SMPL参数预测模型以得到SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态；

基于L1损失函数分别计算SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态对应的第一预测损失；

基于预设关节转动正则化函数计算各个关节点的第二预测损失；

以每张图片为单位利用第一预测损失与第二预测损失的加和反向训练SMPL参数预测模型。

在一些实施例中，所述SMPL参数预测模型包括特征提取网络和关节点回归网络，

所述特征提取网络构造为：

通过卷积和池化对输入的图片进行特征提取以生成早期特征；

利用预设高斯函数将输入的图片转换成高斯热图；

对所述早期特征图和所述高斯热图进行组合，并使用ResNet50网络进行特征提取以得到组合特征图；

所述关节点回归网络构造为：

利用第一支路使所述组合特征图依次经过卷积、reshape&soft argmax和gridsample生成3D姿态；

利用第二支路使所述组合特征经过grid sample后生成3D形态；

将所述3D姿态和所述3D形态进行组合生成3D特征图；

使所述3D特征图依次经过卷积、图卷积神经网络和reshape后输入至四个MLP网络，其中，四个MLP网络分别输出SMPL姿态、SMPL形态、图片全局转动角度和相机姿态。

在一些实施例中，所述预设高斯函数为：

其中，(x,y)为经过图片像素点坐标，(px,py)为经过图片中对应的GT关键点坐标，σ＝2.5。

在一些实施例中，所述图卷积网络的计算公式为：

其中，

为图卷积网络的输出，F_i ⁱⁿ为第i个关节点的图特征，

是

在(j,i)的数值，

是归一化邻接矩阵，计算公式为

A为根据骨骼层次建立的邻接矩阵，D为(A+I)特征向量，I为单位矩阵，σ_ReLU为线性整流函数，σ_BN为批归一化函数，W_i为网络的权重。

在一些实施例中，所述L1损失函数为：

其中，f(x_i)表示SMPL姿态或SMPL形态或图片全局转动角度或3D姿态或相机姿态预测值，y_i表示SMPL姿态或SMPL形态或图片全局转动角度或3D姿态或相机姿态预测值的期望值。

在一些实施例中，所述预设关节转动正则化函数为：

其中，

为当前关节点和根关节点在球坐标系中相对于z轴的角度标签θ，

为当前关节点和根关节点在球坐标系中相对于x轴的相角度标签

则为网络预测值，k_i为权重值，且头关节、脖子关节相对于根节点角度权重是其它关节相对于根节点角度权重的2倍至5倍。

在一些实施例中，所述获取包括人体的图片并构造训练集的步骤包括：

获取Human36M数据集；

采用图片尺度随机变换、随机旋转和颜色随机变换中的至少一种对所述Human36M数据集中的图片进行处理以得到处理后的图片；

由处理前和处理后的图片共同构成训练集。

根据本发明的第二方面，提供了一种SMPL参数预测模型的训练装置，所述装置包括：

获取模块，配置用于获取包括人体的图片并构造训练集；

输入模型，配置用于将所述训练集中的图片输入至SMPL参数预测模型以得到SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态；

第一计算模块，配置用于基于L1损失函数分别计算SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态对应的第一预测损失；

第二计算模块，配置用于基于预设关节转动正则化函数计算各个关节点的第二预测损失；

训练模块，配置用于以每张图片为单位利用第一预测损失与第二预测损失的加和反向训练SMPL参数预测模型。

根据本发明的第三方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行前述的SMPL参数预测模型的训练方法。

根据本发明的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时执行前述的SMPL参数预测模型的训练方法。

上述一种SMPL参数预测模型的训练方法，通过在神经网络进行单视图3D重建的训练过程中加入相对关节转动正则化项，为人物关节的转向和转动角度提供正则化约束，从而防止远端关节相对根节点转动过小而出现的失真现象。

此外，本发明还提供了一种SMPL参数预测模型的训练装置、一种计算机设备和一种计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1A为足球比赛图像；

图1B为图1A的人体三维建模示意图；

图1C为篮球比赛图像；

图1D为图1C的人体三维建模示意图；

图1E为人体的骨架树的结构；

图2为本发明一个实施例提供的一种SMPL参数预测模型的训练方法的流程示意图；

图3为本发明一个实施例提供的SMPL参数预测模型的整体架构示意图；

图4为本发明一个实施例提供的球坐标系表示关节转动示意图；

图5为本发明一个实施例提供的实际使用时SMPL参数预测模型的整体架构示意图；

图6为本发明一个实施例提供的一种SMPL参数预测模型的训练装置的结构示意图；

图7为本发明另一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在一个实施例中，请参照图2所示，本发明提供了一种SMPL参数预测模型的训练方法100，具体来说，所述方法包括：

步骤101，获取包括人体的图片并构造训练集；

步骤102，将所述训练集中的图片输入至SMPL参数预测模型以得到SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态；

步骤103，基于L1损失函数分别计算SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态对应的第一预测损失；

步骤104，基于预设关节转动正则化函数计算各个关节点的第二预测损失；

步骤105，以每张图片为单位利用第一预测损失与第二预测损失的加和反向训练SMPL参数预测模型。

在一些实施例中，请参照图3所示，所述SMPL参数预测模型包括特征提取网络和关节点回归网络，

所述特征提取网络构造为：

利用预设高斯函数将输入的图片转换成高斯热图；

所述关节点回归网络构造为：

利用第二支路使所述组合特征经过grid sample后生成3D形态；

将所述3D姿态和所述3D形态进行组合生成3D特征图；

在一些实施例中，所述预设高斯函数为：

在一些实施例中，所述图卷积网络的计算公式为：

其中，

为图卷积网络的输出，F_i ⁱⁿ为第i个关节点的图特征，

是

在(j,i)的数值，

是归一化邻接矩阵，计算公式为

在一些实施例中，所述L1损失函数为：

在一些实施例中，请参照图4所示，所述预设关节转动正则化函数为：

其中，

获取Human36M数据集；

由处理前和处理后的图片共同构成训练集。

在又一个实施例中，为了便于理解本发明的方案，下面以某一现有3D数据集为例进行详细说明，本发明的方案主要包括以下四部分：

第一部分，定义数据集：定义训练数据集为，Human36M(3D数据集)，测试数据集为PW3D。其中数据预处理采用图片尺度随机变换、随机旋转和颜色随机变换三种方式。

第二部分，定义网络：请参照图3所示，首先将经过预处理后的图片经过卷积和池化之后形成早期图片特征和将关节进行高斯热图之后的图片进行组合，组合之后使用resnet50中的4个conv block提取图片特征，形成了组合特征，组合特征是一个的矩阵，下面的支路将组合特征经过conv/15*8之后生成的矩阵，后经过reshape&soft argmax和gridsample之后生成3D姿态，上面的支路将经过grid sample之后形成的矩阵和3D姿态组合之后形成矩阵，最终经过图卷积神经网络和4个MLP网络之后生成图像整体旋转角度θ^g、SMPL姿态参数θ、SMPL形态参数β和相机参数κ四个Tensor张量数据。

在整个网络的执行过程中，首先经过特征提取网络生成带有热力值的2D特征图，然后将2D特征图reshape成3D特征图并用soft argmax函数提取3D姿势坐标，并和预测的姿势坐标置信度以及2D特征图组合成3D mesh特征，经过图卷积神经网络生成骨骼特征向量，最后通过4个MLP网络预测出相机参数、体型参数、姿态参数和全局转角参数。下面将分别对高斯热图、图卷积神经网络和损失函数部分进行分别说明：

(1)高斯热图

假设(x,y)为经过图片像素点坐标，(px,py)为经过图片中对应的GT关键点坐标，σ＝2.5，则高斯热图生成公式为：

(2)图卷积神经网络(graph conv block)

图卷积网络计算公式为

其中，F_i ⁱⁿ为第i个关节点的图特征，

是

在(j,i)的数值，

是归一化邻接矩阵,计算公式为

为根据骨骼层次建立的邻接矩阵(见1.2.2图四)。D为(A+I)特征向量。

(3)定义整体损失函数L

其中L_θ、L_β、

L_c(SMPL姿态、SMPL形态、全局转动、3D姿态、相机姿态100)为L1 loss即函数为

L_r为相对关节转动正则化项，

其中

为当前关节点和根关节点的相对角度标签θ，

为当前关节点和根关节点的相对角度标签

(图4中

)。

则为网络预测值，k_i为权重值，设置Head关节和Neck关节相对根节点角度权重为4/30(考虑到2-3关节距离和8-9相对距离比例)，其它关节对根节点角度权重为1/30，通过人为放大损失函数在不同部位转动的比重，能够使得网络参数更关注头部和脖子之间的转动。

第三部分,网络训练：设置每批数据量大小(batch size)为64、使用Adam优化器且初始学习率为10^-4情况下进行训练，待到收敛后即可获得网络参数。

第四部分，网络推理：去掉高斯热图分支和θ^g连接的MLP分支即可得到如图5所示的网络。

在又一个实施例中，请参照图6所示，本发明提供了一种SMPL参数预测模型的训练装置200，所述装置包括：

获取模块201，配置用于获取包括人体的图片并构造训练集；

输入模型202，配置用于将所述训练集中的图片输入至SMPL参数预测模型以得到SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态；

第一计算模块203，配置用于基于L1损失函数分别计算SMPL姿态、SMPL形态、图片全局转动角度、3D姿态以及相机姿态对应的第一预测损失；

第二计算模块204，配置用于基于预设关节转动正则化函数计算各个关节点的第二预测损失；

训练模块205，配置用于以每张图片为单位利用第一预测损失与第二预测损失的加和反向训练SMPL参数预测模型。

上述一种SMPL参数预测模型的训练装置，通过在神经网络进行单视图3D重建的训练过程中加入相对关节转动正则化项，为人物关节的转向和转动角度提供正则化约束，从而防止远端关节相对根节点转动过小而出现的失真现象。

所述特征提取网络构造为：

利用预设高斯函数将输入的图片转换成高斯热图；

所述关节点回归网络构造为：

利用第二支路使所述组合特征经过grid sample后生成3D形态；

将所述3D姿态和所述3D形态进行组合生成3D特征图；

在一些实施例中，所述预设高斯函数为：

在一些实施例中，所述图卷积网络的计算公式为：

其中，

为图卷积网络的输出，F_i ⁱⁿ为第i个关节点的图特征，

是

在(j,i)的数值，

是归一化邻接矩阵，计算公式为

在一些实施例中，所述L1损失函数为：

在一些实施例中，所述预设关节转动正则化函数为：

其中，

在一些实施例中，获取模块201进一步配置用于：

获取Human36M数据集；

由处理前和处理后的图片共同构成训练集。

需要说明的是，关于SMPL参数预测模型的训练装置的具体限定可以参见上文中对SMPL参数预测模型的训练方法的限定，在此不再赘述。上述SMPL参数预测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本发明的另一方面，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图请参照图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的SMPL参数预测模型的训练方法，具体来说，所述方法包括以下步骤：

获取包括人体的图片并构造训练集；

根据本发明的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上所述的SMPL参数预测模型的训练方法，具体来说，包括执行以下步骤：

获取包括人体的图片并构造训练集；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。