CN114581502A

CN114581502A - 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质

Info

Publication number: CN114581502A
Application number: CN202210233442.5A
Authority: CN
Inventors: 张亮; 朱光明; 冯明涛; 梅林�; 周海超; 沈沛意; 徐旭; 宋娟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-03

Abstract

本发明公开了一种基于单目图像的三维人体模型联合重建方法、电子设备及存储介质，所述方法包括：基于原始单目图像获取身体单目图像、手部单目图像和脸部单目图像，提取其中的二维关键点坐标，得到身体候选框、手部候选框和脸部候选框，基于此对原始单目图像进行裁剪得到三个特征图像，使用局部特征提取网络分别获得各特征图像中的特征，将其拼接得到级联特征，训练SMPLX模型，基于级联特征进行三维人体重建；本发明提取的深度信息更丰富，构建的三维人体模型精度更高，耗时更短。

Description

基于单目图像的三维人体模型联合重建方法、电子设备及存储介质

技术领域

本发明属于计算机视觉技术领域，特别是涉及一种基于单目图像的三维人体模型联合重建方法、电子设备及存储介质。

背景技术

近年来，数十亿人类日常活动被记录为视频并上传到公共互联网网站，捕捉各种现实世界场景中多样化的人类行为动作，将这些视频中的人体动作数字化的技术在包括人机交互、社交人工智能和机器人技术在内的各种应用中具有巨大的潜力；基于单目图像的三维人体重建模型方法引起了很多关注，单目图像重建中存在深度信息缺失等问题。

目前基于单目图像的三维人体重建方法只包含人体的姿势和体型，忽略了手部姿势和脸部表情的重建，并且在整体三维人体模型重建中，需要面临手部和脸部在图像占比较小，很难捕捉准确的姿势等问题，限制了在姿势捕捉***中人体模型重建的精度，制约了人机交互中计算机以更智能的方式理解人类动作。

发明内容

本发明实施例的目的在于提供一种基于单目图像的三维人体模型联合重建方法，在身体姿势的基础上结合人体的手部姿势、眼睛及下巴姿势，涵盖了更为丰富的深度信息，重建的三维人体模型精度更高，使用范围更广。

本发明实施例的目的还在于提供一种电子设备、存储介质。

为解决上述技术问题，本发明所采用的技术方案是，基于单目图像的三维人体模型联合重建方法，包括以下步骤：

S1，对待重建的原始单目图像进行处理获取身体单目图像、手部单目图像和脸部单目图像，分别预测各单目图像中的二维关键点坐标，得到身体候选框、手部候选框和脸部候选框；

S2，利用身体候选框、手部候选框和脸部候选框对原始单目图像进行裁剪，并调整裁剪图像的大小，得到身体特征图像、脸部特征图像和手部特征图像；

S3，训练三个局部特征提取网络，分别提取身体特征图像、脸部特征图像和手部特征图像中的身体特征、脸部特征和手部特征，将身体特征、脸部特征和手部特征拼接得到级联特征；

S4，训练SMPLX模型，基于级联特征进行三维人体重建。

进一步的，S1中所述候选框Box＝{(l,r)}，l表示身体、手部、脸部左上角二维关键点的坐标，r表示身体、手部、脸部右下角二维关键点的坐标。

进一步的，所述局部特征提取网络的训练过程如下：

对HUMBI数据集进行删选获得包含人体全身的原始单目图像，对其进行裁剪得到局部单目图像，使用OpenPose模型预测局部单目图像中的二维关键点坐标，根据二维关键点的分布获得局部候选框，根据局部候选框对原始单目图像进行裁剪得到局部特征图像，获取各局部特征图像对应的真实模型参数；

使用RestNet50网络捕获局部特征图像中的局部特征；

基于局部特征使用多层感知器预测相机参数和模型参数；

基于真实模型参数、相机参数和预测的模型参数计算特征提取网络的损失函数，基于损失函数值对特征提取网络进行参数调整，得到优化的特征提取网络。

进一步的，所述局部特征提取网络包括身体特征提取网络、手部特征提取网络和脸部特征提取网络，所述局部特征提取网络中的损失函数如下：

L＝L^p+τ₁L_joint,3D+τ₂L_reproj

其中L^p表示预测的模型与真实模型之间的损失，L_joint,3D表示预测模型提取的三维关键点和真实模型提取的三维人体关键点计算的损失，L_reproj表示将预测模型提取的三维关键点通过相机投影得到的二维关键点和真实模型提取的二维关键点之间的损失，τ₁、τ₂表示平衡损失项的加权系数。

进一步的，所述S4中训练SMPLX模型的过程如下：

以带有SMPLX模型标签的单目图像为训练数据，使用S1～S3所述方法获取训练数据中的局部特征，对各局部特征进行拼接得到级联特征；

将级联特征F输入多层感知器中，预测相机参数K、SMPLX模型姿势参数

体型参数

经验参数

根据训练数据中各单目图像对应的真实SMPLX模型参数和人体关键点坐标分别计算投影误差、三维关键点误差和SPMLX模型参数误差，进而得到损失函数L′；

重复上述过程，计算每次迭代的损失函数，基于新损失函数值更新SMPLX模型参数，得到优化的SMPLX模型。

进一步的，所述损失函数L′如下：

其中

表示真实SMPLX模型参数与预测的SMPLX模型参数之间的误差，θ_smplx、β_smplx、ψ_smplx分别表示真实的SMPLX模型的姿势参数、体型参数、经验参数，

分别表示多层感知器预测的SMPLX模型姿势参数、体型参数、经验参数，m表示人体关键点的数目变量，M表示人体关键点总数，m＝1,2,…,M，M＝137，v_m表示第m个身体关键点是否可见，

表示预测的SMPLX模型提取的三维关键点坐标，(x″′_3d,y″′_3d,z″′_3d)表示真实SMPLX模型提取的三维关键点坐标，L′_joint,3D表示

与(x″′_3d,y″′_3d,z″′_3d)之间的损失，

表示

通过相机参数K投影得到的二维关键点坐标，(x′_2d,y′_2d)表示(x″′_3d,y″′_3d,z″′_3d)通过相机参数K投影得到的二维关键点坐标，L′_reproj表示

与(x′_2d,y′_2d)之间的损失，τ₁、τ₂表示平衡损失项的加权系数。

进一步的，所述训练数据的构建过程如下：

对HUMBI数据集进行筛选获取包含人体全身的原始单目图像，保存与各原始单目图像对应的SMPL模型参数、相机参数，使用OpenPose模型获取各原始单目图像中的二维关键点坐标；

使用SMPL2SMPLX将原始单目图像SMPL模型转换为SMPLX模型，得到与SMPL模型相同姿势的SMPLX模型参数；

利用投影矩阵将SMPLX模型提取的三维关键点坐标投影到二维关键点坐标，计算投影得到的二维关键点坐标与OpenPose模型获取的二维关键点坐标之间的能量函数；

重复进行上述过程，基于新计算的能量函数对SMPLX模型参数进行更新，并将其作为新标签添加到HUMBI数据集，得到带有SMPLX模型标签的单目图像。

一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果是：本发明实施例以单目图像的SMPL模型为基础，计算与之最为贴合的SMPLX模型参数，获得带有SMPLX模型标签的数据集，为后续的三维人体模型重建提供了训练数据；本实施例通过对人体单目图像中的身体特征、手部特征和脸部特征进行拼接，基于级联特征进行三维人体重建，重建过程联合了人体的身体姿势、脸部姿势和手部姿势，涵盖了丰富的深度信息，使重建的模型精度更高，使用范围更广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于单目图像的三维人体模型联合重建的整体框架。

图2是预训练人体特征提取网络流程图。

图3是输入图像和重建人体模型结果图。

图4是利用本发明实施例重建的三维人体模型效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于单目图像的三维人体模型联合重建的方法，流程如图1所示，包括如下步骤：

步骤S1，对待重建的单目图像进行裁剪，获取身体单目图像I_B、手部单目图像I_H和脸部单目图像I_F，分别将其输入OpenPose模型预测得到二维关键点坐标，并分别计算出身体、手部、脸部的候选框；

所述二维关键点坐标

m表示二维关键点的数目变量，M表示二维关键点总数，M＝137，包括25个身体关键点、2×21个手部关键点和70个人脸关键点，(x,y)_m表示第m个关键点坐标，v_m为第m个关键点的可见性，取值为0或1，0表示关键点不可见，1表示关键点可见；

所述候选框Box＝{(l,r)}，其中l表示身体、手部、脸部的左上角二维关键点坐标(l_x,l_y)，r表示身体、手部、脸部的右下角二维关键点坐标(r_x,r_y)，分别得到身体候选框Box_b、手部候选框Box_h和脸部候选框Box_f，所述候选框类似于只有骨架的长方形，用于表示目标区域的最小外接区间；

步骤S2，利用候选框对单目图像进行裁剪，调整图像的大小为224×224，得到身体特征图像I_body、脸部特征图像I_face和手部特征图像I_hand；

步骤S3，训练局部特征提取网络，所述局部特征提取网络包括身体特征提取网络、脸部特征提取网络和手部特征提取网络，各局部特征提取网络结构相同，内部参数不同，均采用RestNet50网络，包含下采样和残差块的多层网络结构；

步骤S4，使用局部特征提取网络分别提取身体特征图像I_body、脸部特征图像I_face和手部特征图像I_hand中的特征，将得到的身体特征、脸部特征、手部特征级联得到级联特征F，

表示拼接操作；E_body、E_face、E_hand分别表示身体特征提取网络、脸部特征提取网络和手部特征提取网络，E_body(I_body)表示身体特征提取网络从身体特征图像中提取的身体特征，E_face(I_face)表示脸部特征提取网络从脸部特征图像中提取的脸部特征，E_hand(I_hand)表示手部特征提取网络从手部特征图像中提取的手部特征；

步骤S5，训练SMPLX模型，基于级联特征F利用SMPLX模型进行三维人体重建。

由于各局部特征提取网络的结构相同，因此这里以身体单目图像为例，对局部特征提取网络的构建过程进行说明，流程如图2所示，具体如下：

步骤S31，对HUMBI数据集进行删选获得包含人体全身的原始单目图像，并保存和各原始单目图像对应的真实SMPL模型参数、相机参数K；

SMPL模型参数包括体型参数β_smpl和姿势参数θ_smpl，相机参数指相机外参矩阵，表示相机在世界坐标系中的位置和指向，主要由旋转矩阵R和平移向量T表示，

对原始单目图像进行裁剪得到身体单目图像、手部单目图像和脸部单目图像；

使用OpenPose模型预测得到二维身体关键点坐标，统计各关键点的分布，确定身体左上角的二维关键点坐标和右下角的二维关键点坐标，进而得到身体候选框，根据候选框的大小对原始单目图像进行裁剪，并调整图像的大小得到身体特征图像I_body；

步骤S32，采用RestNet50网络作为身体特征提取网络捕获身体特征图像I_body中的身体特征F_body＝E_body(I_body)，其中F_body为1024维的特征向量；

步骤S33，对于身体特征F_body，经过多层感知器预测得到与各身体特征对应的相机参数K、SMPL模型姿势参数

和体型参数

所述多层感知器(Multilayer Perceptron，缩写MLP)是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量，本实施例使用的是三层全连接网络，前两层为1024个神经元，最后一层为与输出结果维度相同的神经元，使用ReLU作为激活函数；

步骤S34，根据步骤S31保存的各原始单目图像对应的真实SMPL模型参数和身体关键点分别计算投影误差、三维关键点误差和SMPL模型参数误差，进而得到身体特征提取网络的损失函数L，如下所示：

L＝L^p+τ₁L_joint,3D+τ₂L_reproj

在身体特征提取网络中，损失函数各项表示如下：

其中L^p表示预测的模型与真实模型之间的损失，L_joint,3D表示预测模型提取的三维关键点和真实模型提取的三维人体关键点计算的损失，L_reproj表示将预测模型提取的三维关键点通过相机投影得到的二维关键点和真实模型提取的二维关键点之间的损失，τ₁、τ₂表示平衡损失项的加权系数，其取值范围为0-1，τ₁＝0.7、τ₂＝0.5；

j表示身体关键点的数目变量，J表示身体关键点总数，j＝1,2,…,J，J＝25，v_j表示第j个身体关键点是否可见，

表示预测的SMPL模型提取的三维关键点坐标，(x_3d，y_3d，z_3d)表示真实SMPL模型提取的三维关键点坐标，

表示

通过相机参数K投影得到的二维关键点坐标，(x_2d,y_2d)表示(x_3d,y_3d,z_3d)通过相机参数K投影得到的二维关键点坐标；

步骤S35，重复步骤S32-步骤S34，计算每次迭代时预测结果与真实结果之间的误差，基于此通过反向传播对身体特征提取网络和多层感知器中的参数进行优化，使损失函数值逐渐降低，直至不在下降而趋于平稳，终止迭代，获得最终的身体特征提取网络和多层感知器。

训练手部特征提取网络和脸部特征提取网络的过程与上述步骤类似，只是在训练手部特征提取网络时，步骤S31中保存的是与各手部单目图像对应的MANO模型参数，计算损失函数时计算真实MANO模型参数与预测的MANO模型参数间的损失；训练脸部特征提取网络时，步骤S31中保存的是与各脸部单目图像对应的Surry模型参数，计算损失函数时计算真实Surry模型参数与预测的Surry模型参数间的损失。

由于手部特征提取网络和脸部特征提取网络中无法根据手部特征、脸部特征获取相机参数，也不需要推导出相机参数，只要提取手部特征和脸部特征即可，因此手部特征提取网络和脸部特征提取网络中损失函数的第三项均为零。

在手部特征提取网络中，损失函数前两项的表示如下：

其中

分别表示多层感知器预测的MANO模型的姿势参数、体型参数，θ_MANO、β_MANO分别表示真实的MANO模型的姿势参数、体型参数，h表示手部关键点的数目变量，H表示手部关键点总数，h＝1,2,…,H，H＝2×21，v_h表示第h个手部关键点是否可见，(x′_3d,y′_3d,z′_3d)表示真实MANO模型提取的三维关键点坐标，

表示预测的MANO模型提取的三维关键点坐标，τ₁＝0.8。

在脸部特征提取网络中，损失函数前两项的表示如下：

其中

分别表示多层感知器预测的Surry模型的经验参数、脸外形参数，ρ_Surry、β_Surry分别表示真实的Surry模型的经验参数、脸外形参数，e表示人脸关键点的数目变量，E表示人脸关键点总数，e＝1,2,…,E，E＝70，v_e表示第e个人脸关键点是否可见，(x″_3d,y″_3d,z″_3d)表示真实Surry模型提取的三维关键点坐标，

表示预测的Surry模型提取的三维关键点坐标，τ₁＝0.5。

步骤S5中SMPLX模型的构建过程如下：

步骤S51，以带有SMPLX模型标签的数据集为训练数据，利用步骤S3构建的局部特征提取网络分别获取训练数据中的身体特征、脸部特征和手部特征，并将其拼接得到级联特征F，

步骤S52，将级联特征F输入多层感知器中，预测相机参数K、SMPLX模型姿势参数

体型参数

经验参数

步骤S53，根据训练数据中各单目图像对应的真实SMPLX模型参数和人体关键点坐标分别计算投影误差L′_reproj、三维关键点误差L′_joint,3D和SPMLX模型参数误差

进而获得损失函数L′：

θ_smplx、β_smplx、ψ_smplx分别表示真实的SMPLX模型姿势参数、体型参数、经验参数，

分别表示多层感知器预测的SMPLX模型姿势参数、体型参数、经验参数，

表示预测的SMPLX模型提取的三维关键点坐标，(x″′_3d,y″′_3d,z″′_3d)表示真实SMPLX模型提取的三维关键点坐标，

表示

通过相机参数K投影得到的二维关键点坐标，(x′_2d,y′_2d)表示(x″′_3d,y″′_3d,z″′_3d)通过相机参数K投影得到的二维关键点坐标；

步骤S54，重复步骤S51-步骤S53，计算每次迭代时预测结果与真实结果之间的误差，基于此通过反向传播，对多层感知器中的参数进行优化，直至损失函数不在下降而趋于平稳，终止迭代，获得最终的多层感知器预测的SMPLX模型参数。

步骤S51中所述的带有SMPLX模型标签的数据集，其构建过程如下：

步骤S511：获取HUMBI数据集，对数据集进行删选获得包含人体全身的原始单目图像，并保存和各原始单目图像对应的SMPL模型及参数、相机参数；

步骤S512：将筛选的单目图像输入OpenPose模型，检测单目图像中的二维关键点坐标，在本实施例中设置生成25个身体关键点、2×21个手部关键点和70个人脸关键点，并将关键点坐标保存为JSON格式；

步骤S513：通过SMPL2SMPLX将单目图像的SMPL模型转换为SMPLX模型，得到和SMPL模型相同姿势的SMPLX模型及模型参数；

步骤S514：利用投影矩阵将SMPLX模型提取的三维关键点坐标投影到二维关键点坐标，具体如下：

其中J_3d为三维关键点坐标，J_2d为选取计算结果的前两维得到的二维关键点坐标；

计算投影得到的二维关键点J_2d和OpenPose模型预测的二维关键点之间的能量函数E_J，更新模型参数进行下一次迭代，直至迭代次数达到设定的数值，获得最终的SMPLX模型参数，将SMPLX模型参数作为标签添加到相应的单目图像中得到带标签的数据集。

所述能量函数

其中i表示关键点的数目变量，Π_K()表示投影函数，J_3d,i表示SMPLX模型提取的第i个关键点坐标，Π_K(J_3d,i)表示通过相机参数K对J_3d,i进行投影得到的二维关键点坐标，J_est,i表示OpenPose模型预测的第i个二维关键点坐标；

所述能量函数表征了关键点坐标之间的误差，当能量函数越小时，说明通过SMPL2SMPLX获得SMPLX模型参数更加准确，基于此拟合的SMPLX模型与目标更加接近；使用PyTorch中LBFGS优化器拟合SMPLX模型参数，设置拟合参数如下：学习率为0.1，迭代次数为30次，当迭代次数到达预设值时迭代终止，获得最终的SMPLX模型参数。

SMPL模型只是对身体部分的姿势进行拟合，重建的人体模型精度较低，而SMPLX模型还包含对眼睛、下巴、手部姿势的拟合，本实施例利用SMPLX模型在身体姿势的基础上结合手部姿势和脸部表情，重建的三维人体模型精度更高；同时本实施例以SMPL模型为基础，致使SMPLX模型的身体姿势和相机参数都是准确的，只需要对手部姿势和脸部表情进行拟合，整个过程简单、计算量小，相比于优化方法SMPLify-X具有更快的处理速度，重建结果准确，如图3和图4所示，使用本发明实施例对各输入图像进行三维人体重建，获得的重建模型均拟合了人体脸部、手部和身体的表情和姿势，准确表达人体的肢体语言和情绪等，具有更广泛的应用前景。

本发明还包含一种电子设备，包括存储器和处理器，所述存储器用于存储各种计算机程序指令，所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤；电子设备可以与一个或多个外部设备通信，还可与一个或多个使用户与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信，电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。

本发明还包括一种存储有计算机程序的计算机可读存储介质，该计算机程序可以被处理器执行，所述计算机可读介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备，此外本发明所述的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质，术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。