CN114581502A - 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 - Google Patents

基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114581502A
CN114581502A CN202210233442.5A CN202210233442A CN114581502A CN 114581502 A CN114581502 A CN 114581502A CN 202210233442 A CN202210233442 A CN 202210233442A CN 114581502 A CN114581502 A CN 114581502A
Authority
CN
China
Prior art keywords
model
smplx
monocular image
dimensional
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210233442.5A
Other languages
English (en)
Inventor
张亮
朱光明
冯明涛
梅林�
周海超
沈沛意
徐旭
宋娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210233442.5A priority Critical patent/CN114581502A/zh
Publication of CN114581502A publication Critical patent/CN114581502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单目图像的三维人体模型联合重建方法、电子设备及存储介质,所述方法包括:基于原始单目图像获取身体单目图像、手部单目图像和脸部单目图像,提取其中的二维关键点坐标,得到身体候选框、手部候选框和脸部候选框,基于此对原始单目图像进行裁剪得到三个特征图像,使用局部特征提取网络分别获得各特征图像中的特征,将其拼接得到级联特征,训练SMPLX模型,基于级联特征进行三维人体重建;本发明提取的深度信息更丰富,构建的三维人体模型精度更高,耗时更短。

Description

基于单目图像的三维人体模型联合重建方法、电子设备及存 储介质
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种基于单目图像的三维人体模型联合重建方法、电子设备及存储介质。
背景技术
近年来,数十亿人类日常活动被记录为视频并上传到公共互联网网站,捕捉各种现实世界场景中多样化的人类行为动作,将这些视频中的人体动作数字化的技术在包括人机交互、社交人工智能和机器人技术在内的各种应用中具有巨大的潜力;基于单目图像的三维人体重建模型方法引起了很多关注,单目图像重建中存在深度信息缺失等问题。
目前基于单目图像的三维人体重建方法只包含人体的姿势和体型,忽略了手部姿势和脸部表情的重建,并且在整体三维人体模型重建中,需要面临手部和脸部在图像占比较小,很难捕捉准确的姿势等问题,限制了在姿势捕捉***中人体模型重建的精度,制约了人机交互中计算机以更智能的方式理解人类动作。
发明内容
本发明实施例的目的在于提供一种基于单目图像的三维人体模型联合重建方法,在身体姿势的基础上结合人体的手部姿势、眼睛及下巴姿势,涵盖了更为丰富的深度信息,重建的三维人体模型精度更高,使用范围更广。
本发明实施例的目的还在于提供一种电子设备、存储介质。
为解决上述技术问题,本发明所采用的技术方案是,基于单目图像的三维人体模型联合重建方法,包括以下步骤:
S1,对待重建的原始单目图像进行处理获取身体单目图像、手部单目图像和脸部单目图像,分别预测各单目图像中的二维关键点坐标,得到身体候选框、手部候选框和脸部候选框;
S2,利用身体候选框、手部候选框和脸部候选框对原始单目图像进行裁剪,并调整裁剪图像的大小,得到身体特征图像、脸部特征图像和手部特征图像;
S3,训练三个局部特征提取网络,分别提取身体特征图像、脸部特征图像和手部特征图像中的身体特征、脸部特征和手部特征,将身体特征、脸部特征和手部特征拼接得到级联特征;
S4,训练SMPLX模型,基于级联特征进行三维人体重建。
进一步的,S1中所述候选框Box={(l,r)},l表示身体、手部、脸部左上角二维关键点的坐标,r表示身体、手部、脸部右下角二维关键点的坐标。
进一步的,所述局部特征提取网络的训练过程如下:
对HUMBI数据集进行删选获得包含人体全身的原始单目图像,对其进行裁剪得到局部单目图像,使用OpenPose模型预测局部单目图像中的二维关键点坐标,根据二维关键点的分布获得局部候选框,根据局部候选框对原始单目图像进行裁剪得到局部特征图像,获取各局部特征图像对应的真实模型参数;
使用RestNet50网络捕获局部特征图像中的局部特征;
基于局部特征使用多层感知器预测相机参数和模型参数;
基于真实模型参数、相机参数和预测的模型参数计算特征提取网络的损失函数,基于损失函数值对特征提取网络进行参数调整,得到优化的特征提取网络。
进一步的,所述局部特征提取网络包括身体特征提取网络、手部特征提取网络和脸部特征提取网络,所述局部特征提取网络中的损失函数如下:
L=Lp1Ljoint,3D2Lreproj
其中Lp表示预测的模型与真实模型之间的损失,Ljoint,3D表示预测模型提取的三维关键点和真实模型提取的三维人体关键点计算的损失,Lreproj表示将预测模型提取的三维关键点通过相机投影得到的二维关键点和真实模型提取的二维关键点之间的损失,τ1、τ2表示平衡损失项的加权系数。
进一步的,所述S4中训练SMPLX模型的过程如下:
以带有SMPLX模型标签的单目图像为训练数据,使用S1~S3所述方法获取训练数据中的局部特征,对各局部特征进行拼接得到级联特征;
将级联特征F输入多层感知器中,预测相机参数K、SMPLX模型姿势参数
Figure BDA0003541196590000021
体型参数
Figure BDA0003541196590000022
经验参数
Figure BDA0003541196590000023
根据训练数据中各单目图像对应的真实SMPLX模型参数和人体关键点坐标分别计算投影误差、三维关键点误差和SPMLX模型参数误差,进而得到损失函数L′;
重复上述过程,计算每次迭代的损失函数,基于新损失函数值更新SMPLX模型参数,得到优化的SMPLX模型。
进一步的,所述损失函数L′如下:
Figure BDA0003541196590000031
Figure BDA0003541196590000032
其中
Figure BDA0003541196590000033
表示真实SMPLX模型参数与预测的SMPLX模型参数之间的误差,θsmplx、βsmplx、ψsmplx分别表示真实的SMPLX模型的姿势参数、体型参数、经验参数,
Figure BDA0003541196590000034
Figure BDA0003541196590000035
分别表示多层感知器预测的SMPLX模型姿势参数、体型参数、经验参数,m表示人体关键点的数目变量,M表示人体关键点总数,m=1,2,…,M,M=137,vm表示第m个身体关键点是否可见,
Figure BDA0003541196590000036
表示预测的SMPLX模型提取的三维关键点坐标,(x″′3d,y″′3d,z″′3d)表示真实SMPLX模型提取的三维关键点坐标,L′joint,3D表示
Figure BDA0003541196590000037
与(x″′3d,y″′3d,z″′3d)之间的损失,
Figure BDA0003541196590000038
表示
Figure BDA0003541196590000039
通过相机参数K投影得到的二维关键点坐标,(x′2d,y′2d)表示(x″′3d,y″′3d,z″′3d)通过相机参数K投影得到的二维关键点坐标,L′reproj表示
Figure BDA00035411965900000310
与(x′2d,y′2d)之间的损失,τ1、τ2表示平衡损失项的加权系数。
进一步的,所述训练数据的构建过程如下:
对HUMBI数据集进行筛选获取包含人体全身的原始单目图像,保存与各原始单目图像对应的SMPL模型参数、相机参数,使用OpenPose模型获取各原始单目图像中的二维关键点坐标;
使用SMPL2SMPLX将原始单目图像SMPL模型转换为SMPLX模型,得到与SMPL模型相同姿势的SMPLX模型参数;
利用投影矩阵将SMPLX模型提取的三维关键点坐标投影到二维关键点坐标,计算投影得到的二维关键点坐标与OpenPose模型获取的二维关键点坐标之间的能量函数;
重复进行上述过程,基于新计算的能量函数对SMPLX模型参数进行更新,并将其作为新标签添加到HUMBI数据集,得到带有SMPLX模型标签的单目图像。
一种电子设备,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。
一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
本发明的有益效果是:本发明实施例以单目图像的SMPL模型为基础,计算与之最为贴合的SMPLX模型参数,获得带有SMPLX模型标签的数据集,为后续的三维人体模型重建提供了训练数据;本实施例通过对人体单目图像中的身体特征、手部特征和脸部特征进行拼接,基于级联特征进行三维人体重建,重建过程联合了人体的身体姿势、脸部姿势和手部姿势,涵盖了丰富的深度信息,使重建的模型精度更高,使用范围更广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于单目图像的三维人体模型联合重建的整体框架。
图2是预训练人体特征提取网络流程图。
图3是输入图像和重建人体模型结果图。
图4是利用本发明实施例重建的三维人体模型效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于单目图像的三维人体模型联合重建的方法,流程如图1所示,包括如下步骤:
步骤S1,对待重建的单目图像进行裁剪,获取身体单目图像IB、手部单目图像IH和脸部单目图像IF,分别将其输入OpenPose模型预测得到二维关键点坐标,并分别计算出身体、手部、脸部的候选框;
所述二维关键点坐标
Figure BDA0003541196590000041
m表示二维关键点的数目变量,M表示二维关键点总数,M=137,包括25个身体关键点、2×21个手部关键点和70个人脸关键点,(x,y)m表示第m个关键点坐标,vm为第m个关键点的可见性,取值为0或1,0表示关键点不可见,1表示关键点可见;
所述候选框Box={(l,r)},其中l表示身体、手部、脸部的左上角二维关键点坐标(lx,ly),r表示身体、手部、脸部的右下角二维关键点坐标(rx,ry),分别得到身体候选框Boxb、手部候选框Boxh和脸部候选框Boxf,所述候选框类似于只有骨架的长方形,用于表示目标区域的最小外接区间;
步骤S2,利用候选框对单目图像进行裁剪,调整图像的大小为224×224,得到身体特征图像Ibody、脸部特征图像Iface和手部特征图像Ihand
步骤S3,训练局部特征提取网络,所述局部特征提取网络包括身体特征提取网络、脸部特征提取网络和手部特征提取网络,各局部特征提取网络结构相同,内部参数不同,均采用RestNet50网络,包含下采样和残差块的多层网络结构;
步骤S4,使用局部特征提取网络分别提取身体特征图像Ibody、脸部特征图像Iface和手部特征图像Ihand中的特征,将得到的身体特征、脸部特征、手部特征级联得到级联特征F,
Figure BDA0003541196590000051
Figure BDA0003541196590000052
表示拼接操作;Ebody、Eface、Ehand分别表示身体特征提取网络、脸部特征提取网络和手部特征提取网络,Ebody(Ibody)表示身体特征提取网络从身体特征图像中提取的身体特征,Eface(Iface)表示脸部特征提取网络从脸部特征图像中提取的脸部特征,Ehand(Ihand)表示手部特征提取网络从手部特征图像中提取的手部特征;
步骤S5,训练SMPLX模型,基于级联特征F利用SMPLX模型进行三维人体重建。
由于各局部特征提取网络的结构相同,因此这里以身体单目图像为例,对局部特征提取网络的构建过程进行说明,流程如图2所示,具体如下:
步骤S31,对HUMBI数据集进行删选获得包含人体全身的原始单目图像,并保存和各原始单目图像对应的真实SMPL模型参数、相机参数K;
SMPL模型参数包括体型参数βsmpl和姿势参数θsmpl,相机参数指相机外参矩阵,表示相机在世界坐标系中的位置和指向,主要由旋转矩阵R和平移向量T表示,
Figure BDA0003541196590000053
对原始单目图像进行裁剪得到身体单目图像、手部单目图像和脸部单目图像;
使用OpenPose模型预测得到二维身体关键点坐标,统计各关键点的分布,确定身体左上角的二维关键点坐标和右下角的二维关键点坐标,进而得到身体候选框,根据候选框的大小对原始单目图像进行裁剪,并调整图像的大小得到身体特征图像Ibody
步骤S32,采用RestNet50网络作为身体特征提取网络捕获身体特征图像Ibody中的身体特征Fbody=Ebody(Ibody),其中Fbody为1024维的特征向量;
步骤S33,对于身体特征Fbody,经过多层感知器预测得到与各身体特征对应的相机参数K、SMPL模型姿势参数
Figure BDA0003541196590000061
和体型参数
Figure BDA0003541196590000062
所述多层感知器(Multilayer Perceptron,缩写MLP)是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量,本实施例使用的是三层全连接网络,前两层为1024个神经元,最后一层为与输出结果维度相同的神经元,使用ReLU作为激活函数;
步骤S34,根据步骤S31保存的各原始单目图像对应的真实SMPL模型参数和身体关键点分别计算投影误差、三维关键点误差和SMPL模型参数误差,进而得到身体特征提取网络的损失函数L,如下所示:
L=Lp1Ljoint,3D2Lreproj
在身体特征提取网络中,损失函数各项表示如下:
Figure BDA0003541196590000063
其中Lp表示预测的模型与真实模型之间的损失,Ljoint,3D表示预测模型提取的三维关键点和真实模型提取的三维人体关键点计算的损失,Lreproj表示将预测模型提取的三维关键点通过相机投影得到的二维关键点和真实模型提取的二维关键点之间的损失,τ1、τ2表示平衡损失项的加权系数,其取值范围为0-1,τ1=0.7、τ2=0.5;
j表示身体关键点的数目变量,J表示身体关键点总数,j=1,2,…,J,J=25,vj表示第j个身体关键点是否可见,
Figure BDA0003541196590000064
表示预测的SMPL模型提取的三维关键点坐标,(x3d,y3d,z3d)表示真实SMPL模型提取的三维关键点坐标,
Figure BDA0003541196590000071
表示
Figure BDA0003541196590000072
通过相机参数K投影得到的二维关键点坐标,(x2d,y2d)表示(x3d,y3d,z3d)通过相机参数K投影得到的二维关键点坐标;
步骤S35,重复步骤S32-步骤S34,计算每次迭代时预测结果与真实结果之间的误差,基于此通过反向传播对身体特征提取网络和多层感知器中的参数进行优化,使损失函数值逐渐降低,直至不在下降而趋于平稳,终止迭代,获得最终的身体特征提取网络和多层感知器。
训练手部特征提取网络和脸部特征提取网络的过程与上述步骤类似,只是在训练手部特征提取网络时,步骤S31中保存的是与各手部单目图像对应的MANO模型参数,计算损失函数时计算真实MANO模型参数与预测的MANO模型参数间的损失;训练脸部特征提取网络时,步骤S31中保存的是与各脸部单目图像对应的Surry模型参数,计算损失函数时计算真实Surry模型参数与预测的Surry模型参数间的损失。
由于手部特征提取网络和脸部特征提取网络中无法根据手部特征、脸部特征获取相机参数,也不需要推导出相机参数,只要提取手部特征和脸部特征即可,因此手部特征提取网络和脸部特征提取网络中损失函数的第三项均为零。
在手部特征提取网络中,损失函数前两项的表示如下:
Figure BDA0003541196590000073
其中
Figure BDA0003541196590000074
分别表示多层感知器预测的MANO模型的姿势参数、体型参数,θMANO、βMANO分别表示真实的MANO模型的姿势参数、体型参数,h表示手部关键点的数目变量,H表示手部关键点总数,h=1,2,…,H,H=2×21,vh表示第h个手部关键点是否可见,(x′3d,y′3d,z′3d)表示真实MANO模型提取的三维关键点坐标,
Figure BDA0003541196590000075
表示预测的MANO模型提取的三维关键点坐标,τ1=0.8。
在脸部特征提取网络中,损失函数前两项的表示如下:
Figure BDA0003541196590000076
其中
Figure BDA0003541196590000077
分别表示多层感知器预测的Surry模型的经验参数、脸外形参数,ρSurry、βSurry分别表示真实的Surry模型的经验参数、脸外形参数,e表示人脸关键点的数目变量,E表示人脸关键点总数,e=1,2,…,E,E=70,ve表示第e个人脸关键点是否可见,(x″3d,y″3d,z″3d)表示真实Surry模型提取的三维关键点坐标,
Figure BDA0003541196590000081
表示预测的Surry模型提取的三维关键点坐标,τ1=0.5。
步骤S5中SMPLX模型的构建过程如下:
步骤S51,以带有SMPLX模型标签的数据集为训练数据,利用步骤S3构建的局部特征提取网络分别获取训练数据中的身体特征、脸部特征和手部特征,并将其拼接得到级联特征F,
Figure BDA0003541196590000082
步骤S52,将级联特征F输入多层感知器中,预测相机参数K、SMPLX模型姿势参数
Figure BDA0003541196590000083
体型参数
Figure BDA0003541196590000084
经验参数
Figure BDA0003541196590000085
步骤S53,根据训练数据中各单目图像对应的真实SMPLX模型参数和人体关键点坐标分别计算投影误差L′reproj、三维关键点误差L′joint,3D和SPMLX模型参数误差
Figure BDA0003541196590000086
进而获得损失函数L′:
Figure BDA0003541196590000087
Figure BDA0003541196590000088
θsmplx、βsmplx、ψsmplx分别表示真实的SMPLX模型姿势参数、体型参数、经验参数,
Figure BDA0003541196590000089
分别表示多层感知器预测的SMPLX模型姿势参数、体型参数、经验参数,
Figure BDA00035411965900000810
表示预测的SMPLX模型提取的三维关键点坐标,(x″′3d,y″′3d,z″′3d)表示真实SMPLX模型提取的三维关键点坐标,
Figure BDA00035411965900000811
表示
Figure BDA00035411965900000812
通过相机参数K投影得到的二维关键点坐标,(x′2d,y′2d)表示(x″′3d,y″′3d,z″′3d)通过相机参数K投影得到的二维关键点坐标;
步骤S54,重复步骤S51-步骤S53,计算每次迭代时预测结果与真实结果之间的误差,基于此通过反向传播,对多层感知器中的参数进行优化,直至损失函数不在下降而趋于平稳,终止迭代,获得最终的多层感知器预测的SMPLX模型参数。
步骤S51中所述的带有SMPLX模型标签的数据集,其构建过程如下:
步骤S511:获取HUMBI数据集,对数据集进行删选获得包含人体全身的原始单目图像,并保存和各原始单目图像对应的SMPL模型及参数、相机参数;
步骤S512:将筛选的单目图像输入OpenPose模型,检测单目图像中的二维关键点坐标,在本实施例中设置生成25个身体关键点、2×21个手部关键点和70个人脸关键点,并将关键点坐标保存为JSON格式;
步骤S513:通过SMPL2SMPLX将单目图像的SMPL模型转换为SMPLX模型,得到和SMPL模型相同姿势的SMPLX模型及模型参数;
步骤S514:利用投影矩阵将SMPLX模型提取的三维关键点坐标投影到二维关键点坐标,具体如下:
Figure BDA0003541196590000091
其中J3d为三维关键点坐标,J2d为选取计算结果的前两维得到的二维关键点坐标;
计算投影得到的二维关键点J2d和OpenPose模型预测的二维关键点之间的能量函数EJ,更新模型参数进行下一次迭代,直至迭代次数达到设定的数值,获得最终的SMPLX模型参数,将SMPLX模型参数作为标签添加到相应的单目图像中得到带标签的数据集。
所述能量函数
Figure BDA0003541196590000092
其中i表示关键点的数目变量,ΠK()表示投影函数,J3d,i表示SMPLX模型提取的第i个关键点坐标,ΠK(J3d,i)表示通过相机参数K对J3d,i进行投影得到的二维关键点坐标,Jest,i表示OpenPose模型预测的第i个二维关键点坐标;
所述能量函数表征了关键点坐标之间的误差,当能量函数越小时,说明通过SMPL2SMPLX获得SMPLX模型参数更加准确,基于此拟合的SMPLX模型与目标更加接近;使用PyTorch中LBFGS优化器拟合SMPLX模型参数,设置拟合参数如下:学习率为0.1,迭代次数为30次,当迭代次数到达预设值时迭代终止,获得最终的SMPLX模型参数。
SMPL模型只是对身体部分的姿势进行拟合,重建的人体模型精度较低,而SMPLX模型还包含对眼睛、下巴、手部姿势的拟合,本实施例利用SMPLX模型在身体姿势的基础上结合手部姿势和脸部表情,重建的三维人体模型精度更高;同时本实施例以SMPL模型为基础,致使SMPLX模型的身体姿势和相机参数都是准确的,只需要对手部姿势和脸部表情进行拟合,整个过程简单、计算量小,相比于优化方法SMPLify-X具有更快的处理速度,重建结果准确,如图3和图4所示,使用本发明实施例对各输入图像进行三维人体重建,获得的重建模型均拟合了人体脸部、手部和身体的表情和姿势,准确表达人体的肢体语言和情绪等,具有更广泛的应用前景。
本发明还包含一种电子设备,包括存储器和处理器,所述存储器用于存储各种计算机程序指令,所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤;电子设备可以与一个或多个外部设备通信,还可与一个或多个使用户与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信,电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。
本发明还包括一种存储有计算机程序的计算机可读存储介质,该计算机程序可以被处理器执行,所述计算机可读介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备,此外本发明所述的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质,术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.基于单目图像的三维人体模型联合重建方法,其特征在于,包括以下步骤:
S1,对待重建的原始单目图像进行处理获取身体单目图像、手部单目图像和脸部单目图像,分别预测各单目图像中的二维关键点坐标,得到身体候选框、手部候选框和脸部候选框;
S2,利用身体候选框、手部候选框和脸部候选框对原始单目图像进行裁剪,并调整裁剪图像的大小,得到身体特征图像、脸部特征图像和手部特征图像;
S3,训练三个局部特征提取网络,分别提取身体特征图像、脸部特征图像和手部特征图像中的身体特征、脸部特征和手部特征,将身体特征、脸部特征和手部特征拼接得到级联特征;
S4,训练SMPLX模型,基于级联特征进行三维人体重建。
2.根据权利要求1所述的基于单目图像的三维人体模型联合重建方法,其特征在于,S1中所述候选框Box={(l,r)},l表示身体、手部、脸部左上角二维关键点的坐标,r表示身体、手部、脸部右下角二维关键点的坐标。
3.根据权利要求1所述的基于单目图像的三维人体模型联合重建方法,其特征在于,所述局部特征提取网络的训练过程如下:
对HUMBI数据集进行删选获得包含人体全身的原始单目图像,对其进行裁剪得到局部单目图像,使用OpenPose模型预测局部单目图像中的二维关键点坐标,根据二维关键点的分布获得局部候选框,根据局部候选框对原始单目图像进行裁剪得到局部特征图像,获取各局部特征图像对应的真实模型参数;
使用RestNet50网络捕获局部特征图像中的局部特征;
基于局部特征使用多层感知器预测相机参数和模型参数;
基于真实模型参数、相机参数和预测的模型参数计算特征提取网络的损失函数,基于损失函数值对特征提取网络进行参数调整,得到优化的特征提取网络。
4.根据权利要求3所述的基于单目图像的三维人体模型联合重建方法,其特征在于,所述局部特征提取网络包括身体特征提取网络、手部特征提取网络和脸部特征提取网络,所述局部特征提取网络中的损失函数如下:
L=Lp1Ljoint,3D2Lreproj
其中Lp表示预测的模型与真实模型之间的损失,Ljoint,3D表示预测模型提取的三维关键点和真实模型提取的三维人体关键点计算的损失,Lreproj表示将预测模型提取的三维关键点通过相机投影得到的二维关键点和真实模型提取的二维关键点之间的损失,τ1、τ2表示平衡损失项的加权系数。
5.根据权利要求1所述的基于单目图像的三维人体模型联合重建方法,其特征在于,所述S4中训练SMPLX模型的过程如下:
以带有SMPLX模型标签的单目图像为训练数据,使用S1~S3所述方法获取训练数据中的局部特征,对各局部特征进行拼接得到级联特征;
将级联特征F输入多层感知器中,预测相机参数K、SMPLX模型姿势参数
Figure FDA0003541196580000021
体型参数
Figure FDA0003541196580000022
经验参数
Figure FDA0003541196580000023
根据训练数据中各单目图像对应的真实SMPLX模型参数和人体关键点坐标分别计算投影误差、三维关键点误差和SPMLX模型参数误差,进而得到损失函数L′;
重复上述过程,计算每次迭代的损失函数,基于新损失函数值更新SMPLX模型参数,得到优化的SMPLX模型。
6.根据权利要求5所述的基于单目图像的三维人体模型联合重建方法,其特征在于,所述损失函数L′如下:
Figure FDA00035411965800000210
Figure FDA0003541196580000024
其中
Figure FDA0003541196580000025
表示真实SMPLX模型参数与预测的SMPLX模型参数之间的误差,θsmplx、βsmplx、ψsmplx分别表示真实的SMPLX模型的姿势参数、体型参数、经验参数,
Figure FDA0003541196580000026
Figure FDA0003541196580000027
分别表示多层感知器预测的SMPLX模型姿势参数、体型参数、经验参数,m表示人体关键点的数目变量,M表示人体关键点总数,m=1,2,…,M,M=137,vm表示第m个身体关键点是否可见,
Figure FDA0003541196580000028
表示预测的SMPLX模型提取的三维关键点坐标,(x″′3d,y″′3d,z″′3d)表示真实SMPLX模型提取的三维关键点坐标,L′joint,3D表示
Figure FDA0003541196580000029
与(x″′3d,y″′3d,z″′3d)之间的损失,
Figure FDA0003541196580000031
表示
Figure FDA0003541196580000032
通过相机参数K投影得到的二维关键点坐标,(x′2d,y′2d)表示(x″′3d,y″′3d,z″′3d)通过相机参数K投影得到的二维关键点坐标,L′reproj表示
Figure FDA0003541196580000033
与(x′2d,y′2d)之间的损失,τ1、τ2表示平衡损失项的加权系数。
7.根据权利要求5所述的基于单目图像的三维人体模型联合重建方法,其特征在于,所述训练数据的构建过程如下:
对HUMBI数据集进行筛选获取包含人体全身的原始单目图像,保存与各原始单目图像对应的SMPL模型参数、相机参数,使用OpenPose模型获取各原始单目图像中的二维关键点坐标;
使用SMPL2SMPLX将原始单目图像SMPL模型转换为SMPLX模型,得到与SMPL模型相同姿势的SMPLX模型参数;
利用投影矩阵将SMPLX模型提取的三维关键点坐标投影到二维关键点坐标,计算投影得到的二维关键点坐标与OpenPose模型获取的二维关键点坐标之间的能量函数;
重复进行上述过程,基于新计算的能量函数对SMPLX模型参数进行更新,并将其作为新标签添加到HUMBI数据集,得到带有SMPLX模型标签的单目图像。
8.一种电子设备,其特征在于,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202210233442.5A 2022-03-10 2022-03-10 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 Pending CN114581502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210233442.5A CN114581502A (zh) 2022-03-10 2022-03-10 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210233442.5A CN114581502A (zh) 2022-03-10 2022-03-10 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114581502A true CN114581502A (zh) 2022-06-03

Family

ID=81774045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210233442.5A Pending CN114581502A (zh) 2022-03-10 2022-03-10 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114581502A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457104A (zh) * 2022-10-28 2022-12-09 北京百度网讯科技有限公司 人体信息的确定方法、装置及电子设备
CN115496864A (zh) * 2022-11-18 2022-12-20 苏州浪潮智能科技有限公司 模型构建方法、重建方法、装置、电子设备及存储介质
CN115830642A (zh) * 2023-02-13 2023-03-21 粤港澳大湾区数字经济研究院(福田) 2d全身人体关键点标注方法及3d人体网格标注方法
CN116958450A (zh) * 2023-09-14 2023-10-27 南京邮电大学 一种面向二维数据的人体三维重建方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457104A (zh) * 2022-10-28 2022-12-09 北京百度网讯科技有限公司 人体信息的确定方法、装置及电子设备
CN115496864A (zh) * 2022-11-18 2022-12-20 苏州浪潮智能科技有限公司 模型构建方法、重建方法、装置、电子设备及存储介质
CN115830642A (zh) * 2023-02-13 2023-03-21 粤港澳大湾区数字经济研究院(福田) 2d全身人体关键点标注方法及3d人体网格标注方法
CN115830642B (zh) * 2023-02-13 2024-01-12 粤港澳大湾区数字经济研究院(福田) 2d全身人体关键点标注方法及3d人体网格标注方法
CN116958450A (zh) * 2023-09-14 2023-10-27 南京邮电大学 一种面向二维数据的人体三维重建方法
CN116958450B (zh) * 2023-09-14 2023-12-12 南京邮电大学 一种面向二维数据的人体三维重建方法

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
WO2019228358A1 (zh) 深度神经网络的训练方法和装置
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN110222718B (zh) 图像处理的方法及装置
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN109711356B (zh) 一种表情识别方法和***
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN110008839A (zh) 一种自适应手势识别的智能手语交互***及方法
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN112121419B (zh) 虚拟对象控制方法、装置、电子设备以及存储介质
CN113516227A (zh) 一种基于联邦学习的神经网络训练方法及设备
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN115346262A (zh) 一种表情驱动参数的确定方法、装置、设备及存储介质
CN112801069B (zh) 一种人脸关键特征点检测装置、方法和存储介质
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
CN114494543A (zh) 动作生成方法及相关装置、电子设备和存储介质
CN111738092B (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
Ding et al. Enhance Image-to-Image Generation with LLaVA Prompt and Negative Prompt
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
WO2023142886A1 (zh) 表情迁移方法、模型训练方法和装置
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination