CN116310103A - 一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法 - Google Patents

一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法 Download PDF

Info

Publication number
CN116310103A
CN116310103A CN202310210817.0A CN202310210817A CN116310103A CN 116310103 A CN116310103 A CN 116310103A CN 202310210817 A CN202310210817 A CN 202310210817A CN 116310103 A CN116310103 A CN 116310103A
Authority
CN
China
Prior art keywords
human body
dimensional
grid
model
linear model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310210817.0A
Other languages
English (en)
Inventor
方琴
包福兵
王旭
徐叶红
林剑叠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Beidu Technology Co ltd
China Jiliang University
Original Assignee
Hangzhou Beidu Technology Co ltd
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Beidu Technology Co ltd, China Jiliang University filed Critical Hangzhou Beidu Technology Co ltd
Priority to CN202310210817.0A priority Critical patent/CN116310103A/zh
Publication of CN116310103A publication Critical patent/CN116310103A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本发明公开了基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,首先通过人体网格恢复算法框架获取三维人体模型。其次利用密集人体姿态转化算法对人体网格恢复算法中导出的三维人体模型进行划分,提供了一个人的完整空间覆盖,同时保留了足够的关于部分排列的信息。然后通过双映射IUV投影图,对三维人体模型降维,并利用三维人体蒙皮多人线性模型数据集进行多样化模拟。最后通过交叉分布对齐二维融合完成姿态估计和网格恢复。本发明提升了对复杂环境的数据处理能力,得到更真实准确的人体模型。

Description

一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法
技术领域
本发明涉及服装领域的人体模型可视化技术,具体涉及一种基于蒙皮多人线性(SMPL)模型的人体姿态估计和交叉分布网格恢复方法。
背景技术
三维人体网格恢复在虚拟现实、安全***、游戏行业、虚拟试衣等多个领域具有广泛应用。技术的进步拓宽了三维人体建模行业的发展并随之产生大规模的3D扫描***,该***依靠激光扫描以及深度相机获取三维人体网格数据,但在扫描过程中受机器自身参数、周围环境以及预处理繁杂等因素影响,难以产生精确的重复性高、不确定度低的测量数据。
随着蒙皮多人线性(SMPL)模型的出现,通过输入并改变体型参数(人体高矮胖瘦、头身比等)以及姿态参数(关节相对角度、人体运动位姿)进行人体建模,模拟肌肉在肢体运动过程中的凸起和凹陷,精确刻画肌肉拉伸及收缩运动的形貌。但现有蒙皮多人线性(SMPL)模型以RGB图片作为输入,投影点的误差、人体骨架关节核心位置的复杂结构往往导致重建出的三维模型存在不同程度失真。此外,现有的基于SMPL模型的三维人体建模方法大多使用RGB图片作为输入,从二维数据中求解出人体的三维特征,一方面增大了算法的求解难度,另一方面易出现过拟合和局部最优解。
发明内容
本发明针对现有三维人体建模技术存在人体核心位置参数缺失、测量***复杂、不能适应复杂多变的工作环境等问题,提出了基于蒙皮多人线性模型的人体姿态估计和网格恢复方法。
本发明首先将RGB相机采集并预处理的的图像信息还原人体二维节点及人体轮廓,将RGBD图像输入至人体网格恢复(HMR)算法获取姿态参数、体型参数、三维关节及网格顶点,其次由密集人体姿态转化(Densepose)建立不同身体部位三维人体模型与网格表面之间联系,将每个像素点经过双映射投影回归至网格顶点。通过数据集进行多样化模拟最终将三维关节点投影至二维关节点预测最终蒙皮多人线性模型。
本发明包括如下步骤:
S1、获取三维人体模型:
RGB相机添加深度测量设备采集输入图片的彩色图像以及对应的深度图像并进行数据预处理,得到RGBD图像,还原人体二维关节点以及人体轮廓,将RGBD图像输入到人体网格恢复(HMR)算法框架中,获得服从正态分布的蒙皮多人线性模型姿态参数θ、体型参数β和三维关节j3D。HMR算法框架中RGB编码器与特征编码器能够对特征进行融合,提取人体轮廓,从而实现从二维人体图像导出三维人体模型,避免了多余背景以及冗余信息对建模的影响。
S2、利用密集人体姿态转化(Densepose)算法对人体网格恢复算法中导出的三维人体模型进行划分:
通过密集人体姿态转换(Densepose)建立三维人体模型和网格表面对应关系,定义身体部位I,其中每个身体部位拥有对应法线贴图和位移贴图(UV)坐标。每个坐标根据3D表面空间和IUV空间预定义的双映射投影回归网格顶点。在此基础上使用基于区域的方法,即通过利用图像中同一区域的均匀性来识别不同的区域对图像进行划分。
S3、三维人体模型降维:
通过双映射投影得到网格顶点生成IUV图(I表示人体的具体部位,UV表示身体部位法线和位移贴图,即贴图上哪一点贴到对应的位置上),IUV图作为模板投影到二维平面中,得到连续的二维映射IUV,利用三维人体蒙皮多人线性模型数据集SMPLify-x进行多样化模拟,采用摄像机旋转r∈R3×3,动态摄像机平移t∈R3作为外部参数,固定焦距f∈R2作为内部参数透视投影,将三维关节j3D投影至二维关节j2D
S4、交叉分布对齐二维融合姿态估计和网格恢复:
通过交叉分布对齐(利用VAE神经网络中编码器对视图潜在分布进行对齐,同时为减少分布对齐损失的信息,在解码器重构过程中引入交叉对齐来平衡多视图数据)融合模块Rrefuse(包括回归网格输出的可训练对齐)作为迭代循环输入回归器纠正训练过程中预测的姿态参数、体型参数、网格顶点、三维关节、二维关节等参数误差并推测蒙皮多人线性模型完成人体姿态估计及网格恢复。
与现有技术相比较,本发明的有益效果是:
(1)本发明根据输入图像提取人体尺寸信息,在此基础上修改人体模型几何结构,将身体关节部位恢复到三维模型中,人体关节处均方根误差约为0.001m。
(2)本发明采用RGB编码器与特征编码器进行特征融合提取人体轮廓,避免了多余背景以及冗余信息对建模的影响,提升了对复杂环境的数据处理能力。
(3)本发明增加了对人体形态的调整过程,结合实际测量人体结构引入蒙皮多人线性模型约束并计算参数损失,网格顶点平均误差接近0.06m,得到更真实的人体模型。
附图说明
图1为人体网格恢复算法总体框架;
图2为密集人体姿态转化流程图;
图3为交叉分布对齐网格恢复框架。
具体实施方式
下面结合附图和实例对本发明作进一步说明。
本发明通过图像设备进行数据采集,图像设备包含彩色相机和深度相机,可以同时获得RGB彩色数据和Depth深度数据采用密集人体姿态转换(Densepose)算法建立二维图像和网格表面对应关系,利用现有蒙皮多人线性模型数据集SMPLify-x进行多样化模拟将三维模型降维得到二维高斯热图,通过交叉分布对齐完成最终蒙皮多人线性模型姿态估计和网格恢复。基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,具体步骤如下:
步骤1:RGB相机添加深度测量设备采集输入图片的彩色图像以及对应的深度图像,并进行数据预处理,得到RGBD图像,输入图片经过RGB编码器与深度编码器输出图像特征,经回归分析处理得到相机缩放、旋转、平移参数s,r,t,以及蒙皮多人线性模型姿态参数θ,体型参数β和三维关节位置j3D。相机参数与模型的三维关节位置经式j2D=sΠ(rj3D)+t,通过平行投影预测二维关节位置j2D。鉴别器通过训练学习每个人体关节旋转角度的限制。通过式
Figure BDA0004112619970000031
其中E代表预测关节与原始关节的误差,j2d代表RGBD图像二维关节位置将迭代后预测的模型参数输入鉴别器来判断三维人体模型姿态是否合理,具体步骤如图1所示。
步骤2:定义24个身体部位I(包括头部、躯干、上下臂、上下腿、手和脚,其中头部、躯干和上下肢等肢体部位被划分为上部,下部,前部,后部,保证身体部位与网格处于同一平面),其中每个身体部位拥有对应纹理贴图(UV)坐标。记IUV图为[I,U,V]∈R3×(P+1)+H×W,其中P为身体的24个部位,H和W为IUV图的高度和宽度,索引通道I∈{0,1}(P+1)×H×W,其中0表示图像背景,1表示身体部分索引。每个坐标根据3D表面空间和IUV空间预定义的双映射投影回归网格顶点。在此基础上使用基于区域的方法,即通过利用图像中同一区域的均匀性来识别不同的区域对图像进行划分,作为映射到3D形状和姿势之前的中间步骤。这种分割提供了一个人的完整空间覆盖,而不是常用的关键点稀疏集,同时还保留了足够的关于部分排列的信息,以允许有效地提升到三维空间。
步骤3:利用三维人体蒙皮蒙皮多人线性模型数据集SMPLify-x进行多样化模拟。采用动态采样摄像机t∈R3作为外部参数,固定焦距f∈R2作为内部参数的透视投影。将姿态参数β、体型参数θ和三维关节j3D,通过透视投影j2D=fΠ(rj3D+t)将三维关节投影至二维关节j2D,如图2所示。
步骤4:编码器ResNet-18提取二维关节输入输出特征
Figure BDA0004112619970000041
输入迭代回归器,通过步骤1中的姿态参数、体型参数、相机参数预测三维人体模型Θ={β,θ,γ}。使用多层感知器(MLP)保持空间维度不变的情况下进行通道缩减将输入的多个数据集映射到单一的输出的数据集上。通过融合模块Rrefuse纠正训练过程中预测参数误差。Θfinal获得预测顶点v、预测三维关节/>
Figure BDA0004112619970000042
和预测二维关节/>
Figure BDA0004112619970000043
使用方差不确定度预测损失函数,用以评价预测值与真实值之间的差距:
Figure BDA0004112619970000044
其中,L2表示均方差,σv
Figure BDA0004112619970000051
σSMPL表示训练过程中自适应调整的网格顶点、二维关节、三维关节、蒙皮多人线性模型参数权重。基于蒙皮多人线性模型完成人体姿态估计及网格恢复,如图3所示。
经验证本发明根据输入图像提取人体尺寸信息,将身体关节部位恢复到三维模型中,人体关节处均方根误差约为0.001m,并结合实际测量人体结构引入蒙皮多人线性模型约束并计算参数损失,网格顶点平均误差接近0.06m,得到更真实的模型。
本发明不局限于上述的实施方式,凡依本发明申请范围所做的均等变化与修饰,皆应属于本发明的涵盖范围。

Claims (5)

1.一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,其特征在于,包括如下步骤:
S1、获取三维人体模型:
RGB相机添加深度测量设备采集输入图片的彩色图像,以及对应的深度图像,并进行数据预处理,得到RGBD图像;
将RGBD图像输入到人体网格恢复HMR算法框架中,获得服从正态分布的蒙皮多人线性模型姿态参数θ、体型参数β和三维关节j3D,实现从二维人体图像导出三维人体模型;
S2、对导出的三维人体模型进行划分:
通过密集人体姿态转换建立三维人体模型和网格表面对应关系,定义身体部位,每个身体部位拥有对应法线贴图和位移贴图UV坐标,每个坐标根据3D表面空间和IUV空间预定义的双映射投影回归网格顶点;
使用基于区域的方法,利用图像中同一区域的均匀性识别不同的区域对图像进行划分;
S3、三维人体模型降维:
通过双映射投影得到网格顶点生成IUV图,其中I表示人体的具体部位,UV表示身体部位法线和位移贴图,IUV图作为模板投影到二维平面中,得到连续的二维映射IUV图;
利用三维人体蒙皮多人线性模型数据集进行多样化模拟,采用摄像机旋转r∈R3×3和动态摄像机平移t∈R3作为外部参数,固定焦距f∈R2作为内部参数透视投影,将三维关节j3D投影至二维关节j2D
S4、交叉分布对齐二维融合姿态估计和网格恢复:
通过交叉分布对齐融合模块Rrefuse作为迭代循环输入回归器,纠正训练过程中预测的姿态参数、体型参数、网格顶点、三维关节和二维关节的参数误差,并推测蒙皮多人线性模型,完成人体姿态估计及网格恢复。
2.根据权利要求1所述的基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,其特征在于,在S1所述HMR算法框架中RGB编码器与特征编码器对特征进行融合,提取人体轮廓,实现从二维人体图像导出三维人体模型。
3.根据权利要求1所述的基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,其特征在于,在S1中还包括:经回归分析处理得到相机缩放、旋转以及平移参数,用于预测三维人体模型。
4.根据权利要求1所述的基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,其特征在于,在S2所述身体部位包括头部、躯干、上下臂、上下腿、手和脚,其中头部、躯干和上下肢等肢体部位被划分为上部,下部,前部,后部,保证身体部位与网格处于同一平面。
5.根据权利要求1所述的基于蒙皮多人线性模型的人体姿态估计和网格恢复方法,其特征在于,在S4中所述交叉分布对齐,利用VAE神经网络中编码器对视图潜在分布进行对齐,同时在解码器重构过程中引入交叉对齐平衡多视图数据;
所述融合模块Rrefuse包括回归网格输出的可训练对齐。
CN202310210817.0A 2023-03-07 2023-03-07 一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法 Pending CN116310103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310210817.0A CN116310103A (zh) 2023-03-07 2023-03-07 一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310210817.0A CN116310103A (zh) 2023-03-07 2023-03-07 一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法

Publications (1)

Publication Number Publication Date
CN116310103A true CN116310103A (zh) 2023-06-23

Family

ID=86797259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310210817.0A Pending CN116310103A (zh) 2023-03-07 2023-03-07 一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法

Country Status (1)

Country Link
CN (1) CN116310103A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392292A (zh) * 2023-10-20 2024-01-12 联通在线信息科技有限公司 一种3d数字人生成方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392292A (zh) * 2023-10-20 2024-01-12 联通在线信息科技有限公司 一种3d数字人生成方法及***
CN117392292B (zh) * 2023-10-20 2024-04-30 联通在线信息科技有限公司 一种3d数字人生成方法及***

Similar Documents

Publication Publication Date Title
US8902232B2 (en) Facial performance synthesis using deformation driven polynomial displacement maps
US9361723B2 (en) Method for real-time face animation based on single video camera
Kähler et al. Head shop: Generating animated head models with anatomical structure
CN106023288B (zh) 一种基于图像的动态替身构造方法
US6047078A (en) Method for extracting a three-dimensional model using appearance-based constrained structure from motion
CN111932678B (zh) 多视点实时人体运动、手势、表情、纹理重建***
CN112950775A (zh) 一种基于自监督学习的三维人脸模型重建方法及***
CN104794722A (zh) 利用单个Kinect计算着装人体三维净体模型的方法
CN109242954A (zh) 基于模板变形的多视角三维人体重建方法
WO2021063271A1 (zh) 人体模型重建方法、重建***及存储介质
CN111091624B (zh) 一种从单张图片生成高精度可驱动人脸三维模型的方法
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
CN113077519B (zh) 一种基于人体骨架提取的多相机外参自动标定方法
Ye et al. Free-viewpoint video of human actors using multiple handheld kinects
CN112734890A (zh) 基于三维重建的人脸替换方法及装置
CN111951384A (zh) 一种基于单张人脸图片的三维人脸重建方法和***
CN109544666A (zh) 一种全自动的模型变形传播方法和***
CN111951381A (zh) 一种基于单张人脸图片的三维人脸重建***
CN111739080A (zh) 多台深度相机共同构建3d空间及3d物体的方法
CN111127642A (zh) 一种人脸三维重建方法
CN116310103A (zh) 一种基于蒙皮多人线性模型的人体姿态估计和网格恢复方法
CN114758070A (zh) 基于跨域多任务的单张图像三维人体精细重建方法
CN112927348B (zh) 一种基于多视点rgbd相机高分辨率人体三维重建方法
CN112365589B (zh) 一种虚拟三维场景展示方法、装置及***
CN116797733A (zh) 实时三维物体动态重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination