CN111339870B - 一种针对物体遮挡场景的人体形状和姿态估计方法 - Google Patents
一种针对物体遮挡场景的人体形状和姿态估计方法 Download PDFInfo
- Publication number
- CN111339870B CN111339870B CN202010099358.XA CN202010099358A CN111339870B CN 111339870 B CN111339870 B CN 111339870B CN 202010099358 A CN202010099358 A CN 202010099358A CN 111339870 B CN111339870 B CN 111339870B
- Authority
- CN
- China
- Prior art keywords
- human body
- dimensional
- image
- network
- shielding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种针对物体遮挡场景的人体形状和姿态估计方法,将计算得到的弱透视投影参数转换到相机坐标下,获得不带遮挡情况下包含人体形状信息的UV图像;对人体二维图像加入随机物体图片遮挡,并获取遮挡情况下的人体掩膜;将获得的虚拟遮挡数据训练编码‑解码结构的UV贴图修复网络;输入真实物体遮挡人体彩色图像,以掩膜图像作为真值构建编码‑解码结构的显著性检测网络;使用编码得到的隐空间特征监督人体编码网络训练;输入遮挡人体彩色图像,得到完整的UV图像;使用UV图像与人体三维模型的顶点对应关系恢复出遮挡情况下的人体三维模型。本发明将遮挡人体形状估计转化为二维UV贴图的图像修复问题,进而实现遮挡场景下人体的实时、动态重建。
Description
技术领域
本发明属于计算机视觉及三维视觉领域,具体涉及一种针对物体遮挡场景下的人体形状和姿态估计方法。
背景技术
从单张图像中估计三维人体的形状和姿态是近年来三维视觉领域的一个研究热点。它在人体运动捕捉、虚拟试衣和人体动画等虚拟现实技术的应用方面有着重要的作用。近年来,深度学习技术简化了从单张图像恢复人体整体形状的求解方式,特别是在SMPL模型被提出并得到广泛应用以后,单目图像三维人体形状和姿态估计经历了多个阶段的蓬勃发展,包括(1)通过匹配二维视觉特征来优化求解SMPL参数;使(2)用卷积神经网络(CNN)直接回归SMPL参数;(3)利用二维UV贴图表示SMPL表面三维点,进而将三维人体形状估计转化成基于CNN的图像翻译问题。深度神经网络凭借其准确性和运行效率成为三维人体形状估计的主流方法,它们能够在特定场景下获得较好的重建结果。然而,现有方法大多都没有考虑人和物体之间的遮挡这一常见的现象。如果不明确考虑遮挡,这类方法就不能直接转移到处理遮挡场景下的人体估计。这导致它们对带遮挡甚至轻微物体遮挡的场景十分敏感,难以满足现实需求。
一直以来,遮挡场景下的人体三维形状和姿态估计始终是领域内的难点,其主要原因有:(1)对象遮挡会在网络训练中引入严重的歧义,并且导致可直接利用的图像特征大大减少,从而影响完整的三维人体形状估计效果。(2)由于遮挡物体的普遍性和随机性,网络难以准确分割图像中人体和遮挡对象所在的像素,导致重建结果受到干扰。
发明内容
发明目的:针对遮挡场景下的人体形状和姿态估计问题,本发明提出一种针对物体遮挡场景的人体形状和姿态估计方法,将遮挡人体形状估计转化为二维UV贴图的图像修复问题,进而实现遮挡场景下人体的实时、动态重建。
技术方案:本发明所述的一种针对物体遮挡场景的人体形状和姿态估计方法,包括以下步骤:
(1)在数据准备阶段,利用三维人体数据集人体三维关节点与二维关节点之间的对应关系计算弱透视投影参数;
(2)根据计算得到的弱透视投影参数,通过三维旋转、平移将人体三维模型转换到相机坐标下;
(3)将相机坐标下的人体三维模型顶点x,y,z坐标值归一化到-0.5至0.5范围内后存入UV贴图的R,G,B三个通道中,获得不带遮挡情况下包含人体形状信息的UV贴图;
(4)对人体二维图像加入随机物体图片遮挡,并获取遮挡情况下的人体掩膜;
(5)重复步骤(3),使用弱透视投影后落在掩膜区域之外的三维点为视觉遮挡下的三维点,其x,y,z坐标固定设为-0.5,获得对应遮挡下的UV贴图;
(6)在训练阶段,基于步骤(1)至步骤(5)获得的虚拟遮挡数据训练编码-解码结构的UV贴图修复网络;所述修复网络以与完整人体UV图之间的L1损失,相邻像素之间的拉普拉斯平滑项以及UV连接处一致性作为约束;
(7)利用真实物体遮挡人体彩色图像作为输入,以掩膜图像作为真值构建编码-解码结构的显著性检测网络;
(8)将遮挡人体彩色图片与显著性图连接后送入人体编码网络,同时将相应遮挡下的UV贴图使用步骤(6)训练好的修复网络进行编码,使用编码得到的隐空间特征监督人体编码网络训练;
(9)在测试阶段,输入遮挡人体彩色图像,经由显著性检测网络,人体编码网络,将人体编码网络编码得到的隐空间特征值使用修复网络的解码器解码,得到完整的UV图像;
(10)使用UV贴图与人体三维模型的顶点对应关系恢复出遮挡情况下的人体三维模型。
进一步地,步骤(6)所述的UV贴图修复网络使用ResNet作为编码器,以堆叠的反卷积层作为解码器。
进一步地,所述步骤(6)通过以下公式实现:
L=L1+λLtv+μLp
其中,λ,μ为权重,Ltv为拉普拉斯平滑项,Lp为UV连接处一致性约束:
其中,Vb是对应多个UV像素的模型顶点点集,P(v)是模型顶点v对应的UV像素值。
进一步地,步骤(8)所述的人体编码网络使用VGG-19结构。
进一步地,步骤(9)所述的彩色图像为从单目彩色相机获取的经过预处理的人体遮挡图像。
有益效果:与现有技术相比,本发明的有益效果为:1、使用大量虚拟遮挡数据训练图像修复网络,使得整体框架对各类遮挡均具有较好鲁棒性;2、使用显著性检测,减小遮挡和背景等无效图像特征对重建的干扰,增强对图像中人体与遮挡边缘的鲁棒性,避免了分割不准确的问题;3、使用隐空间一致性的方法,将人体三维形状估计转化为图像修复问题,降低了求解复杂度;4、提出一种UV连接处一致性约束,提高了以UV贴图进行人体重建方法中重建结果的平滑度。
附图说明
图1为本发明的流程图;
图2为人体信息UV图生成示意图;
图3为人体形状信息UV图;
图4为人体三维模型示意图;
图5为显著性检测网络结构图;
图6为本发明的重建结果示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。如图1所示,本发明所述的一种针对物体遮挡场景的人体形状和姿态估计方法实现过程如下:
如图2所示,人体信息UV图的生成方式为:在数据准备阶段,首先利用三维人体数据集中人体三维模型关节点与二维关节点之间的投影关系计算弱透视投影参数并通过三维平移、旋转等操作将人体模型转化到相机坐标下,将相机坐标下的人体三维模型顶点x,y,z坐标归一化到[-0.5,0.5]并存入UV贴图的R,G,B三个通道,由此获得如图3所示的不带遮挡情况下包含人体形状信息的UV贴图。为了获取遮挡人体UV图,对人体二维图像加入随机物体图片遮挡,并获取遮挡情况下的人体掩膜。将人体三维模型通过投影参数向人体掩膜进行弱透视投影。落在掩膜区域之外的三维点为视觉遮挡下的三维点,其x,y,z坐标固定设为-0.5,掩膜区域内的仍然存入顶点三维坐标,从而获得如图4中所示的对应遮挡下的UV贴图。由于此步骤中遮挡UV图与完整UV图均与彩色图像的背景无关,因此可以使用虚拟遮挡产生大量遮挡UV数据,增强网络的鲁棒性。
使用获取得到的大量遮挡UV图和完整UV图,训练以ResNet-50为编码器,堆叠反卷积层为解码器的图像修复网络。该网络能够遮挡UV图编码为高维人体特征,并从高维特征中解码出完整的人体形状UV图。网络以与完整人体UV图之间的L1 loss,相邻像素之间的拉普拉斯平滑项以及UV连接处一致性作为约束。
其具体公式为:
L=L1+λLtv+μLp
其中,λ,μ为权重,Ltv为拉普拉斯平滑项,Lp为UV连接处一致性约束:
其中,Vb是对应多个UV像素的模型顶点点集,P(v)是模型顶点v对应的UV像素值。该约束能够使如图3所示的UV图的各个部分平滑连接。
以真实物体遮挡人体彩色图像作为输入,掩膜图像作为真值构建编码-解码结构的显著性检测网络,经过如图5所示的显著性图检测网络后,得到该遮挡图像的人体显著性图。将遮挡人体彩色图片与显著性图连接后送入人体编码网络,同时将相应遮挡下的UV贴图使用训练好的修复网络进行编码,使用编码得到的隐空间特征监督人体编码网络训练。此处输入以VGG-19为基本结构的人体编码网络。使用与该彩色图像对应的遮挡UV图,经过图像修复网络的编码器得到的高维特征作为人体编码网络的监督。同时如图5,以不同缩放比例的人体掩膜作为显著性网络的监督,对两个网络进行端到端训练。
完成网络训练之后,直接从单目彩色相机获取人体遮挡图像并进行裁剪、缩放等预处理。将预处理后的彩色图像输入网络,直接经过显著性检测网络,人体编码网络后得到高维人体特征。将人体编码网络编码得到的隐空间特征值使用修复网络的解码器解码得到高维特征,然后使用图像修复网络的解码器解码得到完整UV图像。经过UV贴图与人体三维模型之间的对应关系,可以直接从人体形状UV图中恢复出对应形状的人体三维模型。图6中展示了遮挡人体彩色图像经过该方法的重建结果。
Claims (5)
1.一种针对物体遮挡场景的人体形状和姿态估计方法,其特征在于,包括以下步骤:
(1)在数据准备阶段,利用三维人体数据集人体三维关节点与二维关节点之间的对应关系计算弱透视投影参数;
(2)根据计算得到的弱透视投影参数,通过三维旋转、平移将人体三维模型转换到相机坐标下;
(3)将相机坐标下的人体三维模型顶点x,y,z坐标值归一化到-0.5至0.5范围内后存入UV贴图的R,G,B三个通道中,获得不带遮挡情况下包含人体形状信息的UV贴图;
(4)对人体二维图像加入随机物体图片遮挡,并获取遮挡情况下的人体掩膜;
(5)重复步骤(3),使用弱透视投影后落在掩膜区域之外的三维点为视觉遮挡下的三维点,其x,y,z坐标固定设为-0.5,获得对应遮挡下的UV贴图;
(6)在训练阶段,基于步骤(1)至步骤(5)获得的虚拟遮挡数据训练编码-解码结构的UV贴图修复网络;所述修复网络以与完整人体UV图之间的L1损失,相邻像素之间的拉普拉斯平滑项以及UV连接处一致性作为约束;
(7)利用真实物体遮挡人体彩色图像作为输入,以掩膜图像作为真值构建编码-解码结构的显著性检测网络;
(8)将遮挡人体彩色图片与显著性图连接后送入人体编码网络,同时将相应遮挡下的UV贴图使用步骤(6)训练好的修复网络进行编码,使用编码得到的隐空间特征监督人体编码网络训练;
(9)在测试阶段,输入遮挡人体彩色图像,经由显著性检测网络,人体编码网络,将人体编码网络编码得到的隐空间特征值使用修复网络的解码器解码,得到完整的UV图像;
(10)使用UV贴图与人体三维模型的顶点对应关系恢复出遮挡情况下的人体三维模型。
2.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法,其特征在于,步骤(6)所述的UV贴图修复网络使用ResNet作为编码器,以堆叠的反卷积层作为解码器。
4.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法,其特征在于,步骤(8)所述的人体编码网络使用VGG-19结构。
5.根据权利要求1所述的一种针对物体遮挡场景的人体形状和姿态估计方法,其特征在于,步骤(9)所述的彩色图像为从单目彩色相机获取的经过预处理的人体遮挡图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099358.XA CN111339870B (zh) | 2020-02-18 | 2020-02-18 | 一种针对物体遮挡场景的人体形状和姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099358.XA CN111339870B (zh) | 2020-02-18 | 2020-02-18 | 一种针对物体遮挡场景的人体形状和姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339870A CN111339870A (zh) | 2020-06-26 |
CN111339870B true CN111339870B (zh) | 2022-04-26 |
Family
ID=71185382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099358.XA Active CN111339870B (zh) | 2020-02-18 | 2020-02-18 | 一种针对物体遮挡场景的人体形状和姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339870B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739161B (zh) * | 2020-07-23 | 2020-11-20 | 之江实验室 | 一种有遮挡情况下的人体三维重建方法、装置及电子设备 |
CN112530027A (zh) * | 2020-12-11 | 2021-03-19 | 北京奇艺世纪科技有限公司 | 一种三维点云修复方法、装置及电子设备 |
CN112785524B (zh) * | 2021-01-22 | 2024-05-24 | 北京百度网讯科技有限公司 | 一种人物图像的修复方法、装置及电子设备 |
CN112785692B (zh) * | 2021-01-29 | 2022-11-18 | 东南大学 | 一种基于深度uv先验的单视角多人人体重建方法 |
CN112819951A (zh) * | 2021-02-09 | 2021-05-18 | 北京工业大学 | 一种基于深度图修复的带遮挡三维人体重建方法 |
CN112907736B (zh) * | 2021-03-11 | 2022-07-15 | 清华大学 | 基于隐式场的十亿像素场景人群三维重建方法和装置 |
CN113378980B (zh) * | 2021-07-02 | 2023-05-09 | 西安电子科技大学 | 基于自适应上下文注意力机制的口罩遮挡人脸恢复方法 |
CN113538663B (zh) * | 2021-07-12 | 2022-04-05 | 华东师范大学 | 一种基于深度特征解耦的可控人体形状补全方法 |
CN113628342A (zh) * | 2021-09-18 | 2021-11-09 | 杭州电子科技大学 | 一种遮挡感知的三维人体姿态与形状重建方法 |
WO2024055194A1 (zh) * | 2022-09-14 | 2024-03-21 | 维沃移动通信有限公司 | 虚拟对象生成方法、编解码器训练方法及其装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780569A (zh) * | 2016-11-18 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种人体姿态估计行为分析方法 |
CN109242954A (zh) * | 2018-08-16 | 2019-01-18 | 叠境数字科技(上海)有限公司 | 基于模板变形的多视角三维人体重建方法 |
CN110119679A (zh) * | 2019-04-02 | 2019-08-13 | 北京百度网讯科技有限公司 | 物体三维信息估计方法及装置、计算机设备、存储介质 |
CN110533721A (zh) * | 2019-08-27 | 2019-12-03 | 杭州师范大学 | 一种基于增强自编码器的室内目标物体6d姿态估计方法 |
CN110633748A (zh) * | 2019-09-16 | 2019-12-31 | 电子科技大学 | 一种鲁棒的自动人脸融合方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005755B (zh) * | 2014-04-25 | 2019-03-29 | 北京邮电大学 | 三维人脸识别方法和*** |
TWI526992B (zh) * | 2015-01-21 | 2016-03-21 | 國立清華大學 | 擴充實境中基於深度攝影機之遮蔽效果優化方法 |
-
2020
- 2020-02-18 CN CN202010099358.XA patent/CN111339870B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780569A (zh) * | 2016-11-18 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种人体姿态估计行为分析方法 |
CN109242954A (zh) * | 2018-08-16 | 2019-01-18 | 叠境数字科技(上海)有限公司 | 基于模板变形的多视角三维人体重建方法 |
CN110119679A (zh) * | 2019-04-02 | 2019-08-13 | 北京百度网讯科技有限公司 | 物体三维信息估计方法及装置、计算机设备、存储介质 |
CN110533721A (zh) * | 2019-08-27 | 2019-12-03 | 杭州师范大学 | 一种基于增强自编码器的室内目标物体6d姿态估计方法 |
CN110633748A (zh) * | 2019-09-16 | 2019-12-31 | 电子科技大学 | 一种鲁棒的自动人脸融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111339870A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339870B (zh) | 一种针对物体遮挡场景的人体形状和姿态估计方法 | |
Peng et al. | Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans | |
CN108154550B (zh) | 基于rgbd相机的人脸实时三维重建方法 | |
Koch | Dynamic 3-D scene analysis through synthesis feedback control | |
CN112907631B (zh) | 一种引入反馈机制的多rgb相机实时人体动作捕捉*** | |
CN113706699A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN112785692B (zh) | 一种基于深度uv先验的单视角多人人体重建方法 | |
CN111950477A (zh) | 一种基于视频监督的单图像三维人脸重建方法 | |
US20220319055A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
Kang et al. | Competitive learning of facial fitting and synthesis using uv energy | |
Cheng et al. | Gaussianpro: 3d gaussian splatting with progressive propagation | |
CN113313828A (zh) | 基于单图片本征图像分解的三维重建方法与*** | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计*** | |
CN115951784A (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
JP2024510230A (ja) | 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 | |
Cha et al. | Self-supervised monocular depth estimation with isometric-self-sample-based learning | |
Zhang et al. | Imaged-based 3D face modeling | |
US20230273318A1 (en) | System and method of capturing three-dimensional human motion capture with lidar | |
CN115578460A (zh) | 基于多模态特征提取与稠密预测的机器人抓取方法与*** | |
KR102577135B1 (ko) | 시퀀스의 압축을 위한 스켈레톤 기반의 동적 포인트 클라우드 추정 시스템 | |
CN113284249B (zh) | 一种基于图神经网络的多视角三维人体重建方法及*** | |
CN113920270A (zh) | 一种基于多视角全景的布局重建方法及其*** | |
Jäger et al. | A comparative Neural Radiance Field (NeRF) 3D analysis of camera poses from HoloLens trajectories and Structure from Motion | |
Cordea et al. | 3D head pose recovery for interactive virtual reality avatars | |
Li et al. | Geometry to the rescue: 3d instance reconstruction from a cluttered scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |