CN107818580A

CN107818580A - 根据深度图对真实对象进行3d重建

Info

Publication number: CN107818580A
Application number: CN201710817786.XA
Authority: CN
Inventors: M·A·阿亚里; V·吉特尼
Original assignee: Dassault Systemes of America Corp
Current assignee: Dassault Systemes of America Corp
Priority date: 2016-09-12
Filing date: 2017-09-12
Publication date: 2018-03-20
Anticipated expiration: 2037-09-12
Also published as: JP7180970B2; JP2018073393A; CN107818580B; EP3293705A1; US10499031B2; EP4131172A1; US20180077400A1; EP3293705B1

Abstract

本发明显著地涉及用于学习函数的计算机实现的方法，该函数被配置用于针对一类的真实对象根据该类的实例的深度图来重建表示实例的3D建模对象。该方法包括提供(S10)该类的参数化模型，创建数据库，以及利用数据库来学习(S30)该函数。该方法改进了根据深度图对真实对象进行3D重建。

Description

根据深度图对真实对象进行3D重建

技术领域

本发明涉及计算机程序和***领域，以及更具体地，涉及与根据深度图对表示真实对象(例如，人体)的3D建模对象进行重建相关的方法、***、以及程序。

背景技术

市场上提供了很多用于对象的设计、工程、以及制造的***和程序。CAD是计算机辅助设计的首字母缩写，例如，CAD涉及用于对对象进行设计的软件解决方案。CAE是计算机辅助工程的首字母缩写，例如，CAE涉及用于对未来产品的物理行为进行仿真的软件解决方案。CAM是计算机辅助制造的首字母缩写，例如，CAM涉及用于对制造工艺和操作进行定义的软件解决方案。在这样的计算机辅助设计***中，图形用户界面对于技术的效率起到重要作用。这些技术可以嵌入到产品生命周期管理(PLM)***中。PLM是指这样的商业策略：跨越扩展企业的概念而帮助公司来共享产品数据、应用公共过程以及利用企业知识来从概念至产品的生命结束地开发产品。由Dassault Systèmes提供的PLM解决方案(商标为CATIA、ENOVIA以及DELMIA)提供了：组织产品工程知识的工程中心、管理制造工程知识的制造中心、以及使得企业能够集成并连接到工程及制造中心的企业中心。该***一起提供了开放的对象模型，其将产品、过程、资源链接起来使得能够进行动态且基于知识的产品创造与决策支持，驱动优化的产品定义、制造准备、生产以及服务。

在这个框架下，计算机视觉和计算机图形学领域提供越来越有用的技术。事实上，这个领域具有3D重建上的应用。3D重建可以用于涉及创建(例如，纹理化)3D模型的任何领域，例如，功能性游戏、视频游戏、架构、考古学、反向工程、3D资产数据库、或虚拟环境。若干学术和工业人士现在提供用于3D重建的软件解决方案，例如，通过RGB和/或深度图像分析(例如，Acute3D、Autodesk、VisualSFM)，或者通过RGB深度分析(例如，ReconstructMe或Microsoft’s SDK for Kinect(注册商标))。

RGB深度(或RGB-D)图像分析是使用“发射器-接收器”传感器的3D重建方法，“发射器-接收器”传感器除了标准RGB数据之外还提供深度数据。深度数据可以构成在重建过程中主要使用的数据。以下文章涉及这种方法：“Yan Cui等人:3D Shape Scanning with aTime-of-Flight Camera,CVPR 2010”，“RS.Izadi等人:KinectFusion:Real-Time DenseSurface Mapping and Tracking,Symposium ISMAR 2011”，以及“R.Newcombe等人:LiveDense Reconstruction with a Single Moving Camera,IEEE ICCV2011”。深度-图(depth-map)分析重建方法基于视差图或近似3D点云。这些视差图是使用立体视觉或结构光(参见例如“Kinect”设备)或“飞行时间”3D照相机获得的。

RGB-D图像分析可以显著地用于对诸如人体的真实对象进行3D重建的过程。从对用户进行RGB-D获取(即，具有深度图图像的彩色图像)开始，这样的过程的目的在于预测用户身体的准确3D形状和/或姿势。这在虚拟试穿仿真、增强现实、物联网、以及视频游戏方面具有许多应用，其中例如利用单个RGB-D传感器来捕获用户身体形状和姿势。

3D人体重建文献中的大多数可以归纳为可以被称为“基于优化的方法”的单一类的方法。这些方法使用优化技术来估计3D人体参数、姿势、以及形状，优化技术应用于将用户的视图与3D参数化身体模型进行比较的成本函数。

下面列出了公开基于优化的方法的示例的文章：

-Balan，L.S.Detailed Human Shape and Pose from Images.CVPR,2007。

-Balan，M.B.The Naked Truth:Estimating Body Shape Under Clothing.ECCV,2008。

-A.Weiss，D.H.Home 3D body scans from noisy image and range data.ICCV,2011。

-F.Perbet，S.J.Human Body Shape Estimation Using Multi-ResolutionManifold Forest.CVPR,2014。

-M.Loper，M.B.OpenDR:An approximate Differentiable Renderer.ECCV,201.4。

-P.Guan，A.W.Estimating human shape and pose from a single image.ICCV,2009。

-Y.Chen，Z.L.Tensor-based Human Body Modeling.CVPR,2013。

如在这些文章中陈述的，基于优化的方法通过使用RGB-D照相机来捕获用户而开始。这实现RGB图像和深度图图像。该方法然后利用由形状和姿势参数控制的参数化模型来表示3D人体。形状参数捕获人的固有形状，而姿势参数捕获身体姿势。

使用该参数化模型以及用户RGB-D获取，基于优化的方法经常使用两个优化步骤来预测模型参数。

第一步骤在于通过将参数化身体模型的剪影与所观察到的剪影(从用户深度图中提取的)进行匹配来搜索身体参数(形状和姿势)。

使用双向成本来比较两个剪影，定义为例如：

E_剪影＝d(S→T)+d(T→S)

其中S是用户剪影，T是模型剪影，并且：

·如果索引的像素(i，j)在S内，则S_ij＝1，否则为0。

·如果像素(i，j)不在T中，则C_ij(T)＝像素(i，j)到S中最近像素的距离，否则为0。

第二步骤在于通过最小化两个图的成本函数来匹配身体参数与所观察到的深度图二者。成本函数被定义为重叠的两个深度图之间的距离，定义如下：

其中D_S是用户深度图，D_T是模型深度图，ρ是Geman-McClure估计器，而N是重叠像素的数量。

另一种基于优化的方法由上面引用的“F.Perbet，S.J.Human Body ShapeEstimation Using Multi-Resolution Manifold Forest.CVPR,2014”提出。该方法仅搜索形状参数，并且将形状估计的任务公式化为在人类身体形状的流形(manifold)上优化能量函数。从单个人类深度图开始，使用相似性测量找到关于流形的初始解决方案。然后使用迭代最近点来改良解决方案。

使用基于优化的重建方法来进行3D人体重建遭受不同的缺点。一个缺点涉及低收敛速度。例如，如上面引用的“A.Weiss，D.H.Home 3D body scans from noisy image andrange data.ICCV,2011”中所陈述的，该方法收敛可能花费超过四十五分钟。这是由于大量的未知数以及目标函数(其在大多数情况下是不可微的)的复杂度。另外，优化方法可能陷入局部最小值，因为采用的优化目标函数不是凸的。绕过局部最小值问题的常见策略是：通过将优化分解为每个优化具有不同未知数的若干优化问题，交替在姿势参数和形状参数之间进行优化。这显著地由上面引用的“Balan，M.B.The Naked Truth:Estimating BodyShape Under Clothing.ECCV,2008”提出。这避免了对大的未知数向量进行优化并且有助于收敛，但是该方法仍然花费重要的时间，并且不能保证收敛。

在这种上下文内，仍然需要改进的解决方案，以用于根据深度图来重建表示真实对象的3D建模对象。

发明内容

因此，提供了一种用于学习函数的计算机实现的方法，该函数被配置用于针对一类的真实对象根据该类的实例的深度图来重建表示实例的3D建模对象。该方法可以被称为“学习方法”或者“离线”模式或方法。

该学习方法包括提供该类的参数化模型。该学习方法还包括创建数据库。创建数据库包括改变参数化模型的参数，以生成各自表示该类的相应实例的3D建模对象。创建数据库还包括针对每个生成的3D建模对象合成由所生成的3D建模对象表示的实例的相应状态的相应深度图。创建数据库还包括将每个合成的深度图关联到对应的3D建模对象。学习方法还包括利用数据库来学习函数。

在示例中，学习方法可以包括以下中的一个或多个：

-针对每个生成的3D建模对象合成相应深度图包括：提供虚拟视点，以及确定表示从虚拟视点到所生成的3D建模对象的准确深度的理论深度图；

-针对每个生成的3D建模对象合成相应深度图还包括：至少在对应于相应的所生成的3D建模对象的轮廓的位置处将扰动添加到理论深度图；

-添加扰动包括将随机噪声添加到深度图；

-随机噪声是高斯噪声；

-随机噪声对应于深度传感器的噪声；

-深度传感器与在稍后讨论的重建方法中和/或稍后讨论的***中涉及的深度传感器相同或与其为相同类型；

-该类的真实对象是一类人体；和/或

-然后将通过学习方法习得的函数输出，例如，存储在存储器(例如，非易失性存储器)上，-和/或将该函数发送到远程***(例如，稍后讨论的***)，-例如，该学习方法由另一设备执行。

还提供了一种能够根据学习方法来学习的函数，即，与由学习方法输出的函数相对应的数据结构。在示例中，该函数是根据学习方法高效地习得的。该函数可以被称为“重建函数”。

还提供了一种用于针对一类的真实对象根据该类的实例的深度图来重建表示实例的3D建模对象的方法。这种方法可以被称为“重建方法”或者“在线”模式或方法。

重建方法包括提供重建函数。重建方法还包括提供深度图。重建方法还包括将重建函数应用于深度图。在示例中，深度图可以由深度传感器获取。

还提供了一种能够通过重建方法获得的3D建模对象，即，与由重建方法输出的3D建模对象相对应的数据结构。3D建模对象可以被称为“经重建的3D建模对象”。

还提供了一种计算机程序，包括用于执行学习方法和/或重建方法的指令。

还提供了一种计算机可读存储介质，即，存储器，其上记录有上面讨论的数据结构中的任一种或组合，即经重建的3D建模对象、重建函数、和/或计算机程序。

还提供了一种***，包括耦合到计算机可读存储介质或存储器的处理器。在示例中，***还可以包括深度传感器。

附图说明

现在将通过非限制性示例的方式并且参考附图来描述本发明的实施例，在附图中：

-图1示出了学习方法的示例的流程图；

-图2示出了重建方法的示例的流程图；

-图3示出了***的示例；以及

-图4-10示出了方法及其测试的示例。

具体实施方式

所提供的方法、程序、介质、以及***改进了根据实例真实对象的深度图对表示一类的真实对象中的实例的3D建模对象进行重建，显著地通过在这样的上下文中实现机器学习范例并且由此实现其优点。

重建方法允许从表示实例的相对简单的数据结构(即，实例的深度图)获得3D建模对象。在示例中，可以基于实例的单个深度图来执行重建方法。深度图可以通过包括利用深度传感器获取深度测量或由该操作构成的过程获得。因此，通过例如利用包括深度传感器的任何设备或***(例如，RGB-D照相机)简单地获取实例的深度图(例如，单个深度图)，可以非常容易地执行重建方法。然后，重建方法可以包括将重建函数应用于直接输出3D建模对象，其中计算复杂度仅取决于深度图的大小，因为重建函数直接应用于深度图。因此重建方法相对快速并实现实时性能。这开放了许多面向消费者的应用。

另外，在示例中，可以基于处于任何姿势的实例的深度图来执行重建方法。换言之，对于在对实例进行3D重建之前的深度数据获取，可以采用任何姿势。因此，3D重建在深度获取时提供自由姿势。由于将姿势变化性纳入考虑的重建函数，重建方法在获取深度数据时不要求采用参考姿势。这增加了执行重建方法时的灵活性。

这都是由于获得重建函数的方法，换言之，由于学习方法的特异性。特别地，重建函数是关于数据库习得的(即，通过机器学习获得的)，该数据库被适当地创建，以使得机器学习能够产生相关的结果。适于这种学习的预先存在的数据库不可用(例如，与在对用于识别例如图像中的猫的函数进行机器学习的上下文中不同，其中可以简单地检索并适当地索引在互联网上可获得的图像来形成学习数据库)。因此，学习方法通过使用该类的参数化模型来创建/合成这样的自组织学习数据库。然后，用于获得重建函数的机器学习过程(即，学习方法)可以在所创建的数据库上运行。具体地，数据库的创建产生各自与对应的3D建模对象相关联的深度图。因此，学习方法可以基于这样的数据库及其特定的“3D建模对象-深度图”数据关联来学习根据深度图重建3D建模对象的重建函数。

现在参考图1-3讨论方法和***的一般示例。

图1示出了离线学习方法的示例。

图1的方法产生被配置用于至少针对一(即，至少一个)类真实对象根据深度图来重建3D建模对象的函数。因此，通过学习方法获得的重建函数使得重建方法稍后可以应用于每个这样的类的真实对象。学习方法输出数据结构，该数据结构表示取深度图作为变元的函数如何处理这样的变元。因此，数据结构可以用于执行这样的处理。学习使得当重建函数在任何时间应用于表示该类的实例的深度图时，重建产生相对精确地表示所述实例的3D建模对象(即，就几何而言相对接近实例的真实形态)。该函数还可以应用于表示该类以外的真实对象的深度图或者抽象深度图(即，不表示任何真实对象)，并且例如产生以下3D建模对象：其表示与从最接近的深度图到抽象深度图的重建相对应的该类的实例。可替代地，可以限制该函数，以便于在这种情况下输出错误或空值。然而，这仅是实现方式的问题，并且因此在下面不再进一步讨论。

图1的学习方法包括在S10处提供该类真实对象的(即，至少一个)参数化模型。现在详细讨论该数据结构，尽管是众所周知的。

表述“真实对象的类”指定具有相似形态的真实对象的集合、组、或类别。术语“形态”指定真实对象的3D形状，而不管其姿势。换言之，真实对象的形态是由真实对象相对于其能够采用的所有可能的姿势可实现的3D形状的分布。真实对象的姿势对应于真实对象相对于内部变形自由度(如果有的话)如何站立(在真实对象根本没有内部变形自由度的情况下，则姿势是真实对象可以呈现的唯一3D形状)。换言之，真实对象的姿势对应于其内部变形自由度的特定配置。内部自由度可以对应于真实对象的块成员之间的真实对象的可变形部分(即，真实对象的不被变形的部分)。可变形部分可以形成铰接。铰接可以允许在两个块成员之间进行旋转，可扭转和/或(例如，稍微地)可拉伸。

该类的元素被称为“实例”。因此，实例是该类的真实对象。实例具有3D形状——取决于其姿势(如果有的话)。实例可以由对该实例的这种3D形状进行建模的3D建模对象来表示。显著地，在改变S22处，生成各自表示该类的相应实例的3D建模对象。3D建模对象可以表示处于给定姿势的实例。例如，由重建方法输出的3D建模对象可以表示处于如由深度图表示的实例的姿势的实例(提供其深度图以用于重建)。然而，不一定是这样的情况，这取决于如何执行改变S22和合成S24，显著地考虑到构思用于该方法的应用。稍后当讨论改变S22和合成S24时将更详细地进行讨论。

该类真实对象是可以通过这样的3D建模对象(各自代表其建模的真实对象的相应姿势)的方式来表示的真实对象的集合。每个这样的3D建模对象对应于相同参数化模型的参数值。因此，类可以由这样的代表性参数化模型来定义。参数化模型对于该类的所有真实对象都是共同的，从而表示该类。换言之，一类的真实对象是可以通过其相应的3D形状共享相同的参数化模型的事实来收集的真实对象的集合。因此，参数化模型可以用于获得各自表示处于相应姿势的该类的相应实例的不同3D形状(对应于不同的参数值)，即，具有处于所述相应姿势的所输出的3D形状的相应真实对象。这样的参数化模型在S10处出于这样的目的提供。注意，该类真实对象可以由不同的参数化模型来表示，即，由具有不同数据结构和/或不同数学表达式但是仍然产生相同类的形态并且因此在这种方面等效的模型来表示。学习方法可以在S10处提供，并且然后处理一个或若干这样的参数化模型。另外，学习方法还可以应用于单一类的真实对象或若干类的真实对象(在S10处针对每个类提供相应的参数化模型)。以下讨论涉及由该方法设想的单一类的情况，并且在S10处提供单一参数化模型。对多个情况的适应是简单直接的。

因此，参数化模型可以是基于输入参数来输出数据结构的函数，3D建模对象可以从该数据结构导出(例如，直接导出3D建模对象)。因此，参数化模型的参数的一组值表示3D建模对象(每个参数一个值)。参数化模型的图像(即，通过在其全部域上应用参数化模型而输出的该组值)表示处于相应姿势的该类真实对象的相应实例的3D形状。这些参数可以分为两个不同的类别：形状参数和姿势参数。形状参数控制在该类中对真实对象进行选择，而姿势参数控制所选定的真实对象的姿势。参数化模型的复杂度以及显著地所涉及的参数的数量取决于该类中的真实对象的形态的复杂度，以及取决于对类和/或姿势进行建模的精细度与合成需求之间的比率(换言之，对类和/或姿势进行建模所希望的区分级别)。这个数字一般可以低于100或75。例如，对于稍后提及的该类人体，在S10处提供的参数化模型可以涉及多于5个和/或小于15个(例如，以10为量级)用于表示实例选择的参数，和/或多于20或30个和/或小于60或45个用于表示所选定的实例的姿势的参数。参数化模型在参数化域上可以是连续的。参数的每个域可以是有界或非有界的实数范围。每个参数可以控制——例如连续地——变形或同态(homeomorphism)的类型。

例如，通过主成分分析(PCA)(如本身已知的)，可以根据处于相应姿势的该类的实例的3D形状的样本(例如，超过1000个)来确定一类的真实对象的参数化模型。3D形状可以以任何方式建模，例如，从数据库中检索或手动设计。然后，参数化模型将该类的实例的任何形状描述为由这样的PCA输出、由参数值加权的主成分之和。该学习方法可以包括这样确定参数化模型的先前步骤，或者可替代地，参数化模型可以预确定并简单地检索以在S10处提供的。

“参数化模型”的概念因此从现有技术中已知，并且显著地从较早引用的基于优化的方法的现有技术中已知。事实上，在这种方法中，优化过程经常搜索一类的真实对象的参数化模型的最优参数。在S10处提供的参数化模型可以是在这种现有技术中公开的这样的参数化模型。文章“A.Weiss，D.H.Home 3D body scans from noisy image and rangedata.ICCV,2011”显著地提供了一类人体的参数化模型的详细描述。

在示例中，参数化模型的输出可以是3D三角网格结构，其被定义为一组顶点(3D点)以及定义网格的三角形的该组点上的对应连接。该3D网格被建模为参考网格的变形。变形处于三角形的边的水平。其被定义为：

D_k＝R_p(k)(w)S_k(β)Q_k(w)

e_k,j＝x_k,j-x_k,0

j＝1,2

k＝1,..,n_T

X＝M^-1E

其中e_k,j是经变换网格中的第k个三角形的第j个边，其为大小(3×1)的向量。是参考网格中的对应的边。大小(3×1)的x_k,j是第k个网格三角形中的第j个顶点。n_T是3D人体输出网格中的三角形的数量。D_k是大小(3×3)的变形矩阵。

在示例中，该矩阵可以因式分解为：

1.大小(3×3)的刚性变换姿势矩阵R_p(k)，其是例如三角形k所属的刚性体部分p(k)的旋转。该矩阵是姿势参数w的函数。姿势参数w是身体关节的局部旋转。

2.大小(3×3)的非刚性变形姿势矩阵Q_k，其用作校正变形矩阵，例如，特别是在关节区域和肌肉区域的已变形的三角形上。每个Q_k矩阵被建模为两个最近的三角形关节局部旋转(6个参数)与Q_k的9个矩阵值之间的线性回归。

3.大小(3×3)的形状变形矩阵S_k，其是形状参数β的函数。该矩阵可以对人际形态变化进行建模，并且负责独立于身体姿势而使身体形状变形。所有网格三角形上的堆叠矩阵S_k被建模为在身体形状数据库上的主成分分析：

其中S是大小(9×n_T)的矩阵，S₀是平均身体形状，S_l是第l个主成分。

E是大小(n_E×3)的边矩阵(针对所有三角形堆叠的e_k,j)，X是身体模型的输出，身体模型是大小为(n_v×3)的身体顶点的矩阵，并且最后M的大小为(n_E×n_v)。

该类真实对象可以是对其而言3D重建证明有用的任何类。该方法对于可以采用不同姿势的类的真实对象(即，具有至少一个内部自由度的真实对象)特别有用。实际上，在这种情况下，该方法允许的对深度数据的自由形式的获取特别有用。这显著地在该类真实对象是一类人体时保持真实。此外，根据深度数据对3D重建进行研究主要集中于这样的一类的真实对象，显著地由于有希望的应用，例如，在虚拟试穿仿真、增强现实、物联网、以及视频游戏中，其中例如利用单个RGB-D传感器来捕获用户的身体形状和姿势。

然而，该类可以收集任何其它类型的真实对象，包括动物、身体器官部分、或植物/树木，或者包括诸如(例如，机械的)零件或零件的组装或更一般地任何刚性体组装的产品(例如，移动机构)。产品可以用于各种且无限制的工业领域，包括：航空航天、建筑、建造、消费品、高科技设备、工业装备、运输、船舶和/或海上石油/天然气生产或运输。该方法可以设想可以是任何机械零件的工业产品，例如，陆地交通工具的一部分(包括例如汽车和轻型卡车装备、赛车、摩托车、卡车和电机装备、卡车和公共汽车、火车)，航空交通工具的一部分(包括例如机身装备、航空航天装备、推进装备、国防产品、飞机装备、空间装备)，航海交通工具的一部分(包括航海装备、商船、近海装备、游艇和工作船、船舶装备)，一般机械零件(包括例如工业制造机械、重型移动机械或装备、安装装备、工业装备产品、制造金属产品、轮胎制品等)，机电或电子零件(包括例如消费电子、安全和/或控制和/或仪表化产品、计算和通信装备、半导体、医疗设备和装备)，消费品(包括例如家具、家居和园艺产品、休闲用品、时尚产品、硬商品零售商的产品、软商品零售商的产品)，包装(包括例如食品和饮料和烟草、美容和个人护理、家用产品包装)。

现在讨论图1的学习方法的其它步骤。

该学习方法包括基于参数化模型来创建数据库。数据库然后可以用于机器学习，并且因此可以被称为“学习数据库”。如从机器学习领域本身已知的，这样的学习数据库可以包括训练数据库(用于在S30处确定候选重建函数)和测试数据库(用于在S30处评估候选重建函数是否良好执行)。训练数据库可以包括比测试数据库多的数据片，例如，多于数据片的总数的60％(例如，80％的量级)。数据片的总数取决于所设想的学习质量以及针对所设想的特定类的真实对象的深度图的区分能力。该数字可以高于1.000、10.000、50.000、或者100.000(例如，对于非常快速的学习而言为40.000的量级，对于非常精确的学习而言为120.000的量级)。

创建数据库包括改变S22参数化模型的参数，以生成各自表示该类的相应实例的3D建模对象。换言之，该方法通过使用参数化模型(即，通过确定利用特定参数值对参数化模型进行评估的结果)，在S22处确定各自表示(处于相应姿势的)该类的相应实例的3D建模对象。因此，改变S22实现对参数化模型的参数化域的采样。参数值可以在S22处以任何方式改变。在S22处生成的3D建模对象可以表示该类的不同实例。对于该类的实例中的至少一部分，相同的实例可以严格地由在S22处生成的多于一个3D建模对象来表示(例如，表示实例的不同姿势)。可替代地，该类的每个实例可以由至多一个所生成的3D建模对象来表示(因此针对所有实例提供至多一个姿势)。所生成的3D建模对象可以表示处于相同姿势(跨实例)或者可替代地处于不同姿势的实例。在示例中，改变包括在对参数化域的采样中的规则性水平和/或随机性水平。在示例中，可以将采样均匀地应用于利用参数的最小值和最大值约束的每个模型参数。最小值/最大值是仍然给出合理身体形状的值。

该学习方法还包括针对每个所生成的3D建模对象合成S24由所生成的3D建模对象表示的相应实例的相应深度图。换言之，该学习方法在S24处针对每个所生成的3D建模对象人工地(例如，并且自动地)构造深度图，该深度图表示如果对由3D建模对象表示的实例的深度进行测量将获得的深度图。这是计算地完成的，即，没有进行测量。然后，这允许通过学习后验函数来构建重建函数，该函数变换对应的3D建模对象中的深度图，并且由此允许对由深度图表示的该类的实例进行建模。

为此，学习方法通过将每个合成的深度图关联S26到对应的3D建模对象来创建数据库。如图1所示，在S26处关联到给定深度图的对应的3D建模对象可以是在S22处生成的3D建模对象，给定深度图根据在S22处生成的3D建模对象在S24处合成。这允许学习将重建这样的3D建模对象的重建函数：该3D建模对象不仅表示实例而且还表示在重建方法期间对深度图进行测量时实例的姿势。但是不一定是这种情况。实际上在示例中，在S26处，合成的深度图可以关联到任何3D建模对象，其表示这种实例而不一定处于正确的姿势。这取决于该方法是仅应用于对实例进行重建(而不是姿势)，还是也对姿势进行重建。在任何情况下，如从机器学习领域本身已知的，在S26处执行的关联制约将在S30处学习的内容，并且因此执行S26的方式精确地取决于重建函数的目的。

一旦创建了数据库，则学习方法在S30处基于数据库来学习重建函数。学习S30通常利用任何机器学习方案来执行，如从机器学习领域本身已知的。执行学习S30的方式与设想用于要被学习的重建函数的结构密切相关。例如，重建函数可以包括回归函数，并且机器学习回归学习。显著地，重建函数可以包括神经网络的应用。神经网络可以实现处理层(例如，多于2层)，例如，包括应用线性运算然后进行逐点非线性化的层，例如卷积层和/或最大池化层(例如，在交替中)。例如，神经网络可以是深度卷积神经网络(CNN)。重建函数还可以包括在以上(多个)处理之前对初始(原始)深度图进行预处理。预处理可以包括或者在于丰富原始深度图和/或从原始深度图导出实例的另一表示。预处理可以包括或者在于初始特征提取，例如，初始手工特征提取(例如，基于所计算的法线图或者对法线图进行计算)。可替代地，该方法可以在初始(原始)深度图中直接执行以上(多个)处理(换言之，该方法可以排除任何这样的预处理)。然而，可以实现根据所创建的数据库的其它类型的机器学习，例如，线性回归算法和非线性回归算法(例如，基于核心的)。

现在详细讨论针对每个生成的3D建模对象合成S24相应的深度图。

合成S24可以以任何方式执行，这取决于本领域技术人员希望如何训练重建函数。图1所示的S24的高效且简单的示例包括提供S242虚拟视点，以及确定S244表示从虚拟视点到所生成的3D建模对象的准确深度的理论深度图。换言之，针对在S22处生成的每个3D建模对象，基于在关联到所生成的3D建模对象的参考系中提供的理论视点来计算准确的理论深度图，例如，使用简单的几何计算，例如由应用从理论视点进行透视投影构成。视点可以是相同的或者呈现一个或若干(例如，全部)球面坐标——相对于关联到所生成的3D建模对象的球面参考系——球面坐标跨S242的迭代(即，跨不同的3D建模对象)是不同的。极角和方位角可以是固定的(例如，由参数化模型的参数直接提供跨这些角的变化)。在示例中，半径可以是固定的或有界的(例如，如果在重建方法中使用的硬件仅提供一个测量点用于对实例进行定位)。

图1的示例的合成S24还包括将扰动添加S246到在S244处获得的理论深度图。至少在理论图的对应于所生成的3D建模对象的轮廓的位置处添加扰动。所生成的3D建模对象的轮廓对应于深度的不连续性(例如，从实例到背景和/或从突起到后面的部分的通道)。对应于轮廓的位置可以指定轮廓本身或者具有低于预确定的阈值的宽度的(例如，几个像素)、围绕轮廓的条带。换言之，在S246处，至少在所生成的3D建模对象的轮廓处对理论图(即，通过从虚拟视点进行透视投影获得的)进行修改。扰动是在使得轮廓的规则性减少的这种轮廓处对深度数据进行的任何类型的修改。这大大地改进了学习，并且产生更精确的重建函数。

实际上，根据2D图像(例如，深度图)进行机器学***滑轮廓的重建函数。然而，在真实的深度测量中，轮廓不那么平滑，不仅因为真实对象的轮廓绝不是完全规则的(规则性的这种缺乏通常不被参数化模型捕获)，而且更重要的是因为深度传感器仅提供有噪声的测量。在S246处添加扰动打破了不希望的规则性(即，理论深度图中的轮廓具有过高的“平滑度”)。这种规则性在学习重建函数时实际上会削弱训练，从而导致不太有用的重建函数。

添加S246可以包括向深度图添加随机噪声。随机噪声可以是应用于整个理论深度图的随机变量，并且在理论深度图中的所生成的3D建模对象的轮廓处特别地表达。随机噪声可以是高斯噪声。

在示例中，添加随机噪声可以在数学上对应于：

其中I_ij是深度图像中的i×j像素位置深度值，是像素位置i×j处的归一化深度图像梯度值，而是从均值为0且方差在1cm与5cm之间的高斯分布中采样的实数。

一种特别高效的学习方法是在S246处将对应于深度传感器的噪声的随机噪声添加到在S244处输出的理论深度图。深度传感器被广泛地研究，其所呈现的噪声的特性是已知的或者能够得知。学习方法可以显著地耦合到设想使用具有特定深度传感器的***的重建方法。在这种情况下，这种特定深度传感器类型的深度传感器的噪声或者所述特定深度传感器的特定噪声可以被建模为随机高斯噪声，并且在学习期间在S246处被添加。这产生特别精确的重建函数。

图2示出了在线(或“内联”)重建方法的示例。这种方法使用重建函数(例如，作为预确定的数据片)根据该类的实例的深度图来重建表示实例的3D建模对象。

因此，重建方法包括提供S40重建函数(例如，经由图1的方法获得的)。重建函数可以存储在存储器上，并且因此随时可用。

重建方法还包括提供S50深度图。在S50处提供的深度图表示其代表性3D建模对象将被重建的实例。例如，深度图是通过由深度传感器关于处于给定姿势的实例执行的测量获取的。获取可以在于单一深度图像说明。这使得获取快速且简单。实例在获取期间可以采用自由姿势。这使得获取灵活。

然后，重建方法包括将重建函数应用S60于深度图。重建函数的应用S60是快速的并且产生精确的结果。换言之，从重建获得的3D建模对象是其深度图在S50处被提供的实例的精确表示。当学习方法考虑深度传感器的测量中的噪声时(在较早讨论的步骤S246处)，这是尤其真实的。

重建函数是机器学习的函数，并且因此与运行基于优化的方法相比，重建函数的应用S60相对快并且相对鲁棒，因为重建函数不受到落入局部最小值的风险。重建函数的应用实际上可以更快或者以1秒的量级。在CNN回归学习方法的情况下，重建函数的应用S60可以显著地包括一系列卷积层并且然后点积，或者由其构成。在示例中，重建函数的应用S60可以显著地包括以下一系列内容或者由以下一系列内容构成：

1.总复杂度为的连续卷积层，其中l为卷积层的索引，d为神经网络深度(卷积层的数量)，n_l是第l层中滤波器的数量，s_l是滤波器的空间大小，并且最后m_l是输出特征图的空间大小。

2.最后卷积层的输出与所习得的完全连接层之间的点积。最后卷积层的大小为W_d×W_d×n_d。其中：

其中W₀是输入深度图像的宽度，并且也是高度。CNN的所习得的完全连接层参数的大小为d_fc，该层将包含本领域技术人员正在寻找的模型参数。该点积的复杂度为

总的来说，该方法的复杂度是

作为示例，本领域技术人员可以考虑以下参数的情况：

d＝5,d_fc＝10,W₀＝300

n₀＝1,n₁＝96,n₂＝256,n₃＝384,n₄＝384,n₅＝256

s₁＝11,s₂＝5,s₃＝3,s₄＝3,s₅＝3

m₁＝73,m₂＝36,m₃＝17,m₄＝17,m₅＝36

在该示例中，复杂度是8*10⁶量级的运算。现有的基于优化的算法关于相同的示例可能相反地消耗3*10¹¹量级的运算。

经重建的3D建模对象可以在较早提及的应用中如此使用。可替代地，经重建的3D建模对象可以用作基于优化的算法中的初始化数据。经重建的3D建模对象是很好的起始点，基于优化的算法可以更快地收敛。另外，可以将基于优化的算法限于姿势优化(即，经重建的3D建模对象的形状参数因此被固定)。

建模对象是由例如存储在数据库中的数据定义的任何对象。引申开来，表述“建模对象”指定数据本身。根据使用的***的类型，建模对象可以由不同种类的数据来定义。***实际上可以是CAD***、CAE***、CAM***、PDM***、和/或PLM***的任何组合。在这些不同的***中，建模对象由对应的数据来定义。本领域技术人员可以相应地提及CAD对象、PLM对象、PDM对象、CAE对象、CAM对象、CAD数据、PLM数据、PDM数据、CAM数据、CAE数据。然而，这些***不是互相排斥的，因为建模对象可以由对应于这些***的任何组合的数据来定义。因此，如根据下文提供的这种***的定义将显而易见的，***大可以是CAD和PLM***二者。

CAD***附加地表示至少适于在建模对象的图形表示的基础上来设计建模对象的任何***，例如，CATIA。在这种情况下，定义建模对象的数据包括允许建模对象的表示的数据。例如，CAD***可以使用边或线(在某些情况下使用面或表面)来提供CAD建模对象的表示。可以利用诸如非均匀有理B样条(NURBS)的各种方式来表示线、边、或表面。特别地，CAD文件包含规格，根据该规格可以生成几何形状，这反过来允许生成表示。建模对象的规格可以存储在单个CAD文件或多个CAD文件中。表示CAD***中的建模对象的文件的典型大小在每个零件一兆字节的范围内。并且建模对象典型地可以是成千上万个零件的组装。

在CAD的上下文中，建模对象典型地可以是3D建模的。“3D建模对象”表示由允许其3D表示的数据建模的任何对象。3D表示允许从所有角度来查看该零件。例如，3D建模对象当被3D表示时，可以围绕其轴中的任一个轴或者围绕显示该表示的屏幕中的任何轴来进行操纵并转动。这显著地排除了非3D建模的2D图标。3D表示的显示有助于进行设计(即，加快了设计人员统计地完成其任务的速度)。

该方法是计算机实现的。这表示该方法的步骤(或基本上所有步骤)由至少一个计算机或任何类似的***来执行。因此，该方法的步骤由计算机可能全自动地或半自动地执行。在示例中，可以通过用户-计算机交互来执行该方法的步骤中的至少一些步骤的触发。所需要的用户-计算机交互水平可以取决于预见的自动化水平，并与实现用户意愿的需求保持平衡。在示例中，该水平可以是用户定义的和/或预定义的。

该方法的计算机实现方式的典型示例是利用适于该目的的***来执行该方法。***可以包括耦合到存储器的处理器和图形用户接口(GUI)，存储器在其上记录有计算机程序，计算机程序包括用于执行该方法的指令。存储器还可以存储数据库。存储器是适于这样的存储的任何硬件，可能包括若干物理不同的部分(例如，一部分用于程序，而一部分可能用于数据库)。该***还可以包括深度传感器，其耦合到处理器并且被配置为获取实例的深度图以用于3D重建。***还可以包括用于实例在获取期间摆姿势的姿势点。

图3示出了***的示例，如连接到深度传感器的计算机***。

示例的***包括连接到内部通信BUS 1000的中央处理单元(CPU)1010，也连接到BUS的随机存取存储器(RAM)1070。该***还设置有图形处理单元(GPU)1110，其与连接到BUS的视频随机存取存储器1100相关联。视频RAM 1100在本领域中也被称为帧缓冲器。大容量存储设备控制器1020管理对大容量存储设备(例如，硬盘驱动器1030)的访问。适合于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器，通过示例的方式，包括半导体存储器设备(例如，EPROM、EEPROM、以及闪速存储器设备)；磁盘(例如，内部硬盘和可移除盘)；磁光盘；以及CD-ROM盘1040。前述中的任一个可以由专门设计的ASIC(专用集成电路)补充或并入其中。网络适配器1050管理对网络1060的访问。***还可以包括深度传感器1090。

计算机程序可以包括可由计算机执行的指令，该指令包括用于使得上面的***执行该方法的模块。程序可记录在包括***的存储器的任何数据存储介质上。例如，程序可以以数字电子电路来实现，或者以计算机硬件、固件、软件来实现，或以其组合来实现。程序可以被实现为装置，例如，有形地体现在机器可读存储设备中的产品，以用于由可编程处理器执行。方法步骤可以由执行指令的程序的可编程处理器来执行，以通过对输入数据进行操作并生成输出来执行该方法的功能。因此，处理器可以是可编程且耦合的，以从数据存储***的至少一个输入设备接收数据和指令，并向数据存储***的至少一个输出设备发送数据和指令。可以以高级过程语言或面向对象的编程语言来实现应用程序，或者如果需要则以汇编语言或机器语言来实现应用程序。在任何情况下，语言都可以是编译语言或解释语言。程序可以是全安装程序或更新程序。在任何情况下将程序应用于***都会产生用于执行该方法的指令。

3D重建可以是3D设计过程的一部分。“设计3D建模对象”指定作为精心制作3D建模对象的过程的至少一部分的任何动作或一系列动作。3D重建还可以是虚拟试穿仿真、增强现实、物联网、以及视频游戏的一部分。

现在参照图4-10来讨论应用于一类人体并且符合图1-2的示例的方法的示例。示例提及了RGB-D照相机，但是可以实现具有深度传感器的任何***(例如，纯深度感测设备，例如不具有RGB照相机)。另外，示例提及采用网格形式的3D建模对象。可以实现其它类型的3D建模对象(关于参数化模型提供)，例如，B-Reps。

现有技术的基于优化的方法在每次呈现新的用户时搜索3D身体模型参数。示例方法的思想不同地将问题公式化：代替搜索3D身体模型参数，示例的方法使用机器学习来学习从任何RGB-D照相机深度图到其3D身体模型参数的直接映射函数。这在图4所示的流水线中示出。从用户深度图的大型数据库(具有其已知的身体模型参数)中习得这样的映射。使用该思想，示例的方法定义了基于学习的新类别的3D人体重建。不同于现有的算法，示例的方法更快并且实现实时性能，这开放了更多面向消费者的应用。这些应用仅需要用户的深度图图像作为输入，并且不要求用户以参考姿势站立。示例的方法的详细流水线在图5中示出。

现在讨论图5所示的离线学习。

概述

可以从3D模型中提取的简单直接的信息是其深度图。重建方法希望的是相反的，本领域技术人员希望从深度图开始，推断3D身体模型网格或更准确地说推断其内部参数(形状和姿势)。离线预处理根据合成地生成的数据库来学习到模型参数的映射函数。该方法在用户轮廓上合成地添加随机噪声，以便于模拟噪声RGB-D照相机深度获取。深度图像数据库及其身体模型参数二者将构成学习数据。

合成数据库创建

示例的方法假设本领域技术人员已经拥有对人体形状和姿势变化进行处理的参数化3D身体模型。该模型将姿势和形状参数转换为对应的3D身体模型。为了构建深度图数据库，首先，该方法可以对形状和姿势参数空间进行随机采样并生成其对应的3D身体模型。其次，3D身体模型可以与公共向上的向量、相同的地平面、以及相同的比例对齐。最后，本领域技术人员可以使用虚拟照相机来提取每个3D模型的深度图。

噪声添加

示例的方法将随机噪声(高斯)添加到数据库深度图，特别是在身体模型轮廓上，以模拟有噪声的传感器深度图。这确保在相同的深度图图像结构上进行高质量的学习和测试。

特征图提取

特征提取部分是可选的。该方法可以使用所生成的有噪声的深度图或从深度图中提取更多的区分特征，例如，法线图或任何种类的图像表示的深度特征。特征提取的作用是推断在下一步中有助于学习算法的深度图的更加区分的表示。

回归学习

从深度图图像特征数据库与其模型参数(形状和姿势)耦合开始，该方法学习从特征图像的空间到模型参数的回归函数。本领域技术人员可以通过利用深层卷积神经网络(CNN)的特征来求解该回归。

深层卷积神经网络(CNN)

卷积神经网络通过被组织为如图6所示的层的简单运算的序列来转换输入图像，这表示卷积神经网络架构。每个层应用线性运算，之后进行逐点非线性化。在形式上，表示为向量的图像x的CNN的输出f(x)为：

f(x)＝γ_K(σ_K(W_K...γ₂(σ₂(W₂γ₁(σ₁(W₁x))...))

其中术语W_k是对应于线性运算的矩阵，函数σ_k是逐点非线性函数(Sigmoid)，并且函数γ_k执行下采样运算(池化(pooling))。对于CNN，矩阵W_k具有特定的结构并且对应于空间图的卷积。

训练

执行测试来验证关于深度图的集合学习CNN的思想。损失函数被定义为预测的参数与地面真值参数之间的欧几里得距离。

在测试中，使用文章“Krizhevsky，I.Sutskever，G.Hinton，ImageNetClassification with Deep Convolutional Neural Networks.NIPS,2012”中公开的方案(即，AlexNet架构，在最后两层上具有很小的变化)来训练回归CNN。将层N-1的输出的数目改变为示例中的身体参数的数目，而最后层(层N)被移除并替换为非常适合于回归问题的欧几里得损失层。

该测试使用超过120k个实例的数据库，分为80％用于学习而20％用于测试。测试包括训练网络以在每次迭代时使用32个深度图像的基于批次的学习利用随机梯度下降(SGD)找到矩阵W_k、σ_k、以及γ_k的最佳参数。图7的曲线图示出了随着时间的推移，训练损失和测试损失的演变。

现在讨论图5所示的在线阶段(特别是在线测试)。

根据实时RGB-D获取，并且使用上述预习得的回归函数，本领域技术人员可以直接估计人员的3D身体模型参数。

图8的绘图示出了来自随机生成的合成深度图(使用随机身体模型参数)的预测的3D身体模型。其示出了在预测的3D身体模型的每个顶点与地面真值3D身体模型之间计算的损失函数(欧几里得距离)的热图。在该曲线图中，出于测试的目的，只对形状进行预测并且将姿势设置为T参考姿势。本领域技术人员可以看出，所习得的回归函数很好地预测了身体形状：在非常小的顶点集合上所发现的最大误差是4.45mm。

另一测试将姿势参数整合到回归学习函数中。图9-10的绘图示出了预测(黑色)身体模型与地面真值(灰色阴影)身体模型之间的差异。本领域技术人员可以看到，预测的人体非常接近地面真值模型。

这可以给予使用姿势优化算法的姿势改良步骤完美的初始化。

Claims

1.一种用于学习函数的计算机实现的方法，所述函数被配置用于针对一类的真实对象根据所述类的实例的深度图来重建表示所述实例的3D建模对象，所述方法包括：

-提供(S10)所述类的参数化模型；

-创建数据库，创建所述数据库包括：

■改变(S22)所述参数化模型的参数，以生成各自表示所述类的相应实例的3D建模对象；

■针对每个生成的3D建模对象，合成(S24)由所生成的3D建模对象表示的所述相应实例的相应深度图；

■将每个合成的深度图关联(S26)到对应的3D建模对象；以及-利用所述数据库来学习(S30)所述函数。

2.根据权利要求1所述的方法，其中，针对每个所生成的3D建模对象合成相应深度图包括：

-提供(S242)虚拟视点；以及

-确定(S244)理论深度图，所述理论深度图表示从所述虚拟视点到所生成的3D建模对象的准确深度。

3.根据权利要求2所述的方法，其中，针对每个所生成的3D建模对象合成相应深度图还包括，至少在对应于所生成的3D建模对象的轮廓的位置处将扰动添加(S246)到所述理论深度图。

4.根据权利要求3所述的方法，其中，添加扰动包括将随机噪声添加到所述深度图。

5.根据权利要求4所述的方法，其中，所述随机噪声是高斯噪声。

6.根据权利要求4或5所述的方法，其中，所述随机噪声对应于深度传感器的噪声。

7.根据权利要求1-6中任一项所述的方法，其中，所述一类的真实对象是一类人体。

8.一种函数，所述函数被配置用于针对一类的真实对象根据所述类的实例的深度图来重建表示所述实例的3D建模对象，所述函数是能够根据权利要求1-7中任一项所述的方法来学习的。

9.一种用于针对一类的真实对象根据所述类的实例的深度图来重建表示所述实例的3D建模对象的方法，所述方法包括：

-提供(S40)根据权利要求8的函数；

-提供(S50)深度图；以及

-将所述函数应用(S60)于所述深度图。

10.根据权利要求9所述的方法，其中，所述深度图是由深度传感器获取的。

11.一种3D建模对象，所述3D建模对象能够通过权利要求9或10所述的方法获得。

12.一种计算机程序，包括指令，所述指令用于执行权利要求1-7中任一项所述的方法和/或权利要求9-10中任一项所述的方法。

13.一种计算机可读存储介质，其上记录有权利要求8所述的函数、权利要求11所述的3D建模对象、和/或权利要求12所述的计算机程序。

14.一种***，包括处理器，所述处理器耦合到根据权利要求13所述的计算机可读存储介质。

15.根据权利要求14所述的***，还包括深度传感器。