WO2022237249A1

WO2022237249A1 - 三维重建方法、装置和***、介质及计算机设备

Info

Publication number: WO2022237249A1
Application number: PCT/CN2022/075636
Authority: WO
Inventors: 曹智杰; 汪旻; 刘文韬; 钱晨; 马利庄
Original assignee: 上海商汤智能科技有限公司
Priority date: 2021-05-10
Filing date: 2022-02-09
Publication date: 2022-11-17
Also published as: TW202244853A; KR20230078777A; CN113160418A; JP2023547888A

Abstract

本公开提供一种三维重建方法、装置和***、介质及计算机设备，通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；基于预先获取的用于表示目标对象的特征的监督信息对所述参数的初始值进行优化，得到参数的优化值；基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

Description

三维重建方法、装置和***、介质及计算机设备

相关申请的交叉引用

本公开要求于2021年05月10日提交的、申请号为202110506464X、发明名称为“三维重建方法、装置和***、介质及计算机设备”的中国专利申请的优先权，该申请以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术领域，尤其涉及三维重建方法、装置和***、介质及计算机设备。

背景技术

三维重建是计算机视觉中的重要技术之一，在增强现实，虚拟现实等领域有许多潜在的应用。通过对目标对象进行三维重建，能够重建出目标对象的体态和肢体旋转。然而，传统的三维重建方式无法兼顾重建结果的准确性和可靠性。

发明内容

本公开提供一种三维重建方法、装置和***、介质及计算机设备。

根据本公开实施例的第一方面，提供一种三维重建方法，所述方法包括：通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；基于预先获取的用于表示目标对象的特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

在一些实施例中，所述监督信息包括第一监督信息，或者所述监督信息包括第一监督信息和第二监督信息；所述第一监督信息包括以下至少一者：所述目标对象的初始二维关键点，所述图像中所述目标对象上的多个像素点的语义信息；所述第二监督信息包括所述目标对象表面的初始三维点云。本公开实施例可以仅采用目标对象的初始二维关键点或者像素点的语义信息作为监督信息来对所述参数的初始值进行优化，优化效率较高，优化复杂度低；或者，也可以将目标对象表面的初始三维点云与前述的初始二维关键点或者像素点的语义信息共同作为监督信息，从而提高获取的参数的优化值的准确度。

在一些实施例中，所述方法还包括：通过关键点提取网络从所述图像中提取所述目标对象的初始二维关键点的信息。将关键点提取网络提取出的初始二维关键点的信息作为监督信息，能够为三维模型生成较为自然合理的动作。

在一些实施例中，所述图像包括所述目标对象的深度图像；所述方法还包括：从所述深度图像中提取所述目标对象上多个像素点的深度信息；基于所述深度信息将所述深度图像中所述目标对象上的多个像素点反向投影到三维空间，得到所述目标对象表面的初始三维点云。通过提取深度信息，并基于深度信息将二维图像上的像素点反向投影到三维空间，得到目标对象表面的初始三维点云，从而能够将该初始三维点云作为监督信息来优化参数的初始值，进一步提高了参数优化的准确性。

在一些实施例中，所述图像还包括所述目标对象的RGB图像；所述从所述深度图像中提取所述目标对象上多个像素点的深度信息，包括：对所述RGB图像进行图像分割，基于图像分割的结果确定所述RGB图像中目标对象所在的图像区域，基于所述RGB图像中目标对象所在的图像区域确定所述深度图像中目标对象所在的图像区域；获取所述深度图像中所述目标对象所在的图像区域中多个像素点的深度信息。通过对RGB图像进行图像分割，能够准确地确定目标对象的位置，从而准确地提取出目标对象的深度信息。

在一些实施例中，所述方法还包括：从所述初始三维点云中过滤掉离群点，将过滤后的所述初始三维点云作为所述第二监督信息。通过过滤离群点，从而减轻离群点的干扰，进一步提高了参数优化过程的准确性。

在一些实施例中，所述目标对象的图像通过图像采集装置采集得到，所述参数包括：所述目标对象的全局旋转参数、所述目标对象各个关键点的关键点旋转参数、所述目标对象的体态参数以及所述图像采集装置的位移参数；所述基于预先获取的用于表示目标对象特征的监督信息对所述参数的初始值进行优化，包括：在所述体态参数的初始值和关键点旋转参数的初始值保持不变的情况下，基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的位移参数的当前值以及所述全局旋转参数的初始值进行优化，得到位移参数的优化值和全局旋转参数的优化值；基于所述位移参数的优化值和全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化，得到关键点旋转参数的优化值和体态参数的优化值。由于在优化过程中，改变图像采集装置的位置与改变三维关键点位置均可以导致三维关键点的二维投影产生变化，这将会导致优化过程很不稳定。通过采用两阶段优化的方式，先固定关键点旋转参数的初始值和体态参数的初始值来对图像采集装置的位移参数的初始值和全局旋转参数的初始值进行优化，再固定位移参数的初始值和全局旋转参数的初始值，对关键点旋转参数的初始值和体态参数的初始值进行优化，提高了优化过程的稳定性。

在一些实施例中，所述监督信息包括所述目标对象的初始二维关键点；所述基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的位移参数的当前值以及所述全局旋转参数的初始值进行优化，包括：获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到；获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失；获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失；基于所述第一损失和第二损失对所述位移参数的当前值和全局旋转参数的初始值进行优化。预设部位可以是躯干等部位，由于不同的动作对躯干部位的关键点的影响较小，因此，通过采用躯干部位的关键点确定第一损失，能够减轻不同动作对关键点位置的影响，提高优化结果的准确性。由于二维关键点是二维平面上的监督信息，而图像采集装置的位移参数是三维平面上的参数，通过获取第二损失，能够减少优化结果落入二维平面上的局部最优点从而偏离真实点的情况。

在一些实施例中，所述监督信息包括所述目标对象的初始二维关键点；所述基于所述位移参数的优化值和全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化，包括：获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第三损失，所述优化二维投影关键点基于所述位移参数的优化值和全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、关键点旋转参数的初始值和体态参数的初始值得到；获取第四损失，所述第四损失用于表征所述全局旋转参数的优化值、关键点旋转参数的初始值和体态参数的初始值对应的姿态的合理性；基于所述第三损失和所述第四损失对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化。本实施例基于位移参数的优化值和全局旋转参数的优化值对关键点旋转参数的初始值和体态参数的初始值进行优化，提高了优化过程的稳定性，同时，通过第四损失保证了优化后的参数对应的姿态的合理性。

在一些实施例中，所述方法还包括：在基于所述位移参数的优化值和全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化之后，对所述全局旋转参数的优化值，所述关键点旋转参数的优化值，体态参数的优化值以及所述位移参数的优化值进行联合优化。本实施例在前述优化的基础上，对优化后的各项参数进行联合优化，从而进一步提高了优化结果的准确性。

在一些实施例中，所述监督信息包括所述目标对象的初始二维关键点和所述目标对象表面的初始三维点云；所述基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的位移参数的当前值以及所述全局旋转参数的初始值进行优化，包括：获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到；获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失；获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失；获取所述目标对象表面的第一三维点云与所述初始三维点云之间的第五损失；所述第一三维点云基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到；基于所述第一损失、第二损失和第五损失对所述位移参数的当前值和全局旋转参数的初始值进行优化。本实施例将三维点云加入到监督信息中对初始的各项参数进行优化，从而提高了优化结果的准确性。

在一些实施例中，所述对所述全局旋转参数的优化值，所述关键点旋转参数的优化值，体态参数的优化值以及所述位移参数的优化值进行联合优化，包括：获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第六损失，所述优化二维投影关键点基于所述位移参数的优化值和全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值得到；获取第七损失，所述第七损失用于表征所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值对应的姿态的合理性；获取所述目标对象表面的第二三维点云与所述初始三维点云之间的第八损失；所述第二三维点云基于所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值得到；基于所述第六损失、第七损失和第八损失对所述全局旋转参数的优化值，所述关键点旋转参数的优化值，体态参数的优化值以及所述位移参数的优化值进行联合优化。本实施例将三维点云加入到监督信息中对初始的各项参数进行优化，从而提高了优化结果的准确性。

根据本公开实施例的第二方面，提供一种三维重建装置，所述装置包括：第一三维重建模块，用于通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；优化模块，用于基于预先获取的用于表示目标对象的特征的监督信息对所述参数的初始值进行优化，得到参数的优化值；第二三维重建模块，用于基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

在一些实施例中，所述装置还包括：二维关键点提取模块，用于通过关键点提取网络从所述图像中提取所述目标对象的初始二维关键点的信息。将关键点提取网络提取出的初始二维关键点的信息作为监督信息，能够为三维模型生成较为自然合理的动作。

在一些实施例中，所述图像包括所述目标对象的深度图像；所述装置还包括：深度信息提取模块，用于从所述深度图像中提取所述目标对象上多个像素点的深度信息；反向投影模块，用于基于所述深度信息将所述深度图像中所述目标对象上的多个像素点反向投影到三维空间，得到所述目标对象表面的初始三维点云。通过提取深度信息，并基于深度信息将二维图像上的像素点反向投影到三维空间，得到目标对象表面的初始三维点云，从而能够将该初始三维点云作为监督信息来优化参数的初始值，进一步提高了参数优化的准确性。

在一些实施例中，所述图像还包括所述目标对象的RGB图像；所述深度信息提取模块包括：图像分割单元，用于对所述RGB图像进行图像分割，图像区域确定单元，用于基于图像分割的结果确定所述RGB图像中目标对象所在的图像区域，基于所述RGB图像中目标对象所在的图像区域确定所述深度图像中目标对象所在的图像区域；深度信息获取单元，用于获取所述深度图像中所述目标对象所在的图像区域中多个像素点的深度信息。通过对RGB图像进行图像分割，能够准确地确定目标对象的位置，从而准确地提取出目标对象的深度信息。

在一些实施例中，所述装置还包括：过滤模块，用于从所述初始三维点云中过滤掉离群点，将过滤后的所述初始三维点云作为所述第二监督信息。通过过滤离群点，从而减轻离群点的干扰，进一步提高了参数优化过程的准确性。

在一些实施例中，所述目标对象的图像通过图像采集装置采集得到，所述参数包括：所述目标对象的全局旋转参数、所述目标对象各个关键点的关键点旋转参数、所述目标对象的体态参数以及所述图像采集装置的位移参数；所述优化模块包括：第一优化单元，用于在所述体态参数的初始值和关键点旋转参数的初始值保持不变的情况下，基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的位移参数的当前值以及所述全局旋转参数的初始值进行优化，得到位移参数的优化值和全局旋转参数的优化值；第二优化单元，用于基于所述位移参数的优化值和全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化，得到关键点旋转参数的优化值和体态参数的优化值。由于在优化过程中，改变图像采集装置的位置与改变三维关键点位置均可以导致三维关键点的二维投影产生变化，这将会导致优化过程很不稳定。通过采用两阶段优化的方式，先固定关键点旋转参数的初始值和体态参数的初始值来对图像采集装置的位移参数的初始值和全局旋转参数的初始值进行优化，再固定位移参数的初始值和全局旋转参数的初始值，对关键点旋转参数的初始值和体态参数的初始值进行优化，提高了优化过程的稳定性。

在一些实施例中，所述监督信息包括所述目标对象的初始二维关键点；所述第一优化单元用于：获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到；获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失；获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失；基于所述第一损失和第二损失对所述位移参数的当前值和全局旋转参数的初始值进行优化。预设部位可以是躯干等部位，由于不同的动作对躯干部位的关键点的影响较小，因此，通过采用躯干部位的关键点确定第一损失，能够减轻不同动作对关键点位置的影响，提高优化结果的准确性。由于二维关键点是二维平面上的监督信息，而图像采集装置的位移参数是三维平面上的参数，通过获取第二损失，能够减少优化结果落入二维平面上的局部最优点从而偏离真实点的情况。

在一些实施例中，所述监督信息包括所述目标对象的初始二维关键点；所述第二优化单元用于：获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第三损失，所述优化二维投影关键点基于所述位移参数的优化值和全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、关键点旋转参数的初始值和体态参数的初始值得到；获取第四损失，所述第四损失用于表征所述全局旋转参数的优化值、关键点旋转参数的初始值和体态参数的初始值对应的姿态的合理性；基于所述第三损失和所述第四损失对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化。本实施例基于位移参数的优化值和全局旋转参数的优化值对关键点旋转参数的初始值和体态参数的初始值进行优化，提高了优化过程的稳定性，同时，通过第四损失保证了优化后的参数对应的姿态的合理性。

在一些实施例中，所述装置还包括：联合优化模块，用于在基于所述位移参数的优化值和全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化之后，对所述全局旋转参数的优化值，所述关键点旋转参数的优化值，体态参数的优化值以及所述位移参数的优化值进行联合优化。本实施例在前述优化的基础上，对优化后的各项参数进行联合优化，从而进一步提高了优化结果的准确性。

在一些实施例中，所述监督信息包括所述目标对象的初始二维关键点和所述目标对象表面的初始三维点云；所述第一优化单元用于：获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到；获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失；获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失；获取所述目标对象表面的第一三维点云与所述初始三维点云之间的第五损失；所述第一三维点云基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到；基于所述第一损失、第二损失和第五损失对所述位移参数的当前值和全局旋转参数的初始值进行优化。本实施例将三维点云加入到监督信息中对初始的各项参数进行优化，从而提高了优化结果的准确性。

在一些实施例中，所述联合优化模块包括：第一获取单元，用于获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第六损失，所述优化二维投影关键点基于所述位移参数的优化值和全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值得到；第二获取单元，用于获取第七损失，所述第七损失用于表征所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值对应的姿态的合理性；第三获取单元，用于获取所述目标对象表面的第二三维点云与所述初始三维点云之间的第八损失；所述第二三维点云基于所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值得到；联合优化单元，用于基于所述第六损失、第七损失和第八损失对所述全局旋转参数的优化值，所述关键点旋转参数的优化值，体态参数的优化值以及所述位移参数的优化值进行联合优化。本实施例将三维点云加入到监督信息中对初始的各项参数进行优化，从而提高了优化结果的准确性。

根据本公开实施例的第三方面，提供一种三维重建***，所述***包括：图像采集装置，用于采集目标对象的图像；以及与所述图像采集装置通信连接的处理单元，用于通过三维重建网络对所述图像中的所述目标对象进行三维重建，得到所述目标对象的参数的初始值，所述参数的初始值用于建立所述目标对象的三维模型；基于预先获取的用于表示目标对象特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任一实施例所述的方法。

根据本公开实施例的第六方面，提供一种计算机程序产品，该计算机程序产品存储于存储介质中并包括可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任一实施例所述的方法。

本公开实施例通过将三维重建网络对目标对象的图像进行三维重建，从而得到参数的初始值，再基于监督信息对所述参数的初始值进行优化，基于参数优化得到的参数的优化值来建立目标对象的三维模型。参数优化的方法优点在于能够给出较为精确的，符合图像二维观察特征的三维重建结果，但往往会给不自然的，不合理的动作结果，可靠性较低。而通过三维重建网络进行网络回归则能够给出较为自然合理的动作结果，因此，将三维重建网络的输出结果作为参数的初始值来进行优化，能够在保证三维重建结果可靠性的基础上，兼顾三维重建的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1A和图1B是一些实施例的三维模型的示意图。

图2是本公开实施例的三维重建方法的流程图。

图3是本公开实施例的整体流程图。

图4A和图4B分别是本公开实施例的应用场景的示意图。

图5是本公开实施例的三维重建装置的框图。

图6是本公开实施例的三维重建***的示意图。

图7是本公开实施例的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

对目标对象进行三维重建需要重建出目标对象的体态和肢体旋转，通常使用参数化模型来表达目标对象的体态和肢体旋转，而不仅仅是三维关键点。例如，对不同的人进行三维重建，分别重建出了体态较瘦的人的三维模型(如图1A所示)和体态较胖的人的三维模型(如图1B所示)，由于图1A所示的人和图1B所示的人处于相同的姿态下，关键点信息相同，仅通过关键点信息则无法表示出二者体态上的差异。

在相关技术中，一般通过参数优化和网络回归两种方式进行三维重建。参数优化的方法通常选择一套标准参数，依据目标对象的图像的二维视觉特征，采用梯度下降法来对目标对象的三维模型的参数的初始值进行迭代优化，其中图像的二维视觉特征可以选择二维关键点等。参数优化的方法优点在于能够给出较为准确的、符合图像二维视觉特征的参数估计结果，但往往会给出不自然、不合理的动作结果，并且参数优化的最终性能非常依赖参数的初始值，导致基于参数优化的三维重建方式可靠性较低。

网络回归的方法通常训练一个端到端的神经网络来学习从图像到三维模型参数的映射。网络回归的方法优点在于能够给出较为自然合理的动作结果，但由于缺乏大量的训练数据，三维重建结果可能与图像中的二维视觉特征不符，因此，基于网络回归的三维重建方式准确度较低。相关技术中的三维重建方式无法兼顾三维重建结果的准确性和可靠性。

基于此，本公开实施例提供一种三维重建方法，如图2所示，所述方法包括：

步骤201：通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；

步骤202：基于预先获取的用于表示目标对象的特征的监督信息对所述参数的初始值进行优化，得到参数的优化值；

步骤203：基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

在步骤201中，目标对象可以是三维对象，例如物理空间中的人、动物、机器人等，或者是所述三维对象上的一个或多个区域，例如，人脸或者肢体等。为了便于描述，下文以目标对象是人，对目标对象进行的三维重建为人体重建为例进行说明。所述目标对象的图像可以是单张图像，也可以包括从多个不同视角对目标对象进行拍摄得到的多张图像。基于单张图像的三维人体重建称为单目三维人体重建，基于不同视角的多张图像的三维人体重建称为多目三维人体重建。每张图像都可以是灰度图、RGB图像或者RGBD图像。所述图像可以是目标对象周围的图像采集装置(例如，相机或者摄像头)实时采集的图像，也可以是预先采集并储存的图像。

可以通过三维重建网络对目标对象的图像进行三维重建，其中，三维重建网络可以是一个预先训练的神经网络。三维重建网络可以基于图像进行三维重建，并估计出自然合理的参数的初始值，这里的参数的初始值可以通过一个向量来表示，所述向量的维度例如可以是85维，所述向量中包含人体的运动肢体旋转信息(即姿态参数的初始值，包括人体的全局旋转参数的初始值和23个关键点的关键点旋转参数的初始值)、体态参数的初始值以及摄像机的参数的初始值这三部分信息。人体可以由关键点和连接这些关键点的肢体骨骼表示，人体关键点可包括头顶、鼻子、脖子、左右眼、左右耳、胸部、左右肩膀、左右手肘、左右手腕、左右髋部、左右臀、左右膝盖、左右脚踝等关键点中的一个或多个，姿态参数的初始值用于确定人体的关键点在三维空间中的位置。体态参数的初始值用于确定人体的高矮胖瘦等身材信息。所述摄像机的参数的初始值用于确定人体在摄像机坐标系下在三维空间中的绝对位置，摄像机的参数包括摄像机与人体之间的位移参数以及摄像机的姿态参数，其中，摄像机的姿态参数的初始值可以用人体的全局旋转参数的初始值来代替。可以使用多人线性蒙皮(Skinned Multi-Person Linear，SMPL)模型的参数形式(称为SMPL参数)来表示所述人体参数。在获取SMPL参数的值之后，可以基于SMPL参数的值进行骨骼蒙皮处理，即使用一个映射函数M(θ,β)将体态参数的初始值和姿态参数的初始值映射为人体表面的三维模型，该三维模型包括6890个顶点，顶点之间通过固定的连接关系构成三角面片。可以使用一个预训练的回归器W，从人体表面模型的顶点进一步回归出人体的三维关键点

即：

在步骤202中，监督信息可以是图像的二维视觉特征(也被称为二维观察特征)，例如，图像中目标对象的二维关键点和所述目标对象上的多个像素点的语义信息中的至少一者。一个像素点的语义信息用于表征所述像素点处于所述目标对象上的哪个区域，所述区域例如可以是头部、手臂、躯干、腿等所在区域。在采用二维关键点信息作为监督信息的情况下，可以使用二维关键点提取网络对图像中的人体关键点位置进行估计，此处可以选用任意的二维姿态估计方法，例如OpenPose。除了采用二维视觉特征作为监督信息之外，还可以将二维视觉特征和目标对象表面的初始三维点云共同作为监督信息，从而进一步提高三维重建的准确性。

在所述图像包括深度图像(例如，所述图像为RGBD图像)的情况下，可以从所述深度图像中提取所述目标对象上多个像素点的深度信息，基于所述深度信息将所述深度图像中所述目标对象上的多个像素点投影到三维空间，得到所述目标对象表面的初始三维点云。

所述多个像素点可以是图像中目标对象上的部分或全部像素点。例如，可以包括目标对象上需要进行三维重建的各个区域的像素点，且每个区域中像素点的数量应大于或等于进行三维重建所需的数量。

由于图像中一般既包括目标对象，又包括背景区域。因此，可以对所述图像中包括的RGB图像进行图像分割，获取所述RGB图像中目标对象所在的图像区域，基于所述RGB图像中目标对象所在的图像区域确定所述深度图像中目标对象所在的图像区域；获取所述深度图像中所述目标对象所在的图像区域中多个像素点的深度信息。通过进行图像分割，可以从图像中提取出需要进行三维重建的目标对象所在的图像区域，避免图像中的背景区域对三维重建的影响。在一些实施例中，所述深度图像中的像素点与所述RGB图像中的像素点一一对应。例如，所述图像也可以为RGBD图像。

进一步地，还可以从三维点云(即，初始三维点云)中过滤掉离群点，监督信息可包括过滤后的三维点云。所述过滤可以采用点云过滤器实现。通过过滤掉离群点，能够得到更加精细的目标对象表面的三维点云，从而进一步提高三维重建的准确性。对三维点云中的每一个目标三维点，获取与该目标三维点距离最近的n个三维点到该目标三维点的平均距离，假设各个目标三维点对应的平均距离服从一个统计分布(例如，高斯分布)，可以计算该统计分布的均值和方差，并基于所述均值和方差设定一个阈值s，那么平均距离在阈值s范围之外的三维点，可以被视为离群点并从三维点云中过滤掉。

在实际应用中，如果所述图像为RGB图像，可以将二维观察特征作为监督信息对所述参数的初始值进行迭代优化。如果所述图像为RGBD图像，可以将二维观察特征和目标对象表面的三维点云共同作为监督信息对所述参数的初始值进行迭代优化。优化方式例如可以采用梯度下降法，本公开对此不做限制。

在步骤203中，可以基于所述参数的优化值进行骨骼蒙皮处理，得到所述目标对象的三维模型。

如图3所示，是本公开实施例的整体流程图。在输入为RGB图像的情况下，可以通过三维重建网络对RGB图像进行三维重建，得到图像中人的人体参数值，并采用关键点提取网络对图像中的人进行关键点提取，得到人体二维关键点。然后，将人体参数值作为参数的初始值，将人体二维关键点作为监督信息，通过参数优化模块对人体参数初始值进行优化，得到人体参数的优化值，并基于人体参数的优化值进行骨骼蒙皮处理，得到人体重建模型。

在输入为RGBD图像的情况下，可以将图像分解为RGB图像和TOF(Time of Flight，飞行时间)深度图，TOF深度图中包括RGB图像中各个像素点的深度信息。可以通过三维重建网络对RGB图像进行三维重建，得到图像中人的人体参数值，并采用关键点提取网络对图像中的人进行关键点提取，得到人体二维关键点。还可以采用点云重建模块来基于TOF深度图中的深度信息重建出人体表面点云。然后，将人体参数值作为参数的初始值，将人体二维关键点和人体表面点云共同作为监督信息，通过参数优化模块对人体参数初始值进行优化，得到人体参数的优化值，并基于人体参数的优化值进行骨骼蒙皮处理，得到人体重建模型。

进一步地，在得到人体重建模型之后，还可以基于RGB图像或者RGBD图像中的颜色信息，对人体重建模型进行色彩处理，以使人体重建模型与图像中的人物的颜色信息相匹配。

本公开实施例中，通过三维重建网络对图像中的目标对象进行三维重建，从而得到参数的初始值，再基于监督信息对所述参数的初始值进行优化，基于参数的优化值来建立目标对象的三维模型。参数优化的方法优点在于能够给出较为精确的，符合图像二维观察特征的三维重建结果，但往往会给不自然的、不合理的动作结果，可靠性较低。而通过三维重建网络进行网络回归则能够给出较为自然合理的动作结果，因此，将三维重建网络的输出结果作为参数的初始值来进行参数优化，能够在保证三维重建结果可靠性的基础上，兼顾三维重建的准确性。

在一些实施例中，在参数优化阶段，可以采用多阶段优化方法。所述多阶段优化方法可包括摄像机优化阶段与姿态优化阶段。在摄像机优化阶段，优化目标为全局旋转参数的值R以及所述图像采集装置与所述目标对象之间的位移参数的当前值t。其中，t和R都是三维向量，R使用轴角形式表达。在姿态优化阶段，优化目标为关键点旋转参数的值与体态参数的值。

由于在优化过程中，改变摄像机位置与改变人体三维关键点位置均可以导致三维关键点的二维投影产生变化，这将会导致优化过程很不稳定。因此在摄像机优化阶段中，固定人体姿态，在姿态优化阶段，固定摄像机位置，从而提高优化过程的稳定性。即，在所述体态参数的初始值和关键点旋转参数的初始值保持不变的情况下，基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的位移参数的当前值以及所述全局旋转参数的初始值进行优化，得到位移参数的优化值和全局旋转参数的优化值；然后保持位移参数的优化值和全局旋转参数的优化值不变，基于所述位移参数的优化值和全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化，得到关键点旋转参数的优化值和体态参数的优化值。

进一步地，可以获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到；所述二维投影关键点基于所述位移参数的当前值和全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到。获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失。获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失。基于所述第一损失和第二损失对所述位移参数的当前值和全局旋转参数的初始值进行优化。

其中，所述预设部位可以是躯干部位，所述目标二维投影关键点可以包括左右肩膀点，左右髋部点，脊柱中心点等关键点。由于不同的动作对躯干部位的关键点的影响较小，因此，通过采用躯干部位的关键点建立第一损失，能够减轻不同动作对关键点位置的影响，提高优化结果的准确性。第一损失也可以称为躯干关键点投影损失，第二损失也可以称为相机位移正则化损失，第一损失可通过下述公式(1)得到，第二损失可通过下述公式(2)得到：

L _cam＝||t-t _net|| ₂ (2)；

其中，L _torso和L _cam分别表示第一损失和第二损失，x _torso和

分别表示目标二维投影关键点和初始二维关键点，t和t _net分别表示所述图像采集装置与所述目标对象之间的位移参数的当前值以及所述位移参数的初始值。可以基于第一损失和第二损失确定第一目标损失L ₁，例如，所述第一目标损失可以确定为所述第一损失与所述第二损失之和，可通过下述公式(3)确定：

L ₁＝L _torso+L _cam (3)。

可以获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第三损失，其中，所述优化二维投影关键点基于所述位移参数的优化值和全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、关键点旋转参数的初始值和体态参数的初始值得到。获取第四损失，所述第四损失用于表征所述全局旋转参数的优化值、关键点旋转参数的初始值和体态参数的初始值对应的姿态的合理性。基于所述第三损失和所述第四损失对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化。

第三损失也可以称为二维关键点投影损失，第四损失也可以称为姿态合理性损失，第三损失可通过下述公式(4)确定：

其中，L _2d为第三损失，x和

分别表示所述优化二维投影关键点以及所述初始二维关键点。可以基于第三损失和第四损失确定第二目标损失，例如，所述第二目标损失可以确定为所述第三损失与所述第四损失之和，可通过下述公式(5)确定：

L ₂＝L _2d+L _prior (5)；

其中，L ₂为第二目标损失，L _prior为第四损失，可以采用高斯混合模型(Gaussian Mixture Model，GMM)来获取，用于判断全局旋转参数的优化值、关键点旋转参数的初始和体态参数的初始值对应的姿态是否合理，对不合理的姿态输出较大的损失。

在基于所述位移参数的优化值和全局旋转参数优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化之后，还可以对所述全局旋转参数的优化值，所述关键点旋转参数的优化值，体态参数的优化值以及所述位移参数的优化值进行联合优化，即采用三阶段优化方式。对于监督信息中包括目标对象表面的三维点云的信息的情况，可以采用所述三阶段优化方式，包括摄像机优化阶段、姿态优化阶段和点云优化阶段。

在摄像机优化阶段，可以获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到。获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失。获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失。获取所述目标对象表面的第一三维点云与所述初始三维点云之间的第五损失；其中，所述第一三维点云基于所述全局旋转参数的初始值、关键点旋转参数的初始值和体态参数的初始值得到。基于所述第一损失、第二损失和第五损失对所述位移参数的当前值和全局旋转参数的初始值进行优化。所述第五损失也可以称为最近点迭代(Iterative Closest Point，ICP)点云配准损失，可通过如下公式(6)确定：

式中，L _icp为所述第五损失，将所述初始三维点云看作点云P，将所述第一三维点云看作点云Q，K ₁＝{(p,q)}为点云P中的每个点到点云Q中距离最近的点构成的点对集合，K ₂＝{(p,q)}为点云Q中的每个点到点云P中距离最近的点构成的点对集合。第一损失和第二损失分别通过如下公式(7)和公式(8)表示：

L _cam＝||t-t _net|| ₂ (8)；

其中，L _torso和L _cam分别表示第一损失和第二损失，x _torso和

分别表示目标二维投影关键点和初始二维关键点，t和t _net分别表示所述位移参数的当前值以及所述位移参数的初始值。可以基于第一损失、第二损失和第五损失之和确定第一目标损失L ₁，再基于第一目标损失对所述位移参数的当前值和全局旋转参数的初始值进行优化，即，如以下公式(9)：

L ₁＝L _torso+L _cam+L _icp (9)。

三阶段优化过程中的姿态优化阶段与二阶段优化过程中的姿态优化阶段的优化方式相同，此处不再赘述。

在点云优化阶段，可以获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第六损失，其中，所述优化二维投影关键点基于所述位移参数的优化值和全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值得到。获取第七损失，所述第七损失用于表征所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值对应的姿态的合理性。获取所述目标对象表面的第二三维点云与所述初始三维点云之间的第八损失；其中，所述第二三维点云基于所述全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值得到。基于所述第六损失、第七损失和第八损失对所述全局旋转参数的优化值、所述关键点旋转参数的优化值、体态参数的优化值以及所述位移参数的优化值进行联合优化，可通过以下公式(10)和公式(11)进行优化：

式中，

为第六损失，

为优化二维投影关键点，

为初始二维关键点。第七损失可以采用高斯混合模型来获取，用于判断全局旋转参数的优化值、关键点旋转参数的优化值和体态参数的优化值对应的姿态是否合理，对不合理的姿态输出较大的损失。

为第八损失，P为所述初始三维点云看作点云，

为所述第二三维点云，

为点云P中的每个点到点云

中距离最近的点构成的点对集合，

为点云

中的每个点到点云P中距离最近的点构成的点对集合。进一步地，可以将第六损失、第七损失和第八损失之和确定为第三目标损失L ₃，并基于第三目标损失对所述全局旋转参数的优化值、所述关键点旋转参数的优化值、体态参数的优化值以及所述位移参数的优化值进行联合优化，可通过以下公式(12)进行联合优化：

L ₃＝L _2d+L _prior+L _icp (12)。

在目标对象的图像为RGB图像的情况下，可以基于前述包括摄像机优化阶段与姿态优化阶段的二阶段优化方法进行参数优化；在目标对象的图像为RGBD图像的情况下，可以基于前述包括摄像机优化阶段、姿态优化阶段与点云优化阶段的三阶段优化方法进行参数优化。

本方案的使用场景广泛，可以在虚拟试衣间、虚拟主播、视频动作迁移等场景中给出自然合理且准确的人体重建模型。

如图4A所示，是本公开实施例的虚拟试衣间应用场景的示意图。可以通过摄像头403采集用户401的图像，并将采集的图像发送给处理器(图中未示出)进行三维人体重建，以便获取用户401对应的人体重建模型404，并将人体重建模型404展示在显示界面402上供用户401观看。同时，用户401可以选择所需的服饰405，包括但不限于衣服4051和帽子4052等，可以基于人体重建模型404在显示界面402上显示服饰405，从而使用户401观看服饰405的穿戴效果。

如图4B所示，是本公开实施例的虚拟直播间应用场景的示意图。在进行直播的过程中，可以通过主播客户端407采集主播用户406的图像，将主播用户406的图像发送至服务器408进行三维重建，得到主播用户的人体重建模型，即虚拟主播。服务器408可以将主播用户的人体重建模型返回至主播客户端407进行展示，如图中的模型4071所示。此外，主播客户端407还可以采集主播用户的语音信息，并将语音信息发送至服务器408，以使服务器408对人体重建模型以及语音信息进行融合。服务器408可以将融合后的人体重建模型和语音信息发送至观看直播节目的观众客户端409进行显示和播放，其中，显示的人体重建模型如图中的模型4091所示。通过上述方式，可以在观众客户端409上显示虚拟主播进行直播的画面。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图5所示，本公开还提供一种三维重建装置，所述装置包括：

第一三维重建模块501，用于通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，所述参数的初始值用于建立所述目标对象的三维模型；

优化模块502，用于基于预先获取的用于表示目标对象的特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；

第二三维重建模块503，用于基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

如图6所示，本公开还提供一种三维重建***，所述***包括：

图像采集装置601，用于采集目标对象的图像；以及

与所述图像采集装置601通信连接的处理单元602，用于通过三维重建网络对所述图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，所述参数的初始值用于建立所述目标对象的三维模型；基于预先获取的用于表示目标对象的特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。

本公开实施例中的图像采集装置601可以是相机或者摄像头等具有图像采集功能的设备，图像采集装置601采集的图像可以实时传输给处理单元602，或者经过存储，并在需要时从存储空间传输到处理单元602。处理单元602可以是单个服务器或者是由多个服务器构成的服务器集群。处理单元602所执行的方法详见前述三维重建方法的实施例，此处不再赘述。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器701、存储器702、输入/输出接口703、通信接口704和总线705。其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。

处理器701可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。处理器701还可以包括显卡，所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。

存储器702可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器702可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行。

输入/输出接口703用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口704用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线705包括一通路，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器701、存储器702、输入/输出接口703、通信接口704以及总线705，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

Claims

一种三维重建方法，所述方法包括：

通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；

基于预先获取的用于表示所述目标对象的特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；

基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。
根据权利要求1所述的方法，其特征在于，所述监督信息包括第一监督信息，或者所述监督信息包括第一监督信息和第二监督信息；

所述第一监督信息包括以下至少一者：所述目标对象的初始二维关键点，所述图像中所述目标对象上的多个像素点的语义信息；

所述第二监督信息包括所述目标对象表面的初始三维点云。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过关键点提取网络从所述图像中提取所述目标对象的初始二维关键点的信息。
根据权利要求2或3所述的方法，其特征在于，所述图像包括所述目标对象的深度图像；所述方法还包括：

从所述深度图像中提取所述目标对象上所述多个像素点的深度信息；

基于所述深度信息将所述深度图像中所述目标对象上的所述多个像素点反向投影到三维空间，得到所述目标对象表面的所述初始三维点云。
根据权利要求4所述的方法，其特征在于，所述图像还包括所述目标对象的RGB图像；从所述深度图像中提取所述目标对象上所述多个像素点的深度信息，包括：

对所述RGB图像进行图像分割；

基于图像分割的结果确定所述RGB图像中所述目标对象所在的图像区域；

基于所述RGB图像中所述目标对象所在的图像区域确定所述深度图像中所述目标对象所在的图像区域；

获取所述深度图像中所述目标对象所在的图像区域中所述多个像素点的深度信息。
根据权利要求2至5任意一项所述的方法，其特征在于，所述方法还包括：

从所述初始三维点云中过滤掉离群点，将过滤后的所述初始三维点云作为所述第二监督信息。
根据权利要求1至6任意一项所述的方法，其特征在于，所述目标对象的图像通过图像采集装置采集得到，所述参数包括：所述目标对象的全局旋转参数、所述目标对象各个关键点的关键点旋转参数、所述目标对象的体态参数以及所述图像采集装置的位移参数；

基于预先获取的用于表示所述目标对象的特征的监督信息对所述参数的初始值进行优化，包括：

在所述体态参数的初始值和所述关键点旋转参数的初始值保持不变的情况下，基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的所述位移参数的当前值以及所述全局旋转参数的初始值进行优化，得到所述位移参数的优化值和所述全局旋转参数的优化值；

基于所述位移参数的优化值和所述全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化，得到所述关键点旋转参数的优化值和所述体态参数的优化值。
根据权利要求7所述的方法，其特征在于，所述监督信息包括所述目标对象的初始二维关键点；

基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的所述位移参数的当前值以及所述全局旋转参数的初始值进行优化，包括：

获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、所述关键点旋转参数初始值和所述体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和所述全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到；

获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失；

获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失；

基于所述第一损失和所述第二损失对所述位移参数的当前值和所述全局旋转参数的初始值进行优化。
根据权利要求7或8所述的方法，其特征在于，所述监督信息包括所述目标对象的初始二维关键点；基于所述位移参数的优化值和所述全局旋转参数的优化值，对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化，包括：

获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第三损失，其中，所述优化二维投影关键点基于所述位移参数的优化值和所述全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、所述关键点旋转参数的初始值和所述体态参数的初始值得到；

获取第四损失，所述第四损失用于表征所述全局旋转参数的优化值、所述关键点旋转参数的初始值和所述体态参数的初始值对应的姿态的合理性；

基于所述第三损失和所述第四损失对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化。
根据权利要求7至9任意一项所述的方法，其特征在于，在基于所述位移参数的优化值和所述全局旋转参数的优化值对所述关键点旋转参数的初始值和所述体态参数的初始值进行优化之后，所述方法还包括：

对所述全局旋转参数的优化值、所述关键点旋转参数的优化值、所述体态参数的优化值以及所述位移参数的优化值进行联合优化。
根据权利要求10所述的方法，其特征在于，所述监督信息包括所述目标对象的初始二维关键点和所述目标对象表面的初始三维点云；基于所述监督信息和所述位移参数的初始值，对所述图像采集装置的所述位移参数的当前值以及所述全局旋转参数的初始值进行优化，包括：

获取所述目标对象的三维关键点对应的二维投影关键点中属于所述目标对象的预设部位的目标二维投影关键点；其中，所述目标对象的三维关键点基于所述全局旋转参数的初始值、所述关键点旋转参数的初始值和所述体态参数的初始值得到，所述二维投影关键点基于所述位移参数的当前值和所述全局旋转参数的初始值对所述目标对象的三维关键点进行投影得到；

获取所述目标二维投影关键点与所述初始二维关键点之间的第一损失；

获取所述位移参数的初始值与所述位移参数的当前值之间的第二损失；

获取所述目标对象表面的第一三维点云与所述初始三维点云之间的第五损失；其中，所述第一三维点云基于所述全局旋转参数的初始值、所述关键点旋转参数的初始值和所述体态参数的初始值得到；

基于所述第一损失、所述第二损失和所述第五损失对所述位移参数的当前值和所述全局旋转参数的初始值进行优化。
根据权利要求10或11所述的方法，其特征在于，对所述全局旋转参数的优化值、所述关键点旋转参数的优化值、所述体态参数的优化值以及所述位移参数的优化值进行联合优化，包括：

获取所述目标对象的优化二维投影关键点与所述初始二维关键点之间的第六损失，其中，所述优化二维投影关键点基于所述位移参数的优化值和所述全局旋转参数的优化值对所述目标对象的优化三维关键点进行投影得到，所述优化三维关键点基于所述全局旋转参数的优化值、所述关键点旋转参数的优化值和所述体态参数的优化值得到；

获取第七损失，所述第七损失用于表征所述全局旋转参数的优化值、所述关键点旋转参数的优化值和所述体态参数的优化值对应的姿态的合理性；

获取所述目标对象表面的第二三维点云与所述初始三维点云之间的第八损失；所述第二三维点云基于所述全局旋转参数的优化值、所述关键点旋转参数的优化值和所述体态参数的优化值得到；

基于所述第六损失、所述第七损失和所述第八损失对所述全局旋转参数的优化值、所述关键点旋转参数的优化值、所述体态参数的优化值以及所述位移参数的优化值进行联合优化。
一种三维重建装置，所述装置包括：

第一三维重建模块，用于通过三维重建网络对图像中的目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；

优化模块，用于基于预先获取的用于表示所述目标对象的特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；

第二三维重建模块，用于基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。
一种三维重建***，所述***包括：

图像采集装置，用于采集目标对象的图像；以及

与所述图像采集装置通信连接的处理单元，用于通过三维重建网络对所述图像中的所述目标对象进行三维重建，得到所述目标对象的参数的初始值，其中，所述参数的初始值用于建立所述目标对象的三维模型；基于预先获取的用于表示所述目标对象的特征的监督信息对所述参数的初始值进行优化，得到所述参数的优化值；基于所述参数的优化值进行骨骼蒙皮处理，建立所述目标对象的三维模型。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据权利要求1至12任意一项所述的方法。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据权利要求1至12任意一项所述的方法。