CN113724393A

CN113724393A - 三维重建方法、装置、设备及存储介质

Info

Publication number: CN113724393A
Application number: CN202110924536.2A
Authority: CN
Inventors: 陈星宇; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-30
Anticipated expiration: 2041-08-12
Also published as: CN113724393B

Abstract

本公开关于一种三维重建方法、装置、设备及存储介质。该方法包括：获取待处理图像，所述待处理图像包含目标部位；将所述待处理图像，输入第一网络，得到所述待处理图像的图像特征和所述目标部位的M个二维关键点的热力图，其中，M为正整数；将所述待处理图像的图像特征和所述M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征；将所述N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，所述K个三维顶点的坐标，用于在所述三维坐标系中生成所述目标部位的三维模型，其中，N和K均为正整数。实现了三维重建模型的轻量化，利于三维重建的应用场景的扩展。

Description

三维重建方法、装置、设备及存储介质

技术领域

本公开涉及计算机领域，尤其涉及三维重建方法、装置、设备及存储介质。

背景技术

三维重建(3D Reconstruction)是计算机视觉领域的重要研究方向，而基于单目图像实现对图像中的待重建的目标部位进行三维重建，则具有十分重要的理论意义与应用价值。相关技术中，对图像中的目标部位(例如手部等人体部位)进行三维重建时，利用卷积神经网络提取图像特征并预测三维模型的形状参数和姿态参数，从而计算出目标部位在三维空间中的坐标。这种三维重建方式通常需要较高的计算量和参数量，导致对三维重建的应用场景的扩展受到限制。

发明内容

本公开提供一种三维重建方法、装置、设备及存储介质，以至少解决相关技术中三维重建方式通常需要较高的计算量和参数量，导致对三维重建的应用场景的扩展受到限制的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种三维重建方法，包括：

获取待处理图像，待处理图像包含目标部位；

将待处理图像，输入第一网络，得到待处理图像的图像特征和目标部位的M个二维关键点的热力图，其中，M为正整数；

将待处理图像的图像特征和M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征；

将N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，K个三维顶点的坐标，用于在三维坐标系中生成目标部位的三维模型，其中，N和K均为正整数。

在一种实施方式中，得到三维坐标系中的N个三维顶点的特征步骤包括：

针对每个二维关键点的热力图，将二维关键点的热力图与图像特征融合，以得到二维关键点的特征；

基于预设的映射矩阵，将M个二维关键点的特征，转换成N个三维顶点的特征，N个三维顶点是重建目标部位所需的K个三维顶点中的全部或者部分三维顶点，映射矩阵表征了M个二维关键点的特征与N个三维顶点的特征的映射关系，其中，N小于或者等于K。

在一种实施方式中，得到K个三维顶点的坐标步骤包括：

当N小于K时，基于N个三维顶点的特征，进行至少一次特征映射操作，在每次特征映射操作之后，通过一次特征融合操作更新三维顶点的特征，以得到最终的K个三维顶点的特征；

当N＝K时，基于N个三维顶点的特征，进行一次特征融合操作，以得到最终的K个三维顶点的特征；

其中，特征映射操作步骤包括：将一组三维顶点的特征映射成另一组三维顶点的特征，另一组三维顶点的数量大于一组三维顶点的数量；

特征融合操作步骤包括：对当前的每个三维顶点的特征，确定该三维顶点对应的预设邻域，将该三维顶点以及预设邻域内各三维顶点的特征中同一维度的特征，进行第一特征融合处理，以得到同一维度的融合特征，以及将各维度的融合特征，进行第二特征融合处理，以更新该三维顶点的特征；

基于最终的K个三维顶点的特征，得到K个三维顶点的坐标。

在一种实施方式中，N的取值小于或者等于预设取值。

在一种实施方式中，在基于预设的映射矩阵，将M个二维关键点的特征，转换成三维坐标系中的N个三维顶点的特征之前，方法还包括：

当N小于K时，对K个三维顶点，进行多次下采样，以得到N个三维顶点。

在一种实施方式中，在获取待处理图像步骤之前，方法还包括：

获取原始图像；

对原始图像进行目标部位的检测；

以检测到的目标部位所在的区域为中心外扩预设倍数，得到待处理图像。

根据本公开实施例的第二方面，提供一种三维重建装置，包括：

第一获取单元，被配置为执行获取待处理图像，待处理图像包含目标部位；

第一输入单元，被配置为执行将待处理图像，输入第一网络，得到待处理图像的图像特征和目标部位的M个二维关键点的热力图，其中，M为正整数；

第二输入单元，被配置为执行将待处理图像的图像特征和M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征；

第三输入单元，被配置为执行将N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，K个三维顶点的坐标，用于在三维坐标系中生成目标部位的三维模型，其中，N和K均为正整数。

在一种实施方式中，第二输入单元，具体被配置为执行：

在一种实施方式中，第三输入单元，具体被配置为执行：

基于最终的K个三维顶点的特征，得到K个三维顶点的坐标。

在一种实施方式中，N的取值小于或者等于预设取值。

在一种实施方式中，该装置还包括：

采样单元，被配置为执行当N小于K时，对K个三维顶点，进行多次下采样，以得到N个三维顶点。

在一种实施方式中，该装置还包括：

第二获取单元，被配置为执行获取原始图像；对原始图像进行目标部位的检测；以检测到的目标部位所在的区域为中心外扩预设倍数，得到待处理图像。

根据本公开实施例的第三方面，提供一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如第一方面任一的三维重建方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面任一的三维重建方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据第一方面任一的三维重建方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在将获取到的包含目标部位的待处理图像，输入第一网络，得到待处理图像的图像特征和目标部位的M个二维关键点的热力图之后，输入第二网络，得到三维坐标系中的N个三维顶点的特征，并输入第三网络，从而得到K个三维顶点的坐标，以基于K个三维顶点的坐标在三维坐标系中生成目标部位的三维模型。如此，通过第一网络、第二网络和第三网络形成的三维重建模型实现了三维重建，由于先通过待处理图像的图像特征和M个二维关键点的热力图，得到N个三维顶点的特征，再得到K个三维顶点的坐标，与相关技术中直接利用卷积神经网络提取图像特征并预测三维模型的形状参数和姿态参数的参数量相比，参数量大大减小了，计算量也相应的减小了，从而整体上实现了三维重建模型的轻量化，利于三维重建的应用场景的扩展。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据示例性实施例示例出的一种手部二维关键点的示意图。

图2a是根据示例性实施例示例出的待处理图像的示意图。

图2b是根据示例性实施例示例出的手部三维模型的示意图。

图2c是根据示例性实施例示例出的手部三维模型的示意图。

图3是根据示例性实施例示出的一种应用场景的示意图。

图4是根据示例性实施例示出的一种应用场景的示意图。

图5是根据示例性实施例示出的一种三维重建方法的流程图。

图6是根据示例性实施例示出的一种三维重建方法的流程图。

图7是根据示例性实施例示出的一种Ghost模块的示意图。

图8是根据示例性实施例示出的一种特征融合操作的示意图。

图9是根据示例性实施例示出的一种三维重建方法的流程图。

图10是根据示例性实施例示出的一种三维重建方法的流程图。

图11是根据示例性实施例示出的一种三维重建方法的流程图。

图12是根据示例性实施例示出的一种三维重建装置的框图。

图13是根据示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

三维重建(3D Reconstruction)是计算机视觉领域的重要研究方向，而基于单目图像实现对图像中的待重建的目标部位进行三维重建，则具有十分重要的理论意义与应用价值。相关技术中，对图像中的目标部位(例如手部等人体部位)进行三维重建时，利用卷积神经网络提取图像特征并预测三维模型的形状参数和姿态参数，从而计算出目标部位在三维空间中的坐标。这种方式通常需要较高的计算量和参数量，导致对三维重建的应用场景的扩展受到限制。例如，一般在服务端运行，难以在终端实时运行。

以相关技术中的一种手部三维重建(Hand Mesh Recovery)的方式为例，其目标在于获得手部在三维空间的位置信息。具体的，利用卷积神经网络提取图像特征，并预测手部MANO模型的形状参数与姿态参数，从而计算出手部网格状(mesh)在三维空间中的坐标。其中，根据MANO模型的定义，手部可由778个顶点表示，这些顶点与三角面片形成mesh。其中，手部的二维关键点预测要求算法估计手部骨骼关节的图像坐标。手部二维关键点的定义如图1所示。示例性的，如图2a、图2b和图2c所示的手部三维重建，图2a为待处理图像，图2b和图2c为不同视角的手部三维模型。这种手部三维重建的方式需要非常高的计算量和参数量，导致对三维重建的应用场景的扩展受到限制，例如，难以在终端实时运行。

为此，本公开实施例提供了一种三维重建方法，计算量和参数量都大大减少，实现了三维重建的模型轻量化，利于根据实际需求进行应用场景的扩展。本公开实施例所提供的三维重建方法可以应用于服务器中。例如图3所示的应用场景，服务器301可以执行三维重建方法，并将三维重建的结果发送至终端302。如此，提高了服务器的响应速度，利于进行更多应用场景的扩展。本公开实施例所提供的三维重建方法也可以应用于终端中，例如图4所示的应用场景，终端302可以执行该三维重建方法。如此，可以在终端实时运行三维重建方法，减少了对服务端的依赖，利于进行更多应用场景的扩展。

其中的终端可以是智能手机、笔记本、掌上电脑、平板电脑等移动终端。终端中安装有应用程序，可以通过该应用程序实现本公开实施例所提供的三维重建方法。该应用程序可以是短视频应用程序、拍照应用程序等。

其中的服务器可以是物理服务器、云服务器等。

下面对本公开实施例提供的三维重建方法进行详细地说明。

图5是根据示例性实施例示出的一种三维重建方法的流程图，如图5所示，该三维重建方法用于终端或者服务器中，包括以下步骤。

在步骤S51中，获取待处理图像，该待处理图像包含目标部位。

在步骤S52中，将待处理图像，输入第一网络，得到待处理图像的图像特征和目标部位的M个二维关键点的热力图，其中，M为正整数。

在步骤S53中，将待处理图像的图像特征和M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征。

在步骤S54中，将N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，该K个三维顶点的坐标，用于在三维坐标系中生成目标部位的三维模型，其中，N和K均为正整数。

其中，目标部位是指待进行三维重建的部位。该目标部位可以是人体部位，例如手部、人脸等部位，也可以是其它对象的部位，例如动物的身体部位。目标部位的三维模型可以是基于mesh的三维模型，那么，三维顶点即基于mesh的三维模型中的顶点。

其中，二维关键点的热力图表征二维关键点在待处理图像中的位置。

可以理解的是，本实施例的三维重建方法即通过上述第一网络、第二网络和第三网络形成的三维重建模型来实现。其中，第一网络、第二网络和第二网络均为可学习的网络。

本实施例中，在将获取到的包含目标部位的待处理图像，输入第一网络，得到待处理图像的图像特征和目标部位的M个二维关键点的热力图之后，输入第二网络，得到三维坐标系中的N个三维顶点的特征，并输入第三网络，从而得到K个三维顶点的坐标，以基于K个三维顶点的坐标在三维坐标系中生成目标部位的三维模型。如此，通过第一网络、第二网络和第三网络形成的三维重建模型实现了三维重建，由于先通过待处理图像的图像特征和M个二维关键点的热力图，得到N个三维顶点的特征，再得到K个三维顶点的坐标，与相关技术中直接利用卷积神经网络提取图像特征并预测三维模型的形状参数和姿态参数的参数量相比，参数量大大减小了，计算量也相应的减小了，从而整体上实现了三维重建模型的轻量化，利于三维重建的应用场景的扩展。

另外，得到K个三维顶点的坐标之后，如果三维重建方法的执行主体为终端，可以由终端基于K个三维顶点的坐标，在三维坐标系中生成目标部位的三维模型，如果三维重建方法的执行主体为服务器，可以由服务器基于K个三维顶点的坐标，在三维坐标系中生成目标部位的三维模型，也可以由终端基于K个三维顶点的坐标，在三维坐标系中生成目标部位的三维模型。

实际应用中，可以预先收集包含目标部位的图像样本，并对图像样本进行标注，将标注好的图像样本输入三维重建模型中进行训练，以得到第一网络、第二网络和第三网络。具体的训练方式可以参考相关技术，在此不做赘述。

在示例性实施例中，如图6所示，上述得到三维坐标系中的N个三维顶点的特征步骤具体实现方式可以包括：

在步骤S61中，针对每个二维关键点的热力图，将二维关键点的热力图与图像特征融合，以得到二维关键点的特征。

其中，二维关键点的热力图与待处理图像的尺寸相同。

本步骤中，通过提取了二维关键点的热力图，并与图像特征进行融合，以得到二维关键点的特征，可以使得二维关键点的特征中的空间特征更加明显。

在步骤S62中，基于预设的映射矩阵，将M个二维关键点的特征，转换成N个三维顶点的特征，N个三维顶点是重建目标部位所需的K个三维顶点中的全部或者部分三维顶点，该映射矩阵表征了M个二维关键点的特征与N个三维顶点的特征的映射关系，其中，N小于或者等于K。

其中，预设的映射矩阵也为可学习的映射矩阵。映射矩阵也即线性映射矩阵，线性映射矩阵指线性映射的数量表示。线性映射是从一个向量空间到另一个向量空间的映射。这里，通过预设的映射矩阵A_MN可以表征待处理图像中的M个二维关键点的特征与三维坐标系中的N个三维顶点的特征之间的映射关系，包含M*N个参数。M、N和K的具体值可以根据实际情况进行设置。以目标部位为手部为例，一般，手部可以设置M＝21个二维关键点，手部三维重建可以设置K＝778个三维顶点，N的取值小于或者等于788，例如N＝49，基于此，通过映射矩阵得到的参数量为21*49(即1029)，不超过21*778(即16338)，而相关技术中的卷积神经网络等的参数量都远高于此，有些在百万级别以上。

本实施例中，在将获取到的包含目标部位的待处理图像，输入第一网络，得到目标部位的M个二维关键点的特征之后，基于预设的映射矩阵，将M个二维关键点的特征，转换成三维坐标系中的N个三维顶点的特征，并输入第三网络，从而得到K个三维顶点的坐标，以基于K个三维顶点的坐标在三维坐标系中生成目标部位的三维模型。由于采用了映射矩阵，而映射矩阵包含的参数量很小，与相关技术中的卷积神经网络等的参数量相比，参数量大大减小了，计算量也相应的减小了，另外，若N的取值小于K，也就是说，将M个二维关键点的特征映射到部分三维顶点，那么，映射矩阵包含的参数量进一步减小了，计算量也相应的进一步减小了，从而整体上实现了三维重建模型的轻量化，利于三维重建的应用场景的扩展。

在示例性实施例中，将二维关键点的热力图与图像特征融合步骤具体可以包括：将二维关键点的热力图与图像特征相乘后，进行池化。池化的方式可以为最大池化或者求和池化等。如此，通过二维关键点的热力图与图像特征相乘可以抑制非关键点特征，通过池化则可以约简空间特征。

在示例性实施例中，上述得到目标部位的M个二维关键点的热力图，具体可以是基于图像特征，得到M个二维关键点的热力图步骤。具体可以包括：交替使用卷积与双线性采样对图像特征进行上采样，以得到二维关键点的热力图。或者，也可以通过卷积与最邻近差值的方式对图像特征进行上采样，以得到二维关键点的热力图。可以根据实际情况灵活选择上采样方式。

在示例性实施例中，上述得到图像特征步骤具体可以包括：基于卷积神经网络，从待处理图像中提取图像特征。或者，基于Ghost模块，从待处理图像中提取图像特征。

Ghost模块的网络结构如图7所示，包括第一卷积层701、第一分组卷积层702、平均池化层703、全连接层704、激活函数sigmiod 705、第二卷积层706和第二分组卷积层707。基于此，将待处理图像输入第一卷积层701，得到第一特征；将第一特征输入第一分组卷积层702，得到第二特征；将第一特征和第二特征串接(图7中以c表示串接)得到第三特征，并输入平均池化层703，经过平均池化层703、全连接层704、sigmiod705的处理后得到第四特征；将第四特征与第三特征相乘(图7中以x表示相乘)得到第五特征，并输入第二卷积层706，得到第六特征；将第六特征输入第二分组卷积层707，得到第七特征，将第六特征与第七特征串接得到第八特征，将第八特征和待处理图像一同(图7中以+表示)输出，以得到图像特征。

Ghost模块的思路来源于GhostNet，可以利用第一特征、第二特征这些基础特征的线性映射(即串接)获得更加丰富的特征，以作为图像特征，从而以较少的计算量获得更多特征表达。利用Ghost模块代替传统的卷积神经网络提取图像特征，可以大大减少参数量和计算量。

在示例性实施例中，上述第三网络为图卷积网络。图卷积网络即在图上做卷积运算，能够更好地提取图中的特征。实际应用中，可以采用传统的图卷积网络，作为上述第三网络。本公开实施例中，发明人为了进一步实现三维重建的模型的轻量化，对图卷积网络进行了改进，提供了一种深度可分离的图卷积网络，在后续的实施例中会详细说明。

在步骤S54中，得到K个三维顶点的坐标步骤具体可以包括：当N小于K时，基于N个三维顶点的特征，进行至少一次特征映射操作，在每次特征映射操作之后，通过一次特征融合操作更新三维顶点的特征，以得到最终的K个三维顶点的特征。当N＝K时，基于N个三维顶点的特征，进行一次特征融合操作，以得到最终的K个三维顶点的特征。基于最终的K个三维顶点的特征，得到K个三维顶点的坐标。

其中，特征映射操作步骤具体可以包括：将一组三维顶点的特征映射成另一组三维顶点的特征，另一组三维顶点的数量大于一组三维顶点的数量。

特征融合操作步骤具体可以包括：对当前的每个三维顶点的特征，确定该三维顶点对应的预设邻域，将该三维顶点以及预设邻域内各三维顶点的特征中同一维度的特征，进行第一特征融合处理，以得到同一维度的融合特征，以及将各维度的融合特征，进行第二特征融合处理，以更新该三维顶点的特征。

实际应用中，当N＝K，说明直接通过M个二维关键点的特征，转换得到了所有三维顶点的特征，可以不再进行特征映射操作，直接对N个三维顶点的特征，进行一次特征融合操作即可。

当N小于K时，说明将M个二维关键点转换到了部分三维顶点上，对应的是一个粗糙三维模型，需要进一步的精细化，得到K个三维顶点的特征。实际应用中，可以基于至少一次特征映射操作来实现精细化。具体的，可以基于一次特征映射操作，将N个三维顶点的特征映射成K个三维顶点的特征。也可以基于多次特征映射操作，将N个三维顶点的特征映射成K个三维顶点的特征。并且，在每次特征映射操作之后，通过一次特征融合操作更新三维顶点的特征。

以手部举例来说，假设，N＝49，K＝778，可以先基于第一次特征映射操作，将49个三维顶点的特征映射成98个三维顶点的特征，并通过一次特征融合操作更新98个三维顶点的特征，再基于第二次特征映射操作，将98个三维顶点的特征映射成195个三维顶点的特征，并通过一次特征融合操作更新195个三维顶点的特征，之后基于第三次特征映射操作，将195个三维顶点的特征映射成396个三维顶点的特征，并通过一次特征融合操作更新396个三维顶点的特征，最后基于第四次特征映射操作将396个三维顶点的特征映射成778个三维顶点的特征，并通过一次特征融合操作更新778个三维顶点的特征，以得到最终的778个三维顶点的特征。

本实施例中，当N小于K时，可以通过至少一次特征映射操作，将N个三维顶点的特征逐渐映射到可以K个三维顶点的特征，使得映射前后的特征更接近，如此，可以更接近真实的情况，三维效果更好。并且，可以通过特征融合操作更新三维顶点的特征，进行特征融合时，先对同一维度的特征进行融合(即空间方向的特征融合)，再对不同维度的融合特征进行融合(即深度方向的特征融合)，也即，将特征融合分解为深度方向和空间方向的两次特征融合，实现了深度可分离的特征融合，可以避免较高维度的特征产生，从而进一步减少了参数量和计算量。

其中，进行特征映射操作时，可以基于预设映射关系，将一组三维顶点的特征映射成另一组三维顶点的特征，其中的预设映射关系可以预先进行设置。

其中，进行第一特征融合处理，可以是将同一维度的特征串接，得到第一串接特征，对该第一串接特征，进行卷积，以得到同一维度的融合特征。进行第二特征融合处理，可以是将各维度的融合特征串接，得到第二串接特征，对该第二串接特征，进行卷积，以得到更新的三维关键的特征。如此，可以实现深度可分离的图卷积。其中的卷积可以是螺旋卷积(SpiralConv，Spiral Convolution)。那么，预设邻域为螺旋线区域。

以三维顶点的特征的维度为三个维度举例，如图8所示，假设三维顶点0的邻域包括三维顶点1和三维顶点2。三维顶点0的特征为{a₁,a₂,a₃}，图8中以三个密度不同的点状填充示意。三维顶点1的特征为{b₁,b₂,b₃}，图8中以三个密度不同的斜条纹状填充示意。三维顶点2的特征为{c₁,c ₂,c ₃}，图8中以三个密度不同的交叉网格状填充示意。

三维顶点0的特征为{a₁}、三维顶点1的特征{b₁}和三维顶点2的特征为{c₁}为同一维度，将同一维度的特征串接得到{a₁,b₁,c₁}，对{a₁,b₁,c₁}进行卷积，以得到同一维度的融合特征{f₁}，图8中以间距最大的竖条纹状填充示意。同理，三维顶点0的特征为{a₂}、三维顶点1的特征{b₂}和三维顶点2的特征为{c₂}为同一维度，将同一维度的特征串接得到{a₂,b₂,c₂}，对{a₂,b₂,c₂}进行卷积，以得到同一维度的融合特征{f₂}，图8中以间距中等的竖条纹状填充示意。三维顶点0的特征为{a₃}、三维顶点1的特征{b₃}和三维顶点2的特征为{c₃}为同一维度，将同一维度的特征串接得到{a₃,b₃,c₃}，对{a₃,b₃,c₃}进行卷积，以得到同一维度的融合特征{f₃}，图8中以间距最小的竖条纹状填充示意。该过程也称逐深度操作。

之后，将各维度的融合特征{f₁}、{f₁}和{f₃}串接得到{f₁,f₂,f₃}，对{f₁,f₂,f₃}进行卷积，以得到更新后的三维顶点0的特征{a₁’}，即图8中的输出特征。针对每个三维顶点都按此更新三维顶点的特征，该过程也称逐点操作。

另外，进行第一特征融合处理，还可以采用其它方式，例如可以是将同一维度的特征加权求和，并进行卷积，以得到同一维度的融合特征。进行第二特征融合处理，还可以采用其它方式，例如可以是将各维度的融合特征加权求和并进行卷积，以得到更新的三维关键的特征。

在示例性实施例中，N的取值小于或者等于预设取值。其中的预设取值是一个比较小的值，因为如果N的取值过大，与二维关键点的数量M相距较远，特征距离大，在某些场景中，通过少量的二维关键点的特征直接转换出大量的三维顶点的特征，可能会导致转换出的N个三维顶点的特征失真，降低三维模型的效果，为了提高三维模型的效果，可以对N的取值进行约束，避免取值过大。

在示例性实施例中，在基于预设的映射矩阵，将M个二维关键点的特征，转换成三维坐标系中的N个三维顶点的特征之前，上述三维重建方法还可以包括：当N小于K时，对K个三维顶点，进行多次下采样，以得到N个三维顶点。仍以手部举例来说，假设N＝49，K＝778，基于此，可以对778个三维顶点进行4次2倍下采样，以得到49个三维顶点。通过多次下采样可以更合理的保留三维顶点，使得保留的三维顶点形成的粗糙模型更接近于真实的目标部位。

在示例性实施例中，在获取待处理图像步骤之前，如图9所示，上述三维重建方法还可以包括：

在步骤S91中，获取原始图像。

实际应用中，原始图像可以是原始的静态图像，也可以是从视频中提取的视频图像。

在步骤S92中，对原始图像进行目标部位的检测。

在步骤S93中，以检测到的目标部位所在的区域为中心外扩预设倍数。

其中，预设倍数的具体值可以根据实际情况设置，例如设置1.3倍。

本实施例中，待处理图像是以目标部位所在的区域外扩预设倍数得到的，不仅包含目标部位的信息，还包含目标部位周边的信息，如此，可以包含更加丰富的信息，利于提高三维重建效果。

当然，也可以直接将目标部位所在的区域，确定为待处理图像。

在示例性实施例中，第一网络可以包括至少一个2维(D，Dimension)编码器，以及与每个2D编码器对应的2D解码器，还可以包括池化层。若包括多个2D编号器，前一个2D编码器的结果与对应的2D解码器的结果融合(例如串接)，作为后一个2D编码器的输入。那么，在步骤S52中，将待处理图像，输入第一网络，得到目标部位的M个二维关键点的特征步骤具体可以包括：通过2D编码器，提取图像特征；通过2D解码器，基于图像特征，得到M个二维关键点的热力图。通过池化层，将二维关键点的热力图与图像特征融合，以得到二维关键点的特征。其中，2D编码器可以为上述Ghost模块。可以认为通过第一网络实现了2D编码。相应的，第二网络则实现了3D解码。

下面以手部的三维重建为例，对本公开实施例提供的一种三维重建方法进行更加详细地说明。

本实施例中，提出了一种轻量化的手部mesh三维重建技术，包含较少的计算量和参数量，得到了手部的MANO模型。具体地，如图10所示，将基于单目图像的三维重建方法分为2D编码、2D-3D映射以及3D解码三个阶段，并设计了Ghost模块实现2D编码，姿态池化与姿态-顶点映射方法实现2D-3D映射，深度可分离的图卷积方法实现3D解码。

2D编码的具体过程如下：

在步骤一中，获取原始图像。

在步骤二中，对原始图像进行手部的检测。

本步骤中，可以使用传统的手部检测的方法，例如CenterNet(一种目标检测网络)，确定手部的位置，得到检测框。

在步骤三中，以检测到的手部所在的区域为中心外扩预设倍数，得到待处理图像。

本步骤中，以得到以检测框为中心外扩1.3倍，得到一个包含手部的图像块(即上述待处理图像)。

在步骤四中，将待处理图像，输入第一网络，得到图像特征和目标部位的M个二维关键点的热力图。

本步骤中，如图10所示，第一网络包括第一2D编码器1001、第一2D解码器1002、第二2D编码器1003、第二2D解码器1004。其中的第一2D编码器和第二2D编码器均为Ghost模块。基于此，将待处理图像输入第一2D编码器1001，将第一2D编码器1001提取的图像特征输入第一2D解码器1002，将第一2D解码器1002得到M个二维关键点的热力图与第一2D编码器1001提取的图像特征串接(图10中以c示意)，然后输入第二2D编码器1003，第二2D编码器1003提取的图像特征输入第二2D解码器1004，第二2D解码器1004得到M个二维关键点的热力图。

根据手部MANO模型的定义，手部有M＝21个关键点，姿态池化方法利用二维关键点的热力图与图像特征相乘，抑制非关键点特征，进一步利用最大值池化或者求和方法约简空间特征，获得21个二维关键点的热力图。

2D-3D映射的具体过程如下：

在步骤五中，将图像特征和目标部位的M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征。

具体的，如图10和图11所示，第二网络包括池化层1005和预设的映射矩阵1006。

第二2D编码器1003提取的图像特征以及第二2D解码器1004得到M个二维关键点的热力图输入池化层1005，池化层1005将输入的图像特征分别与M个二维关键点的热力图相乘后，进行最大(max)池化或者求和(sum)池化，以得到M个二维关键点的特征。由于M个二维关键点的特征反映了手部的姿态，因此，池化层的操作，也称为姿态池化。然后，基于预设的映射矩阵1006，将M个二维关键点的特征，转换成三维坐标系中的N个三维顶点的特征。由于M个二维关键点的特征能够反映手部的姿态，而三维顶点为mesh三维模型的顶点，因此，本步骤也称姿态-顶点映射。

在姿态-顶点映射阶段中，本方案设计了一个可学习的映射矩阵，将姿态特征转化为顶点特征。由于MANO模型有K＝778个顶点，其数量远多于关键点数目。因此，本方案对MANO模型进行4次两倍下采样，获得仅包含N＝49个顶点的粗糙三维模型，如此，通过姿态-顶点映射可获得49个顶点的特征。

3D解码的具体过程如下：

在步骤六中，将N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标。

本实施例中，如图10所示，第三网络为3D解码器1107，具体可以为图卷积网络。本方案设计了深度可分离的图卷积方法实现3D解码，即利用49个粗糙的mesh顶点特征获得778个MANO顶点坐标。首先，根据SpiralConv，定义每个顶点的螺旋线区域为该顶点的邻域。针对每个顶点及其邻域内的顶点，本方案设计了逐深度操作，将各顶点同一维度的特征串接起来，并利用一维卷积进行特征融合，得到同一维度的融合特征。接着，设计了逐点操作，将深度方向的不同维度的融合特征串接起来，再次利用一维卷积进行特征融合。相比于传统的SpiralConv，这种可分离的结构有效减小了计算量与参数量。

本方案的效果如下：

1、本方案利用Ghost模块进行2D编码，将该部分的计算量减小了20倍，参数量减小了4倍。

2、本方案利用基于姿态池化与姿态-顶点映射进行2D-3D特征映射，有效提取了2D姿态信息，并利用线性方法将姿态特征转换为顶点特征，同时实现了从二维关键点到mesh顶点和从2D到3D的特征映射。并且，整个映射过程仅包含21*49＝1029个可学习参数。将该部分的计算量减小了50倍，参数量减小了超过100倍。

3、本方案利用深度可分离的图卷积进行3D解码，通过将特征融合分解为深度方向和空间方向的两次特征融合，有效减小了图卷积的计算量与参数量。将该部分的计算量和参数量均减小了20倍。

以上3点设计均有利于模型的轻量化。最终，所形成了手部三维重建模型仅包含121M乘加计算量与5M参数量。

如此，本方案面向2D编码、2D-3D映射、3D解码均提出了模型轻量化方法，基于高通骁龙855CPU可达到28FPS的推理速度。如此，可以扩展三维重建的应用场景，例如，可以形成面向终端的实时运行的手部mesh重建方案。

图12是根据示例性实施例示出的一种三维重建装置框图。参照图12，该装置1200包括第一获取单元1201，第一输入单元1202、第二输入单元1203和第三输入单元1204。

该第一获取单元1201，被配置为执行获取待处理图像，待处理图像包含目标部位；

该第一输入单元1202，被配置为执行将待处理图像，输入第一网络，得到待处理图像的图像特征和目标部位的M个二维关键点的热力图，其中，M为正整数；

该第二输入单元1203，被配置为执行将待处理图像的图像特征和M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征；

该第三输入单元1204，被配置为执行将N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，K个三维顶点的坐标，用于在三维坐标系中生成目标部位的三维模型，其中，N和K均为正整数。

在一种实施方式中，第二输入单元1203，具体被配置为执行：

在一种实施方式中，第三输入单元1204，具体被配置为执行：

基于最终的K个三维顶点的特征，得到K个三维顶点的坐标。

在一种实施方式中，N的取值小于或者等于预设取值。

在一种实施方式中，上述装置还可以包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图13，电子设备1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电力组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制电子设备1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在电子设备1300的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为电子设备1300的各种组件提供电力。电源组件1306可以包括电源管理***，一个或多个电源，及其他与为电子设备1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述电子设备1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当电子设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当电子设备1300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为电子设备1300提供各个方面的状态评估。例如，传感器组件1314可以检测到电子设备1300的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1300的显示器和小键盘，传感器组件1314还可以检测电子设备1300或电子设备1300一个组件的位置改变，用户与电子设备1300接触的存在或不存在，电子设备1300方位或加速/减速和电子设备1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备1300可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述人员权限管理方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1304，上述指令可由电子设备1300的处理器1320执行以完成上述人员权限管理方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由电子设备1300的处理器1320执行以完成上述人员权限管理方法。可选地，该程序代码可以存储在电子设备1300的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种三维重建方法，其特征在于，包括：

获取待处理图像，所述待处理图像包含目标部位；

将所述待处理图像，输入第一网络，得到所述待处理图像的图像特征和所述目标部位的M个二维关键点的热力图，其中，M为正整数；

将所述待处理图像的图像特征和所述M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征；

将所述N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，所述K个三维顶点的坐标，用于在所述三维坐标系中生成所述目标部位的三维模型，其中，N和K均为正整数。

2.根据权利要求1所述的三维重建方法，其特征在于，所述得到三维坐标系中的N个三维顶点的特征步骤包括：

针对每个所述二维关键点的热力图，将所述二维关键点的热力图与所述图像特征融合，以得到所述二维关键点的特征；

基于预设的映射矩阵，将所述M个二维关键点的特征，转换成所述N个三维顶点的特征，所述N个三维顶点是重建所述目标部位所需的K个三维顶点中的全部或者部分三维顶点，所述映射矩阵表征了所述M个二维关键点的特征与所述N个三维顶点的特征的映射关系，其中，N小于或者等于K。

3.根据权利要求1或2所述的三维重建方法，其特征在于，所述得到所述K个三维顶点的坐标步骤包括：

当N小于K时，基于所述N个三维顶点的特征，进行至少一次特征映射操作，在每次所述特征映射操作之后，通过一次特征融合操作更新所述三维顶点的特征，以得到最终的所述K个三维顶点的特征；

当N＝K时，基于所述N个三维顶点的特征，进行一次所述特征融合操作，以得到最终的K个三维顶点的特征；

其中，所述特征映射操作步骤包括：将一组三维顶点的特征映射成另一组三维顶点的特征，所述另一组三维顶点的数量大于所述一组三维顶点的数量；

所述特征融合操作步骤包括：对当前的每个所述三维顶点的特征，确定该三维顶点对应的预设邻域，将该三维顶点以及所述预设邻域内各三维顶点的特征中同一维度的特征，进行第一特征融合处理，以得到同一维度的融合特征，以及将各维度的融合特征，进行第二特征融合处理，以更新该三维顶点的特征；

基于最终的所述K个三维顶点的特征，得到所述K个三维顶点的坐标。

4.根据权利要求1所述的三维重建方法，其特征在于，N的取值小于或者等于预设取值。

5.根据权利要求2所述的三维重建方法，其特征在于，在所述基于预设的映射矩阵，将所述M个二维关键点的特征，转换成三维坐标系中的N个三维顶点的特征之前，所述方法还包括：

当N小于K时，对所述K个三维顶点，进行多次下采样，以得到所述N个三维顶点。

6.根据权利要求1所述的三维重建方法，其特征在于，在所述获取待处理图像步骤之前，所述方法还包括：

获取原始图像；

对所述原始图像进行目标部位的检测；

以检测到的所述目标部位所在的区域为中心外扩预设倍数，得到所述待处理图像。

7.一种三维重建装置，其特征在于，包括：

第一获取单元，被配置为执行获取待处理图像，所述待处理图像包含目标部位；

第一输入单元，被配置为执行将所述待处理图像，输入第一网络，得到所述待处理图像的图像特征和所述目标部位的M个二维关键点的热力图，其中，M为正整数；

第二输入单元，被配置为执行将所述待处理图像的图像特征和所述M个二维关键点的热力图，输入第二网络，得到三维坐标系中的N个三维顶点的特征；

第三输入单元，被配置为执行将所述N个三维顶点的特征，输入第三网络，得到K个三维顶点的坐标，所述K个三维顶点的坐标，用于在所述三维坐标系中生成所述目标部位的三维模型，其中，N和K均为正整数。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的三维重建方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的三维重建方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行如权利要求1至权利要求6任一项所述的三维重建方法。