CN109949412A

CN109949412A - 一种三维对象重建方法和装置

Info

Publication number: CN109949412A
Application number: CN201910233202.3A
Authority: CN
Inventors: 高源�; 林祥凯; 暴林超; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-06-28
Anticipated expiration: 2039-03-26
Also published as: CN109949412B; EP3951720A4; US20210248763A1; EP3951720A1; US11715224B2; WO2020192465A1

Abstract

本申请实施例公开一种三维对象重建方法，获取待建对象的多个视频帧，任一视频帧包括彩色子视频帧和深度子视频帧。根据彩色子视频帧，确定待建对象在视频帧中的关键点信息，关键点信息包括关键点的二维位置信息和关键点相对于待建对象的物理意义信息。物理意义信息体现任一视频帧中关键点体现的是待建对象的哪一个位置，故基于关键点相对于待建对象的物理意义信息，可以确定多个视频帧间关键点的匹配关系，以表示多个视频帧中哪些关键点具有相同物理意义信息。根据匹配关系和关键点的三维位置信息，对多个视频帧中的点云数据进行高效的对齐，减少了计算量，而且准确率高，三维对象重建效果更好。

Description

一种三维对象重建方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种三维对象重建方法和装置。

背景技术

三维技术，如三维人脸识别，三维活体检测，三维瘦脸、美颜等受到越来越广泛的关注。与传统的二维技术相比，三维技术可以针对对象例如人脸、物体等进行三维重建，从而可以提供更好的对象检测、识别效果及更强的安全性。例如三维人脸技术通过在重建后的三维人脸上进行操作，以提供检测、识别服务。而三维对象重建技术是一切三维技术的基础，直接影响到后续任务的性能。

传统的三维对象重建方式中，获取包括待建对象的视频中的视频帧，得到每一个视频帧中的点云数据，一个视频帧中的点云数据为体现该视频帧中待建对象外观表面的特征点数据的集合。再通过对每一个视频帧中的点云数据进行对齐、融合以重建三维对象。

进行点云数据对齐时，需要通过大量的循环迭代计算，这种方式不仅计算量很大，而且准确率不高，导致重建的三维对象效果并不好。

发明内容

为了解决上述技术问题，本申请提供了一种三维对象重建方法和装置，根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行高效的对齐，不仅减少了计算量，而且准确率高，达到更好的三维对象重建效果。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种三维对象重建方法，所述方法包括：

获取待建对象的多个视频帧，任一所述视频帧包括彩色子视频帧和深度子视频帧；

根据所述彩色子视频帧，确定所述待建对象在所述视频帧中的关键点信息，所述关键点信息包括关键点的二维位置信息和所述关键点相对于所述待建对象的物理意义信息；

根据所述关键点的二维位置信息从所述深度子视频帧中确定所述关键点的三维位置信息；

基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系；所述匹配关系用于标识在所述多个视频帧中，具有同一个物理意义信息的关键点；

根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行对齐，生成所述待建对象的三维对象。

第二方面，本申请实施例提供一种三维对象重建装置，所述装置包括提取单元、第一确定单元、第二确定单元、第三确定单元和对齐单元：

所述提取单元，用于获取待建对象的多个视频帧，任一所述视频帧包括彩色子视频帧和深度子视频帧；

所述第一确定单元，用于根据所述彩色子视频帧，确定所述待建对象在所述视频帧中的关键点信息，所述关键点信息包括关键点的二维位置信息和关键点相对于所述待建对象的物理意义信息；

所述第二确定单元，用于根据所述关键点的二维位置信息从所述深度子视频帧中确定所述关键点的三维位置信息；

所述第三确定单元，用于基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系；所述匹配关系用于标识在所述多个视频帧中，具有同一个物理意义信息的关键点；

所述对齐单元，用于根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行对齐，生成所述待建对象的三维对象。

第三方面，本申请实施例提供一种三维对象重建方法，所述方法包括：

获取待建对象的多个视频帧；

根据所述多个视频帧，确定所述待建对象在所述多个视频帧中关键点的三维位置信息和所述关键点相对于所述待建对象的物理意义信息；

根据所述匹配关系和所述关键点的三维位置信息，生成所述待建对象的三维对象。

第四方面，本申请实施例提供一种三维对象重建装置，所述装置包括提取单元、第一确定单元、第二确定单元和生成单元：

所述提取单元，用于获取待建对象的多个视频帧；

所述第一确定单元，用于根据所述多个视频帧，确定所述待建对象在所述多个视频帧中关键点的三维位置信息和所述关键点相对于所述待建对象的物理意义信息；

所述第二确定单元，用于基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系；所述匹配关系用于标识在所述多个视频帧中，具有同一个物理意义信息的关键点；

所述生成单元，用于根据所述匹配关系和所述关键点的三维位置信息，生成所述待建对象的三维对象。

第五方面，本申请实施例提供一种用于三维对象重建的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面或第三方面所述的三维对象重建方法。

第六方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面或第三方面所述的三维对象重建方法。

由上述技术方案可以看出，获取待建对象的多个视频帧，任一视频帧包括彩色子视频帧和深度子视频帧。根据所述彩色子视频帧，确定所述待建对象在所述视频帧中的关键点信息，所述关键点信息包括关键点的二维位置信息和关键点相对于所述待建对象的物理意义信息；由于物理意义信息可以体现出任意一帧视频帧中关键点所体现的是待建对象的哪一个位置，故可以基于关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系，以表示在所述多个视频帧中，哪一些关键点是具有同一个物理意义信息的。故在通过深度子视频帧确定了各个视频帧中关键点的三维位置信息后，可以根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行高效的对齐，不仅减少了计算量，而且准确率高，达到更好的三维对象重建效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种三维对象重建方法的应用场景示意图；

图2为本申请实施例提供的一种三维对象重建方法的流程图；

图3为本申请实施例提供的针对多个视频帧的处理流程；

图4为本申请实施例提供的关键点信息的确定流程；

图5a为本申请实施例提供的关键点提取的结果的示例图；

图5b为本申请实施例提供的关键点提取的结果的示例图；

图5c为本申请实施例提供的关键点提取的结果的示例图；

图5d为本申请实施例提供的三维重建得到的三维对象效果图；

图6为本申请实施例提供的一种关键帧的确定方法的流程图；

图7为本申请实施例提供的参考帧和关键帧的示例图；

图8为本申请实施例提供的利用参考帧和非参考帧确定关键帧的处理流程；

图9a为本申请实施例提供的预对齐的处理流程；

图9b为本申请实施例提供的预对齐结果示例图；

图10a为本申请实施例提供的最终点云对齐的处理流程；

图10b为本申请实施例提供的最终点云对齐结果示例图；

图11a为本申请实施例提供的每个非参考帧相对于参考帧在x(水平)方向旋转的角度；

图11b为本申请实施例提供的每个非参考帧相对于参考帧在y(竖直)方向旋转的角度；

图11c为本申请实施例提供的一种三维对象重建方法的流程图；

图12为本申请实施例提供的一种三维对象重建方法的流程图；

图13a为本申请实施例提供的一种三维对象重建装置的结构图；

图13b为本申请实施例提供的一种三维对象重建装置的结构图；

图14a为本申请实施例提供的一种三维对象重建装置的结构图；

图14b为本申请实施例提供的一种终端设备的结构图；

图15为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

传统的三维对象重建方法中，由于并不知晓不同视频帧的点云数据中特征点之间的匹配关系，例如难以确定一个视频帧中的特征点a是其他视频帧中的哪一个特征点。故进行点云数据对齐时，需要通过大量的循环迭代计算的方式确定两组特征点的匹配关系，这种方式不仅计算量很大，而且准确率不高，导致重建的三维对象效果并不好。

为了解决上述技术问题，本申请实施例提供一种三维对象重建方法，该三维重建方法可以应用到图像处理设备中，图像处理设备例如可以是服务器或终端设备。

若该三维重建方法应用到服务器中，服务器是向终端设备提供三维人脸识别，三维活体检测，三维瘦脸、美颜等服务的设备，终端设备可以将采集到的包括待建对象的视频上传给服务器，服务器利用本申请实施例提供的三维重建方法得到三维对象，并利用三维对象进行下一步操作，从而为终端设备提供服务。其中，服务器可以是独立的服务器，也可以是集群中的服务器。

若该三维重建方法应用到终端设备中，终端设备利用本申请实施例提供的三维重建方法得到三维对象，并将三维对象上传给服务器进行下一步操作，从而为终端设备提供服务。终端设备例如可以是智能终端、计算机、个人数字助理(Personal DigitalAssistant，简称PDA)、平板电脑等设备。

为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备为例对本申请实施例提供的三维重建方法进行介绍。

参见图1，图1为本申请实施例提供的三维对象重建方法的应用场景示意图。该应用场景中包括终端设备101，终端设备101可以获取待建对象的多个视频帧。待建对象是指视频中需要进行三维重建的对象，待建对象可以是人脸或者人的其他部位，待建对象也可以是物体。图1仅以待建对象为人脸作为一种示例。

多个视频帧可以是从包括待建对象的视频中提取的，包括待建对象的视频可以是由终端设备101对待建对象进行拍摄得到的，也可以是其他拍摄设备对待建对象进行拍摄得到的。若包括待建对象的视频是其他拍摄设备对待建对象进行拍摄得到的，则终端设备101需要从拍摄设备获取该视频。

需要说明的是，在对待建对象进行拍摄时，待建对象需要保持尽量静止，终端设备101或其他拍摄设备按照某一运动轨迹移动，从而可以从不同角度拍摄待建对象。该运动轨迹例如可以是使得终端设备101或其他拍摄设备在水平和/或竖直等方向上移动的轨迹。

可以理解的是，任一视频帧包括彩色子视频帧和深度子视频帧，根据彩色子视频帧，可以确定待建对象在视频帧中的关键点信息。其中，关键点信息包括关键点的二维位置信息和关键点相对于待建对象的物理意义信息。

关键点可以是指视频帧中能够体现待建对象所在位置的一些特征点，若待建对象为人脸，则关键点可以包括位于左眉毛、右眉毛、左眼睛的内眼角、左眼睛的外眼角、右眼睛的内眼角、右眼睛的外眼角、鼻头、左边鼻翼、右边鼻翼、左边嘴角、右边嘴角脸部轮廓等位置的特征点。

物理意义信息是指用通俗语言对关键点进行描述的描述信息。物理意义信息可以体现出任意一帧视频帧中关键点所体现的是待建对象的哪一个位置。

以待建对象是人脸为例，物理意义信息可以是左眉毛、右眉毛、左眼睛的内眼角、左眼睛的外眼角、右眼睛的内眼角、右眼睛的外眼角、鼻头、左边鼻翼、右边鼻翼、左边嘴角、右边嘴角等。若一帧视频帧中的某个关键点相对于人脸的物理意义信息为左眼睛的内眼角，那么，该物理意义信息体现出该关键点是人脸上左眼睛的内眼角位置。

故可以基于关键点相对于待建对象的物理意义信息，确定多个视频帧间关键点的匹配关系(correspondence)，以表示在多个视频帧中，哪一些关键点是具有同一个物理意义信息的。

以待建对象是人脸为例，若一帧视频帧中的关键点A相对于人脸的物理意义信息为眼角，另一帧视频帧中的关键点A’相对于人脸的物理意义信息为眼角。可见，关键点A与关键点A’是具有同一物理意义信息的关键点，关键点A与关键点A’所体现的是人脸的同一位置，则可以确定关键点A与关键点 A’具有匹配关系。

在通过深度子视频帧确定了关键点的三维位置信息后，可以根据匹配关系和关键点的三维位置信息，对多个视频帧中的点云数据进行高效的对齐，不仅减少了计算量，而且准确率高，达到更好的三维对象重建效果。

接下来，将以终端设备为例、结合附图对本申请实施例提供的三维对象重建方法进行详细介绍。

参见图2，图2示出了一种三维对象重建方法的流程图，所述方法包括：

S201、获取待建对象的多个视频帧，任一视频帧包括彩色子视频帧和深度子视频帧。

为了避免在三维重建过程中使用出终端设备之外的其他设备，节约成本，在一种可能的实现方式中，利用终端设备自身对待建对象进行拍摄，得到包括待建对象的视频，以便从中获取待建对象的多个视频帧。其中，终端设备具有彩色摄像头和深度传感器，终端设备利用采集彩色子视频帧和深度传感器便可以采集到包括彩色子视频帧和深度子视频帧的视频帧。

以待建对象是人脸为例，用户利用终端设备对人脸进行拍摄，得到包括人脸的视频，该视频可以称为RGB-D视频。然后，终端设备从该频中提取多个视频帧。

同一个视频帧可以拆解成彩色子视频帧和深度子视频帧，彩色子视频帧具有色彩和纹理，通过彩色子视频帧更容易识别出待建对象中的关键位置，因此，根据彩色子视频帧可以确定出关键点信息，关键点信息包括各个关键点的二维位置信息和关键点相对于待建对象的物理意义信息；深度子视频帧可以体现出待建对象的深度信息，因此，根据深度子视频帧可以获取关键点的深度信息，进而确定关键点的三维位置信息。

S202、根据所述彩色子视频帧，确定所述待建对象在所述视频帧中的关键点信息。

在本实施例中，终端得到多个视频帧后，可以通过图3所示的处理流程得到待建对象的三维图像，该处理流程至少包括关键点提取、点云数据对齐、点云及彩色子视频帧融合三个步骤。其中，虚线框所示的步骤例如关键帧提取和关键点预对齐为可选的步骤。在关键点提取这个步骤中，包括S202和 S203，即通过关键点提取最终得到关键点的三维位置信息和物理意义信息。

若待建对象为人脸，确定视频帧中的关键点信息相当于预先获取人脸先验信息，根据人脸先验信息可以更加快速、准确的确定多个视频帧间关键点的匹配关系，进而实现高效的点云数据对齐。

需要说明的是，确定待建对象在视频帧中的关键信息可以包括多种方式。在很多情况下，彩色字视频中除了包括待建对象，还包括其他内容，为了避免对彩色字视频中包括其他内容的部分进行不必要的关键点信息确定，提高处理效率，在一种可能的实现方式中，可以首先确定待建对象所在的目标区域，然后针对目标区域的视频帧数据确定关键点信息。具体的，终端设备可以通过第一网络模型对彩色子视频帧进行对象检测，确定待建对象所在彩色子视频帧的目标区域；然后，终端设备提取目标区域的视频帧数据，通过第二网络模型确定待建对象在视频帧中的关键点信息。

其中，第一网络模型和第二网络模型都属于深度神经网络模型。第一网络模型和第二网络模型分别可以包括多种，在一种可能的实现方式中，第一网络模型为MTCNN深度神经网络模型，第二网络模型为hourgalss深度神经网络模型，深度神经网络模型并不限于上述两个模型。

具体地，关键点信息的确定流程可以参见图4所示。终端设备首先利用 MTCNN深度神经网络模型对彩色子视频帧进行对象检测，确定待建对象所在彩色子视频帧的目标区域，提取目标区域的视频帧数据作为hourgalss深度神经网络模型的输入。终端设备利用为hourgalss深度神经网络模型经过一系列卷积(Convolution)、线性整流激活(ReLUActivation)、全连接 (Fully-Connected)、以及softmax等操作，输出目标区域的视频帧数据中每个像素是关键点的概率，确定概率的极大值点即为待建对象的关键点，从而确定关键点的二维位置信息。同时，hourgalss深度神经网络模型根据输出每个关键点的物理意义信息。

然而，在实际使用过程中，终端设备确定目标区域后可以通过裁剪的方式得到目标区域，并将得到的目标区域缩放到目标像素大小，例如将目标区域缩放到512x512(像素)的大小，然后将缩放后的目标区域的视频帧数据作为hourgalss深度神经网络模型的输入。

S203、根据所述关键点的二维位置信息从所述深度子视频帧中确定所述关键点的三维位置信息。

由于彩色子视频帧和深度子视频帧是由同一个视频帧拆解得到的，彩色子视频帧和深度子视频帧是同一时刻待建对象的画面，彩色子视频帧和深度子视频帧中的关键点一一对应。因此，参见图4，根据关键点的二维位置信息，可以分别确定关键点在深度子视频帧中的位置，进而获取该位置对应的深度信息，这样，根据二维位置信息和深度信息便可以得到关键点的三维位置信息。

以待建对象是人脸为例，基于图4所对应实施例提供的方法，关键点提取的结果可以参见图5a-图5c所示。图5a-图5c中共确定出86个人脸的关键点，其中，图5a为二维提取结果，即可以用于确定关键点信息，图5a中数字标识的点为关键点；图5b-图5c为不同角度下的三维提取结果，即可以用于确定三维位置信息，图5b-图5c中深色点为关键点。

S204、基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系。

由于物理意义信息可以体现出任意一帧视频帧中关键点所体现的是待建对象的哪一个位置，故可以基于关键点相对于所述待建对象的物理意义信息，确定多个视频帧间关键点的匹配关系。若待建对象为人脸，则相当于预先获取人脸先验信息，从而快速、准确地确定多个视频帧间关键点的匹配关系，以表示在所述多个视频帧中，哪一些关键点是具有同一个物理意义信息的。故根据该匹配关系和各个关键点的三维位置信息，可以对多个视频帧中的点云数据进行高效的对齐。

需要说明的是，本实施例对S203和S204的执行顺序不做限定。

S205、根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行对齐，生成所述待建对象的三维对象。

针对每个视频帧中的点云数据，根据匹配关系和关键点的三维位置信息对点云数据进行高效的对齐(registration)、点云及彩色子视频帧融合以生成三维对象，此过程对应图3中第二个实线框和第三个实线框所示的步骤。其中，融合是可以采用TSDF融合算法。

以待建对象为人脸为例，最终通过三维重建得到的三维对象参见图5d所示，图5d从不同的角度显示出三维对象的效果。其中，点云是指待建对象表面的特征点集合，点云包括关键点和其他特征点。

在一些三维重建场景中，可能需要比较高的实时性，使得用户可以忍受三维重建的等待时间。为了提高三维重建的实时性，本实施例从降低终端设备所需处理的数据量的角度，提高终端设备进行点云数据对齐的效率，提高三维重建的实时性。因此，在一种可能的实现方式中，可以采用少量的高质量视频帧作为点云数据对齐的依据。其中，高质量视频帧可以是关键帧。

为此，在执行S205之前需要从视频帧中确定关键帧，即图3所示的处理流程中第一个虚线框所示的步骤。接下来，将对关键帧的确定方法进行介绍。参见图6，所述方法包括：

S601、从所述多个视频帧中确定参考帧和非参考帧。

在本实施例中，可以从多个视频帧中选取任一帧视频帧作为参考帧，其余视频帧作为非参考帧。

在一种可能的实现方式中，多个视频帧可能是终端设备在运动轨迹上移动，从不同角度对待建对象进行拍摄得到的，为了使得后续计算待建对象相对姿态相对简单，保证三维重建效果，可以将待拍摄对象正对终端设备拍摄得到的视频帧作为参考帧。

以待建对象为人脸为例，终端设备确定的参考帧可以是正脸的视频帧，正脸是指人脸正对终端设备，如图7中第一行所示。

S602、计算所述非参考帧与所述参考帧间的待建对象相对姿态和非参考帧中关键点被匹配为内聚点的数量。

在本实施例中，图8示出了利用参考帧和非参考帧确定关键帧的处理流程。终端设备在确定出参考帧和非参考帧后，获取参考帧和非参考帧中关键点的三维位置信息，终端设备可以利用RANSAC算法计算所有非参考帧与参考帧间的待建对象相对姿态，同时计算得到非参考帧内聚点数量。其中，待建对象相对姿态可以体现非参考帧中待建对象相对于参考帧间中待建对象的旋转角度，可以用旋转矩阵来表示。内聚点为根据匹配关系，非参考帧中可以与参考帧中关键点匹配的关键点。

S603、在根据所述非参考帧的待建对象相对姿态所划分的多个姿态范围中，根据所述非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧。

需要说明的是，非参考帧的内聚点数量越多，说明非参考帧中与参考帧中匹配的关键点数量越多，利用这样的非参考帧对多个视频帧中的点云数据对齐效果越好，达到的三维对象重建效果也就越好。因此，可以将每一个姿态范围中内聚点数量最多的非参考帧作为关键帧，从而得到的关键帧是高质量视频帧，有利于达到更好的三维对象重建效果。

在得到关键帧的情况下，S205的一种实现方式为根据匹配关系、参考帧和关键帧中内聚点的三维位置信息，对多个视频帧中的点云数据进行对齐。

由于本实施例采用少量的关键帧作为点云数据对齐的依据，降低了终端设备所需处理的数据量，提高了终端设备进行点云数据对齐的效率，提高三维重建的实时性。

同时，在一些三维重建场景中，非参考帧中可能存在离群点，离群点为非参考帧中与参考帧未匹配的关键点。非参考帧中的关键点与参考帧关键点未匹配的原因可以是由于深度传感器不精确导致的，也可以是由待建对象(例如人脸)的非刚性变化导致的。离群点例如可以是图5c中最左侧的点。而本实施例中，由于关键帧是内聚点数量最多的非参考帧，从而减小了离群点对多个视频帧中的点云数据对齐的影响。

另外，关键帧来进行点云数据对齐，与传统点云数据对齐方式相比，传统方式中，终端设备中仅保存t-1时刻与t时刻的视频帧，并对t时刻的视频帧与t-1时刻的视频帧进行点云数据对齐。例如，时刻为2s的视频帧与时刻为1s的视频帧进行点云数据对齐，得到对齐后的视频帧，时刻为3s的视频帧与时刻为2s的视频帧进行点云数据对齐，此时，时刻为2s的视频帧为前一次对齐后的视频帧，以此类推。由于第一次点云数据对齐后，对齐后的视频帧存在误差，第二次点云数据对齐利用了对齐后的视频帧，是在存在误差的视频帧基础上进行的，从而导致第二次点云数据对齐的误差进一步增大，以此类推，随着点云数据对齐次数的增加，误差也会不断增大，从而导致帧间累积误差，影响最终三维重建效果。而本实施例利用关键帧来进行点云数据对齐时，每个关键帧分别在参考帧的基础上进行点云数据对齐，从而避免了帧间累积误差。

可以理解的是，由于关键帧中的内聚点是与参考帧匹配的关键点，可以精确地体现出待建对象上的位置，因此，根据匹配关系、参考帧和关键帧中内聚点的三维位置信息，对多个视频帧中的点云数据进行对齐的一种可能实现方式为根据所述关键帧与所述参考帧间的待建对象相对姿态，将所述关键帧的内聚点进行旋转，以与所述参考帧中的内聚点进行预对齐。预对齐的处理流程如图9a所示，待建对象相对姿态利用旋转矩阵表示，终端设备分别获取每个关键帧与参考帧间中关键点的三维位置信息，计算各个关键帧相对于参考帧的旋转矩阵，根据旋转矩阵将关键帧终中的内聚点对齐到参考帧上。以待建对象是人脸为例，预对齐结果如图9b所示。图9b左侧为预对齐之前的示例图，右侧为预对齐后的示例图。其中，白色点为参考帧的关键点，灰色点为随机选取的关键帧的关键点。

终端设备完成预对齐后，根据所述预对齐的预对齐结果，对多个视频帧中的点云数据进行对齐。在实际使用过程中，以待建对象是人脸为例，参见图10a所示，终端设备首先根据深度子视频帧确定关键帧的点云数据，然后通过鼻梁中心的关键点(例如图5a中53号点)作为球心裁剪点云，接着在预对齐结果的基础上利用ICP算法进行最终点云对齐。最终点云对齐结果可以参见图10b所示。图10b左侧为最终对齐之前的示例图，右侧为最终对齐后的示例图。其中，白色点为参考帧的点云，灰色点为随机选取的关键帧的点云。

接下来，将对姿态范围的划分以及如何根据划分的姿态范围确定出关键帧进行详细介绍。

需要说明的是，姿态范围的划分可以是在不同的移动方向进行，例如水平方向或竖直方向，具体在那个移动方向划分姿态范围与终端设备的运动轨迹有关。若运动轨迹表明终端设备拍摄待建对象是多数在水平方向移动，则可以在水平方向划分姿态范围，若终端设备拍摄待建对象是多数在竖直方向移动，则可以在竖直方向划分姿态范围。

以待建对象为人脸，终端设备为手机为例，手机的运动轨迹如下：将手机从正面面对被拍摄人脸时开始拍摄；将手机缓慢水平移动到被拍摄人脸左侧，以能完整拍摄到左耳为准；将手机缓慢水平移动到被拍摄人脸右侧，以能完整拍摄到右耳为准；将手机缓慢水平移动到正面面对被拍摄人脸；将手机缓慢竖直移动到被拍摄个体下方，以能完整拍摄到下巴为准。可见，利用手机拍摄人脸时手机主要在水平方向移动，因此，可以在水平方向上划分姿态范围。

姿态范围的划分方式可以包括多种，一般情况下，姿态范围的划分方式根据终端设备拍摄待建对象所采用运动轨迹的不同而有所区别。若运动轨迹体现出终端设备主要在水平方向上移动，在一种可能的实现方式中，姿态范围的划分方式为：终端设备根据非参考帧的待建对象相对姿态在水平方向确定待划分角度范围，然后，终端设备根据角度阈值将待划分角度范围划分为多个姿态范围。

继续以上述待建对象和运动轨迹为例，参见图8所示，终端设备在计算出待建对象相对姿态(旋转矩阵)后，可以将该旋转矩阵投影到x(水平)，y (竖直)，z(前后)三个方向。然后，终端设备根据非参考帧的待建对象相对姿态在水平方向确定待划分角度范围。终端设备根据角度阈值(例如20度) 将待划分角度范围划分为多个姿态范围，例如K个姿态范围，并选取每个姿态范围中内聚点数量最多的视频帧作为关键帧，从而得到K个关键帧。接着，终端设备可以选取y(竖直)方向上相对于参考帧旋转角度最大的视频帧作为第K+1个关键帧(该关键帧用于重建被拍摄人的下巴)。

参见图11a-11b所示，图11a-11b分别示出了每个非参考帧相对于参考帧在x(水平)和y(竖直)方向旋转的角度。图11a中，非参考帧在水平方向相对于参考帧旋转的最大角度为左右分别接近且小于60度，因此，本实施例可以确定待划分角度范围为-60度至60度。若角度阈值为20度，终端设备可以将待划分角度范围划分为6个姿态范围，从而在每个姿态范围中选取内聚点最多的至少一个视频帧作为关键帧，例如在水平方向上得到8个关键帧。接着，根据图11b所示的非参考帧相对于参考帧在y(竖直)方向旋转的角度，选取旋转角度最大的视频帧作为第9个关键帧。这样，得到的所有关键帧如图7中第二行和第三行所示，其中，第二行为水平方向上确定的关键帧，第三行为竖直方向上确定的关键帧。

可以理解的是，当根据非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧时，当待建对象为人脸时，由于人脸可能会发生非刚性变化，进而导致关键点在不同视频帧上的位置发生明显变化。例如，人脸上物理意义信息为左眼睛的内眼角、左眼睛的外眼角、右眼睛的内眼角、右眼睛的外眼角、左边嘴角、右边嘴角等关键点容易因非刚性变化(表情变化)而使得不同视频帧上相同关键点的位置发生明显变化，如果将发生表情变化的非参考帧确定为关键帧，可能会影响三维重建效果。

例如，待建对象为人脸，非参考帧A和非参考帧B分别包括20个关键点，若非参考帧A中与参考帧匹配的关键点为12个，即非参考帧A中内聚点数量为12，而非参考帧B中与参考帧匹配的关键点为10个，即非参考帧B中内聚点数量为10。那么，通常情况下，由于非参考帧A中内聚点数量多，可以确定非参考帧A为关键帧。但是，若非参考帧A中人脸发生了表情变化，例如眨眼，如果还将非参考帧A确定为关键帧，利用非参考帧A进行三维重建，将会影响三维重建的效果。

在这种情况下，根据非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧的可能实现方式可以是根据关键点的物理意义信息，为该多个关键点分别设置权重；基于非参考帧中内聚点的权重和内聚点数量，确定非参考帧的内聚点得分；根据非参考帧的内聚点得分，在每一个姿态范围中确定至少一个非参考帧作为关键帧。

其中，物理意义信息体现可形变特征的关键点的权重大于物理意义信息体现不可形变特征的关键点的权重。若某个非参考帧中人脸发生非刚性变化，该非参考帧的内聚点中物理意义信息体现可形变特征的内聚点可能较少，进而导致该非参考帧的内聚点得分可能较低。这样，即使该非参考帧中内聚点数量大于其他非参考帧，由于其内聚点得分较低，根据内聚点得分确定关键帧时也不会将该非参考帧确定为关键帧，从而避免该非参考帧中待建对象发生变化影响三维重建效果。

例如，待建对象为人脸，非参考帧A和非参考帧B分别包括20个关键点，非参考帧A中人脸出现了眨眼这个表情变化。确定出非参考帧A中内聚点数量为12，12个内聚点中有2个内聚点的物理意义信息分别为左眼睛的内眼角和左眼睛的外眼角，其余10个内聚点的物理意义信息为左边鼻翼、右边鼻翼。而非参考帧B中内聚点数量为10，10个内聚点中有6个内聚点的物理意义信息分别为左眼睛的内眼角、左眼睛的外眼角、左眼睛的眼皮，其余4个内聚点的物理意义信息为左边鼻翼、右边鼻翼。若物理意义信息为与眼睛相关的的关键点权重为2，物理意义信息为与鼻翼相关的关键点权重为1，则确定非参考帧A的内聚点得分为2×2+10×1＝14，非参考帧B的内聚点得分为6× 2+4×1＝16，由于非参考帧B的内聚点得分大于非参考帧A的内聚点得分，故确定非参考帧B作为关键帧，而不是确定非参考帧A为关键帧，从而避免非参考帧A中眨眼这个表情变化对三维重建效果的影响。

需要说明的是，本申请实施例还提供另一种三维对象重建方法，参见图11c，所述方法包括：

S1101、获取待建对象的多个视频帧。

需要说明的是，在一种可能的实现方式中，任一视频帧包括彩色子视频帧和深度子视频帧。

S1102、根据所述多个视频帧，确定所述待建对象在所述多个视频帧中关键点的三维位置信息和所述关键点相对于所述待建对象的物理意义信息。

可以理解的是，若任一视频帧包括彩色子视频帧和深度子视频帧，S1102 的一种实现方式可参见S202-S203的具体实现方式。

S1103、基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系。

所述匹配关系用于标识在所述多个视频帧中，具有同一个物理意义信息的关键点。

S1104、根据所述匹配关系和所述关键点的三维位置信息，生成所述待建对象的三维对象。

可以理解的是，S1104的一种可能实现方式可以参见S205的描述。

需要说明的是，图11c对应的实施例中所有可能实现方式均可参见图2 对应实施例的具体实现方式，本实施例对此不再赘述。

接下来，将结合实际应用场景对本申请实施例提供的三维对象重建方法进行介绍。在该应用场景中，待建对象为人脸，终端设备为手机，被拍摄的人在拍摄过程中尽量保持静止。参见图12，所述方法包括：

S1201、用户通过手机按照预设的运动轨迹拍摄包括人脸的视频。

S1202、手机从该视频中提取多个视频帧。

S1203、手机根据多个视频帧中的彩色子视频帧，利用深度神经网络模型确定人脸在视频帧中的关键点信息。

S1204、手机根据关键点的二维位置信息从多个视频帧中的深度子视频帧中确定关键点的三维位置信息。

S1205、手机基于关键点相对于人脸的物理意义信息，确定多个视频帧间关键点的匹配关系。

S1206、手机从多个视频帧中提取关键帧。

S1207、手机根据关键帧与参考帧间的待建对象相对姿态，将关键帧的内聚点进行旋转，以与参考帧中的内聚点进行预对齐。

S1208、手机根据预对齐的预对齐结果，对多个视频帧中的点云数据进行对齐。

S1209、手机将对齐后的点云数据进行融合，并融合彩色子视频帧，得到彩色三维重建结果。

基于前述实施例提供的一种三维对象重建方法，本申请实施例还提供一种三维对象重建装置，参见图13a，所述装置包括提取单元1301、第一确定单元1302、第二确定单元1303、第三确定单元1304和对齐单元1305：

所述提取单元1301，用于获取待建对象的多个视频帧，任一所述视频帧包括彩色子视频帧和深度子视频帧；

所述第一确定单元1302，用于根据所述彩色子视频帧，确定所述待建对象在所述视频帧中的关键点信息，所述关键点信息包括关键点的二维位置信息和关键点相对于所述待建对象的物理意义信息；

所述第二确定单元1303，用于根据所述关键点的二维位置信息从所述深度子视频帧中确定所述关键点的三维位置信息；

所述第三确定单元1304，用于基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系；所述匹配关系用于标识在所述多个视频帧中，具有同一个物理意义信息的关键点；

所述对齐单元1305，用于根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行对齐，生成所述待建对象的三维对象。

在一种可能的实现方式中，所述第一确定单元1302，具体用于：

通过第一网络模型对所述彩色子视频帧进行对象检测，确定所述待建对象所在彩色子视频帧的目标区域；

提取所述目标区域的视频帧数据，通过第二网络模型确定所述待建对象在所述视频帧中的关键点信息。

在一种可能的实现方式中，参见图13b，所述装置还包括第四确定单元 1306、计算单元1307和第五确定单元1308：

所述第四确定单元1306，用于从所述多个视频帧中确定参考帧和非参考帧；

所述计算单元1307，用于计算所述非参考帧与所述参考帧间的待建对象相对姿态和非参考帧中关键点被匹配为内聚点的数量；

所述第五确定单元1308，用于在根据所述非参考帧的待建对象相对姿态所划分的多个姿态范围中，根据所述非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧；

所述对齐单元1305，具体用于：

根据所述匹配关系、所述参考帧和关键帧中内聚点的三维位置信息，对所述多个视频帧中的点云数据进行对齐。

在一种可能的实现方式中，所述第五确定单元1308，具体用于：

根据所述关键点的物理意义信息，为所述多个关键点分别设置权重；物理意义信息体现可形变特征的关键点的权重大于物理意义信息体现不可形变特征的关键点的权重；

基于非参考帧中内聚点的权重和内聚点数量，确定非参考帧的内聚点得分；

根据所述非参考帧的内聚点得分，在每一个姿态范围中确定至少一个非参考帧作为关键帧。

在一种可能的实现方式中，所述对齐单元1305，具体用于：

根据所述关键帧与所述参考帧间的待建对象相对姿态，将所述关键帧的内聚点进行旋转，以与所述参考帧中的内聚点进行预对齐；

根据所述预对齐的预对齐结果，对所述多个视频帧中的点云数据进行对齐。

根据所述非参考帧的待建对象相对姿态在水平方向确定待划分角度范围；

根据角度阈值将所述待划分角度范围划分为多个姿态范围。

本申请实施例还提供一种三维对象重建装置，参见图14a，所述装置包括提取单元1401、第一确定单元1402、第二确定单元1403和生成单元1404：

所述提取单元1401，用于获取待建对象的多个视频帧；

所述第一确定单元1402，用于根据所述多个视频帧，确定所述待建对象在所述多个视频帧中关键点的三维位置信息和所述关键点相对于所述待建对象的物理意义信息；

所述第二确定单元1403，用于基于所述关键点相对于所述待建对象的物理意义信息，确定所述多个视频帧间关键点的匹配关系；所述匹配关系用于标识在所述多个视频帧中，具有同一个物理意义信息的关键点；

所述生成单元1404，用于根据所述匹配关系和所述关键点的三维位置信息，生成所述待建对象的三维对象。

本申请实施例还提供了一种用于三维对象重建的设备，下面结合附图对用于三维对象重建的设备进行介绍。请参见图14b所示，本申请实施例提供了一种用于三维对象重建的设备1400，该设备1400还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图14b示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图14b，手机包括：射频(Radio Frequency，简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity，简称WiFi)模块1470、处理器1480、以及电源 1490等部件。本领域技术人员可以理解，图14b中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14b对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务 (GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元 1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480 根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14b 中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441 集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14b示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490(比如电池)，优选的，电源可以通过电源管理***与处理器1480逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

或，

获取待建对象的多个视频帧；

本申请实施例提供的用于三维对象重建的设备可以是服务器，请参见图 15所示，图15为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作***1541，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

其中，CPU 1522用于执行如下步骤：

或，

获取待建对象的多个视频帧；

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等 (如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或 c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种三维对象重建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述彩色子视频帧，确定所述待建对象在所述视频帧中的关键点信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述多个视频帧中确定参考帧和非参考帧；

计算所述非参考帧与所述参考帧间的待建对象相对姿态和非参考帧中关键点被匹配为内聚点的数量；

在根据所述非参考帧的待建对象相对姿态所划分的多个姿态范围中，根据所述非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧；

所述根据所述匹配关系和所述关键点的三维位置信息，对所述多个视频帧中的点云数据进行对齐，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述匹配关系、所述参考帧和关键帧中内聚点的三维位置信息，对所述多个视频帧中的点云数据进行对齐，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述非参考帧的待建对象相对姿态所划分的多个姿态范围根据如下方式获得：

根据角度阈值将所述待划分角度范围划分为多个姿态范围。

7.一种三维对象重建装置，其特征在于，所述装置包括提取单元、第一确定单元、第二确定单元、第三确定单元和对齐单元：

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元，具体用于：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括第四确定单元、计算单元和第五确定单元：

所述第四确定单元，用于从所述多个视频帧中确定参考帧和非参考帧；

所述计算单元，用于计算所述非参考帧与所述参考帧间的待建对象相对姿态和非参考帧中关键点被匹配为内聚点的数量；

所述第五确定单元，用于在根据所述非参考帧的待建对象相对姿态所划分的多个姿态范围中，根据所述非参考帧的内聚点数量，在每一个姿态范围中确定至少一个非参考帧作为关键帧；

所述对齐单元，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述第五确定单元，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述对齐单元，具体用于：

12.一种三维对象重建方法，其特征在于，所述方法包括：

获取待建对象的多个视频帧；

13.一种三维对象重建装置，其特征在于，所述装置包括提取单元、第一确定单元、第二确定单元和生成单元：

所述提取单元，用于获取待建对象的多个视频帧；

14.一种用于三维对象重建的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6或12所述的三维对象重建方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6或12所述的三维对象重建方法。