CN109472820B

CN109472820B - 单目rgb-d相机实时人脸重建方法及装置

Info

Publication number: CN109472820B
Application number: CN201811222294.7A
Authority: CN
Inventors: 徐枫; 冯铖锃
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2021-03-16
Anticipated expiration: 2038-10-19
Also published as: CN109472820A

Abstract

本发明公开了一种单目RGB‑D相机实时人脸重建方法及装置，其中，方法包括：通过先进的人脸特征点检测算法在输入的人脸RGB图像上检测人脸特征点的位置；根据人脸特征点的位置得到当前帧每个特征点的三维坐标；获取关键帧上每个人脸特征点的当前三维坐标；根据三维坐标和当前三维坐标得到关键帧到每一帧的全局刚性运动，以得到刚性运动结果；使用刚性运动结果作为ICP的初始化，以微调人脸刚性运动；将刚性运动结果作用于关键帧模型，以更新模型的TSDF表示。该方法有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

Description

单目RGB-D相机实时人脸重建方法及装置

技术领域

本发明涉及三维重建技术领域，特别涉及一种单目RGB-D相机实时人脸重建方法及装置。

背景技术

相关技术中，三维重建技术是计算机视觉和计算机图形学领域的研究热点，是虚拟现实/增强现实、自动驾驶、机器人等领域的核心技术之一，有着广泛的应用。近年来出现了很多工作使用消费级别的深度相机(如微软Kinect、英特尔RealSense等)对一般场景与物体进行实时三维重建。

这类工作大多基于ICP算法对已经重建好的几何部分和当前帧输入点云进行刚性配准，估计当前帧相对关键帧的刚性运动(全局的旋转和平移)。该方法在相机快速运动或者重建对象快速移动的时候具有较大的局限性，经常出现因为刚性运动估计不准确而导致重建失败。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的：

单目RGB-D相机实时三维重建是计算机图形学和计算机视觉领域的研究热点，如何根据单目RGB-D相机的输入数据快速、准确地重建一般物体的几何、反射率和环境光照等信息是一项重要的研究课题。近年来先进的重建技术在几何配准环节大都使用的是基于迭代最近点(ICP)算法，但这类方法一般只能应对较慢的相机或者物体的运动。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种单目RGB-D相机实时人脸重建方法，该方法有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

本发明的另一个目的在于提出一种单目RGB-D相机实时人脸重建方法。

为达到上述目的，本发明一方面实施例提出了一种单目RGB-D相机实时人脸重建方法，包括以下步骤：步骤S1：通过先进的人脸特征点检测算法在输入的人脸RGB图像上检测人脸特征点的位置；步骤S2：根据所述人脸特征点的位置得到当前帧每个特征点的三维坐标；步骤S3：获取关键帧上每个人脸特征点的当前三维坐标；步骤S4：根据所述三维坐标和所述当前三维坐标得到所述关键帧到每一帧的全局刚性运动，以得到刚性运动结果；步骤S5：使用所述刚性运动结果作为ICP的初始化，以微调人脸刚性运动；步骤S6：将所述刚性运动结果作用于关键帧模型，以更新模型的TSDF表示。

本发明实施例的单目RGB-D相机实时人脸重建方法，考虑到人脸结构的特殊性，利用先进的人脸图像特征点检测技术提高单目RGB-D相机实时重建人脸的准确性，针对人脸这类特殊目标提出的一种新的估计全局刚性运动的方法，可以处理人脸快速运动时人脸实时三维重建，从而有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

另外，根据本发明上述实施例的单目RGB-D相机实时人脸重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1进一步包括：将人脸外圈的特征点分为左特征点和右特征点；将所述左特征点和所述右特征点分别用指数函数曲线拟合，并且在拟合之后，保留同时位于两条曲线上方的区域的深度数据；将所述区域以外的深度值置为零。

进一步地，在本发明的一个实施例中，所述步骤S2进一步包括：根据剩余的内部特征点寻找每个特征点在深度图像上对应的位置，并通过深度相机的内参矩阵反投影获取所述当前帧每个特征点的三维坐标。

进一步地，在本发明的一个实施例中，所述步骤S3进一步包括：将当前重建的模型渲染其对应的深度图，并使用获取关键帧模型上特征点的当前三维坐标。

进一步地，在本发明的一个实施例中，所述步骤S4进一步包括：将全局刚性运动建模为一个最优化问题，优化的目标为：

其中，R和t分别表示待优化的刚性旋转和平移，n为特征点的数量，

表示当前输入帧第i个特征点的三维坐标，

表示关键帧第i个特征点的三维坐标。

为达到上述目的，本发明另一方面实施例提出了一种单目RGB-D相机实时人脸重建装置，包括以下步骤：检测模块，用于通过先进的人脸特征点检测算法在输入的人脸RGB图像上检测人脸特征点的位置；第一处理模块，用于根据所述人脸特征点的位置得到当前帧每个特征点的三维坐标；获取模块，用于获取关键帧上每个人脸特征点的当前三维坐标；第二处理模块，用于根据所述三维坐标和所述当前三维坐标得到所述关键帧到每一帧的全局刚性运动，以得到刚性运动结果；初始化模块，用于使用所述刚性运动结果作为ICP的初始化，以微调人脸刚性运动；更新模块，用于将所述刚性运动结果作用于关键帧模型，以更新模型的TSDF表示。

本发明实施例的单目RGB-D相机实时人脸重建装置，考虑到人脸结构的特殊性，利用先进的人脸图像特征点检测技术提高单目RGB-D相机实时重建人脸的准确性，针对人脸这类特殊目标提出的一种新的估计全局刚性运动的方法，可以处理人脸快速运动时人脸实时三维重建，从而有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

另外，根据本发明上述实施例的单目RGB-D相机实时人脸重建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述检测模块进一步用于将人脸外圈的特征点分为左特征点和右特征点，将所述左特征点和所述右特征点分别用指数函数曲线拟合，并且在拟合之后，保留同时位于两条曲线上方的区域的深度数据，将所述区域以外的深度值置为零。

进一步地，在本发明的一个实施例中，所述第一处理模块进一步用于根据剩余的内部特征点寻找每个特征点在深度图像上对应的位置，并通过深度相机的内参矩阵反投影获取所述当前帧每个特征点的三维坐标。

进一步地，在本发明的一个实施例中，所述获取模块进一步用于将当前重建的模型渲染其对应的深度图，并使用获取关键帧模型上特征点的当前三维坐标。

进一步地，在本发明的一个实施例中，所述第二处理模块进一步用于将全局刚性运动建模为一个最优化问题，优化的目标为：

表示当前输入帧第i个特征点的三维坐标，

表示关键帧第i个特征点的三维坐标。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的单目RGB-D相机实时人脸重建方法的流程图；

图2为根据本发明一个具体实施例的单目RGB-D相机实时人脸重建方法的流程图；

图3为根据本发明一个实施例的使用特征点估计刚性运动和ICP方法估计效果对比图；

图4为根据本发明一个实施例的单目RGB-D相机实时人脸重建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的单目RGB-D相机实时人脸重建方法及装置，首先将参照附图描述根据本发明实施例提出的单目RGB-D相机实时人脸重建方法。

图1是本发明一个实施例的单目RGB-D相机实时人脸重建方法的流程图。

如图1所示，该单目RGB-D相机实时人脸重建方法包括以下步骤：

步骤S1：通过先进的人脸特征点检测算法在输入的人脸RGB图像上检测人脸特征点的位置。

进一步地，在本发明的一个实施例中，步骤S1进一步包括：将人脸外圈的特征点分为左特征点和右特征点；将左特征点和右特征点分别用指数函数曲线拟合，并且在拟合之后，保留同时位于两条曲线上方的区域的深度数据；将区域以外的深度值置为零。

可以理解的是，如图2所示，使用先进的人脸特征点检测算法在输入人脸RGB图像上检测人脸特征点的位置，这一步只用到人脸外圈的特征点；本发明实施例把人脸外圈的特征点分为左右两半，各自用一条指数函数曲线拟合，拟合之后，只保留同时位于两条曲线上方的区域的深度数据，而这个区域以外的部分认为不属于人脸部分，并且把这些位置上的深度值置为零。

需要说明的是，本发明实施例使用分辨率为640×480的RGB图像和具有相同分辨率的深度图像，RGB图像和深度图像事先对准过，从而两张图像上相同位置的像素具有对应关系，在此仅作为示例，不做具体限定。

具体而言，本发明实施例对非人脸区域深度数据去除，具体包括：

输入深度图像通常包含非人脸区域的深度数据，如肩膀、背景等等，由于人脸在转动过程中其运动和非人脸区域的运动并不一致，整体上产生了非刚性运动，利用人脸***特征点围成的曲线，自动剔除非人脸区域的深度数据。

本发明实施例把人脸外圈的特征点分为左右两半，各自用一条指数函数曲线拟合，拟合之后，保留同时位于两条曲线上方的区域，而这个区域以外的部分不属于人脸部分，因此，把这些位置上的深度值置为零。

步骤S2：根据人脸特征点的位置得到当前帧每个特征点的三维坐标。

进一步地，在本发明的一个实施例中，步骤S2进一步包括：根据剩余的内部特征点寻找每个特征点在深度图像上对应的位置，并通过深度相机的内参矩阵反投影获取当前帧每个特征点的三维坐标。

可以理解的是，如图2所示，本发明实施例使用步骤S1里面的RGB图像上人脸特征点的像素坐标，这一步和步骤S1相反，不使用外圈的特征点，而使用剩余的内部特征点，并寻找每个特征点在深度图像上对应的位置，这里因为RGB图像和深度图像对准过，所以两者具有相同的像素坐标。最后利用深度相机的内参矩阵反投影得到当前帧每个特征点的三维坐标{p_i^live|p_i^live∈R^3,i＝1,…,n}。

步骤S3：获取关键帧上每个人脸特征点的当前三维坐标。

进一步地，在本发明的一个实施例中，步骤S3进一步包括：将当前重建的模型渲染其对应的深度图，并使用获取关键帧模型上特征点的当前三维坐标。

可以理解的是，如图2所示，计算关键帧上每个人脸特征点此时的三维坐标，本发明实施例需要把当前重建的模型渲染其对应的深度图，然后使用和步骤S2类似的方法计算关键帧模型上特征点的三维坐标

步骤S4：根据三维坐标和当前三维坐标得到关键帧到每一帧的全局刚性运动，以得到刚性运动结果。

可以理解的是，如图2所示，根据这两组特征点的三维坐标，计算关键帧到每一帧的全局刚性运动R和t，我们将其建模为一个最优化问题。

其中，在本发明的一个实施例中，步骤S4进一步包括：将全局刚性运动建模为一个最优化问题，优化的目标为：

表示当前输入帧第i个特征点的三维坐标，

表示关键帧第i个特征点的三维坐标。

步骤S5：使用刚性运动结果作为ICP的初始化，以微调人脸刚性运动。

可以理解的是，如图2所示，本发明实施例使用这个估计结果作为ICP的初始化，进一步微调人脸刚性运动。

步骤S6：将刚性运动结果作用于关键帧模型，以更新模型的TSDF表示。

可以理解的是，如图2所示，本发明实施例根据当前估计的刚性运动结果，作用于关键帧模型，更新模型的TSDF表示。并且，使用特征点估计刚性运动和ICP方法估计效果对比图如图3所示。

具体而言，根据步骤S2-S6，本发明实施例利用特征点准确估计全局刚性运动，具体包括：

在每一帧，计算两组特征点的三维坐标，一组是当前输入帧特征点的三维坐标，另一组是关键帧更新后的特征点的三维坐标。

当前帧输入点云的人脸特征点的三维坐标，可由在该帧RGB图像上检测到的二维特征点的像素坐标，以及深度相机的内参矩阵计算得到：在RGB图像上检测到特征点之后，寻找每个特征点在深度图上对应的像素坐标，经过深度相机内参矩阵，可以得到每个特征点在深度相机坐标系下的三维坐标

其中，n是使用的人脸特征点的数量，这里不使用外圈的特征点，因为不同姿态下外圈特征点在人脸上的语义位置会发生变化。

对于关键帧上人脸特征点的三维坐标，由于每一帧重建的人脸模型都在更新，其表面越来越完整，噪声也在不断减小，所以在每一帧我们需要把当前重建的模型渲染其对应的深度图，然后使用和计算输入点云上的特征点三维坐标类似的方法计算关键帧模型上特征点的三维坐标

根据这两组特征点的三维坐标，计算关键帧到每一帧的全局刚性运动R和t，我们将其建模为一个最优化问题，优化的目标是：

本发明实施例使用这个估计结果作为ICP的初始化，进一步微调人脸的刚性运动，由于在较大姿势下，如侧脸角度超过45度的时候，一些特征点会被遮挡，导致部分特征点三维坐标计算不准确，本发明还是理使用原始的基于ICP的方法再对刚性运动的估计进行微调。

最后，根据当前估计的刚性运动结果，作用于关键帧模型，更新模型的TSDF表示。

根据本发明实施例提出的单目RGB-D相机实时人脸重建方法，考虑到人脸结构的特殊性，利用先进的人脸图像特征点检测技术提高单目RGB-D相机实时重建人脸的准确性，针对人脸这类特殊目标提出的一种新的估计全局刚性运动的方法，可以处理人脸快速运动时人脸实时三维重建，从而有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

其次参照附图描述根据本发明实施例提出的单目RGB-D相机实时人脸重建装置。

图4是本发明一个实施例的单目RGB-D相机实时人脸重建装置的结构示意图。

如图4所示，该单目RGB-D相机实时人脸重建装置10包括：检测模块100、第一处理模块200、获取模块300、第二处理模块400、初始化模块500和更新模块600。

其中，检测模块100用于通过先进的人脸特征点检测算法在输入的人脸RGB图像上检测人脸特征点的位置。第一处理模块200用于根据人脸特征点的位置得到当前帧每个特征点的三维坐标。获取模块300用于获取关键帧上每个人脸特征点的当前三维坐标。第二处理模块400用于根据三维坐标和当前三维坐标得到关键帧到每一帧的全局刚性运动，以得到刚性运动结果。初始化模块500用于使用刚性运动结果作为ICP的初始化，以微调人脸刚性运动。更新模块600用于将刚性运动结果作用于关键帧模型，以更新模型的TSDF表示。本发明实施例的装置10有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

进一步地，在本发明的一个实施例中，检测模块100进一步用于将人脸外圈的特征点分为左特征点和右特征点，将左特征点和右特征点分别用指数函数曲线拟合，并且在拟合之后，保留同时位于两条曲线上方的区域的深度数据，将区域以外的深度值置为零。

进一步地，在本发明的一个实施例中，第一处理模块200进一步用于根据剩余的内部特征点寻找每个特征点在深度图像上对应的位置，并通过深度相机的内参矩阵反投影获取当前帧每个特征点的三维坐标。

进一步地，在本发明的一个实施例中，获取模块300进一步用于将当前重建的模型渲染其对应的深度图，并使用获取关键帧模型上特征点的当前三维坐标。

进一步地，在本发明的一个实施例中，第二处理模块400进一步用于将全局刚性运动建模为一个最优化问题，优化的目标为：

表示当前输入帧第i个特征点的三维坐标，

表示关键帧第i个特征点的三维坐标。

需要说明的是，前述对单目RGB-D相机实时人脸重建方法实施例的解释说明也适用于该实施例的单目RGB-D相机实时人脸重建装置，此处不再赘述。

根据本发明实施例提出的单目RGB-D相机实时人脸重建装置，考虑到人脸结构的特殊性，利用先进的人脸图像特征点检测技术提高单目RGB-D相机实时重建人脸的准确性，针对人脸这类特殊目标提出的一种新的估计全局刚性运动的方法，可以处理人脸快速运动时人脸实时三维重建，从而有效去除了非人脸区域的深度，去除非刚性运动的影响，且可以利用人脸特征点提高刚性运动估计的准确性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。