CN117635838A

CN117635838A - 三维人脸重建方法、设备、存储介质及装置

Info

Publication number: CN117635838A
Application number: CN202311651131.1A
Authority: CN
Inventors: 童同; 王光宇; 孙昊; 谷奇峰; 冯发金; 刘晓鸿
Original assignee: China Mobile Communications Group Co Ltd; Beijing University of Posts and Telecommunications; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; Beijing University of Posts and Telecommunications; China Mobile Information Technology Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-01

Abstract

本发明属于人工智能技术领域，公开了一种三维人脸重建方法、设备、存储介质及装置，本发明通过将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；基于可微渲染器对人脸粗参数进行参数优化，获得优化后的人脸参数；基于低分辨率局部金字塔纹理基对优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数；基于面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸，相较于相关重建方案不能精准确定人脸纹理特征，导致重建效果差。本发明通过构建局部纹理金字塔，逐尺度融合不同视角的纹理信息，用低分辨输入指导高清纹理图生成，提高了生成人脸的质量和保真度。

Description

三维人脸重建方法、设备、存储介质及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种三维人脸重建方法、设备、存储介质及装置。

背景技术

近年来已经有多个研究团队开展了有关3D人脸重建、隐私安全、人脸特征等与健康高度相关的工作。通过激光扫描手段获得物理学建模的人脸模型是人脸重建的最早的主流方法。通过激光扫描手段获得物理学建模的重建方法往往需要昂贵的激光传感器与3D打印设备，重建过程需要专业操作知识且耗时。此外，传统的基于运动恢复结构以及多视图立体视觉的方法针对人脸的特异性不够高，需要大量的二维图片进行输入，并且算法对于收集的图片之间的位姿关系也有着较为严格的要求，往往需要大量的时间进行运算。

计算机视觉算法逐渐取代了严重依赖硬件的物理建模方法。传统计算机视觉人脸重建算法通过收集多张二维图片，在比较小的相机基线的约束下，估计相机的深度以及相机间相对的位姿信息，以达到恢复三维结构的目的，但上述方案并不能精确获取人脸纹理特征，导致重建效果差且运算速度差。

发明内容

本发明的主要目的在于提供一种三维人脸重建方法、设备、存储介质及装置，旨在解决相关重建方案不能精准确定人脸纹理特征，导致重建效果差的技术问题。

为实现上述目的，本发明提供一种三维人脸重建方法，所述三维人脸重建方法包括以下步骤：

将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；

基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数；

基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数；

基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸。

可选地，所述将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数的步骤，包括：

基于预设角度采集目标用户对应的多视角视频信息；

从所述多视角视频中提取待识别的照片流对应的照片帧；

基于人脸地标检测器和预设位姿对所述照片帧进行地标三维化处理，获得三维地标；

将所述三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数。

可选地，所述将所述三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数的步骤，包括：

对所述三维地标进行稀疏融合，获得融合后的三维人脸地标；

基于岭回归算法将预设三维可变人脸模型的平均形状与所述融合后的三维人脸坐标进行拟合，获得初始形状参数；

基于所述岭回归算法将所述预设三维可变人脸模型的纹理基与所述融合后的三维人脸坐标进行拟合，获得初始纹理参数；

根据所述初始形状参数和所述初始纹理参数确定人脸粗参数。

可选地，所述基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数的步骤，包括：

根据所述优化后的人脸参数中包含的顶点序号数组、纹理图像素点序号数组以及二维屏幕空间坐标系下纹理图像素点数组确定二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化坐标信息；

基于顶点法线函数和所述归一化坐标信息确定顶点法线数组；

基于所述顶点法线数组确定可见顶点的索引信息；

基于所述索引信息对若干个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图；

基于低分辨率局部金字塔纹理基对所述多视图纹理图进行岭回归，获得面部不同局部区域的局部拟合纹理参数。

可选地，所述基于所述索引信息对若干个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图的步骤，包括：

基于所述索引信息从若干个照片帧中选取预设数量的照片帧构建拉普拉斯金字塔；

基于所述拉普拉斯金字塔和所述预设三维可变人脸模型的纹理基确定二维屏幕空间坐标系下纹理图像素点对应的照片帧指定的部分纹理，获得二维屏幕空间坐标系下融合的多视图纹理图。

可选地，所述基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸的步骤，包括：

根据所述局部拟合纹理参数确定局部拟合高分辨率UV空间纹理图；

对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得细节合成纹理RGB图；

根据所述细节合成纹理RGB图重建三维人脸，获得目标三维人脸。

可选地，所述对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得细节合成纹理RGB图的步骤，包括：

对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得纹理RGB图以及细节纹理法线图；

基于所述纹理RGB图以及所述细节纹理法线图确定细节合成纹理RGB图。

此外，为实现上述目的，本发明还提出一种三维人脸重建设备，所述三维人脸重建设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维人脸重建程序，所述三维人脸重建程序配置为实现如上文所述的三维人脸重建的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有三维人脸重建程序，所述三维人脸重建程序被处理器执行时实现如上文所述的三维人脸重建方法的步骤。

此外，为实现上述目的，本发明还提出一种三维人脸重建装置，所述三维人脸重建装置包括：

人脸拟合模块，用于将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；

参数优化模块，用于基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数；

纹理融合模块，用于基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数；

三维重建模块，用于基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸。

本发明通过将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数；基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数；基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸，相较于相关重建方案不能精准确定人脸纹理特征，导致重建效果差。本发明通过构建局部纹理金字塔，逐尺度融合不同视角的纹理信息，用低分辨输入指导高清纹理图生成，提高了生成人脸的质量和保真度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的三维人脸重建设备的结构示意图；

图2为本发明三维人脸重建方法第一实施例的流程示意图；

图3为本发明三维人脸重建方法第二实施例的流程示意图；

图4为本发明三维人脸重建方法第三实施例的流程示意图；

图5为本发明三维人脸重建方法第三实施例的三维重建流程示意图；

图6为本发明三维人脸重建装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的三维人脸重建设备结构示意图。

如图1所示，该三维人脸重建设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)，也可以是稳定的存储器(Non-volatileMemory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对三维人脸重建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，认定为一种数据处理存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及三维人脸重建程序。

在图1所示的三维人脸重建设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述三维人脸重建设备通过处理器1001调用存储器1005中存储的三维人脸重建程序，并执行本发明实施例提供的三维人脸重建方法。

基于上述硬件结构，提出本发明三维人脸重建方法的实施例。

参照图2，图2为本发明三维人脸重建方法第一实施例的流程示意图，提出本发明三维人脸重建方法第一实施例。

在本实施例中，所述三维人脸重建方法包括以下步骤：

步骤S10：将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数。

需说明的是，本实施例中的执行主体可以是包含三维人脸重建***的设备，如：计算机、平板、手机或笔记本，还可为其他可实现相同或相似功能的设备，在本实施例以及下述各实施例中以计算机为例对本发明三维人脸重建方法进行说明。本方案主要内容是针对如何利用商业设备捕获RGB-D照片流后进行高保真度、带有高清纹理的三维人脸重建。着重强调重建形状的精度与对输入照片多视图信息的忠实提取与融合。

应理解的是，本方案可以主要是构建适用于智能手机等商用设备采集阵列的重建管道。本方案可以选取的是智能手机搭载的前置相机(如：TrueDepth)，该相机采用结构光与立体视觉算法结合技术，能够捕获分辨率为640×480的RGB-D照片流，也可以为其他的RGB类型的照片，本方案通过结合硬件参数及采集环境进行计算机视觉算法的研究，达到对原始数据流进行筛选的目的，为后续重建算法提供高质量照片帧。

可理解的是，待识别照片帧可以是根据采集的视频流或照片流中提取的需要进行人脸识别的照片帧。通过对待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数。其中，预设三维可变人脸模型可以是基于东亚特定种群图像预先训练获得的三维可变人脸模型。通过三维可变人脸模型和待识别照片帧对应的三维地标进行拟合，可以获得目标用户的人脸粗参数，所述粗参数中包含形状参数以及纹理参数。

进一步地，所述步骤S10还包括：基于预设角度采集目标用户对应的多视角视频信息；从所述多视角视频中提取待识别的照片流对应的照片帧；基于人脸地标检测器和预设位姿对所述照片帧进行地标三维化处理，获得三维地标；将所述三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数。

需说明的是，本方案可以通过智能终端搭载的前置深度感知相机捕捉的预设角度采集目标用户对应的多视角视频信息，例如：前置相机获取的深度在用户人脸距离相机15到40厘米时精度最好。因此在APP交互界面加入一人脸轮廓框线，以辅助用户确定自身到相机距离合适，可以捕获到精确深度。用户在使用时只需要将自身人脸轮廓尽可能与屏幕中显示的轮廓框线对齐，即可确保此时人脸到前置相机的距离处于15～40厘米的范围内。预设角度包括头部往左、往右再往上，预设位姿可以是根据正面人脸、左面人脸、右面人脸以及人脸的仰视状态对应的角度。

可理解的是，人脸采集的应用APP可以指导用户转动自己的头部往左、往右再往上，即可获取一段RGB-D视频。这段视频中大约可以包含200到500个照片帧，我们需要做的就是在这些照片帧中选取质量最高的、符合预先设定的位姿条件的四张高质量照片帧，它们分别对应正面人脸、左面人脸、右面人脸以及人脸的仰视状态。首先，将所有的照片帧调整为人的头朝上，确保相机人脸朝向。再利用MTCNN人脸识别框架检测人脸，去除没能找到人脸的照片帧。接着，使用在300W-LP数据集上训练的MobileNet作为人脸地标检测器，并记录形成列表。得到了人脸地标之后，我们可以根据地标确定正面人脸面部的绑定框大小，根据绑定框去除旋转过度的照片帧(异常值)；地标还可以用于划分面部局部区域，依据眼部、唇部区域形成面片的大小，可以去除闭眼、张嘴的照片帧。最后，使用三维可变人脸模型的平均人脸作为三维正面参考模板，结合检测得到的地标，用pespective-n-point(PnP)算法粗略估计每个照片帧的对应位姿。根据粗位姿得到正面、左右侧面、人脸仰视状态照片帧群组。其中左右侧面的划分依据是位姿的gamma角(头部左右旋转)，人脸仰视状态的划分依据是位姿的phi角(头部上下旋转)。计算群组中每一照片帧的Laplacian of Gaussian(LoG)响应，并以方差作为该帧的motion blur评分；先于正面照片帧群组中依据motion blur评分选取正面照片帧。获取正面照片帧后，重新计算相对于正面照片帧的准确位姿(相对于正面照片帧的旋转和平移的计算)，然后利用地标，加上RANSAC算法来过滤，得到精细位姿。根据预设定好的下巴抬起角度，在人脸仰视状态照片帧群组中计算motion blur评分并选取人脸仰视状态照片帧。对于左右侧面照片帧群组，在根据正面照片帧计算精细位姿的时候只使用了单面可见的地标(比如说左侧照片帧就不考虑位于右脸的地标)。得到精细位姿后，在照片帧群组中计算motion blur评分并选取左右侧面照片帧。为减轻比较计算量，限制左右侧面照片帧群组内部不同相片间的最小gamma角度。得到四张高质量照片帧后，可以利用它们对应的地标获取每一帧对应的变换矩阵并保存(又称视图矩阵的逆)。

进一步地，所述将所述三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数的步骤，包括：对所述三维地标进行稀疏融合，获得融合后的三维人脸地标；基于岭回归算法将预设三维可变人脸模型的平均形状与所述融合后的三维人脸坐标进行拟合，获得初始形状参数；基于所述岭回归算法将所述预设三维可变人脸模型的纹理基与所述融合后的三维人脸坐标进行拟合，获得初始纹理参数；根据所述初始形状参数和所述初始纹理参数确定人脸粗参数。

需说明的是，岭回归算法(ridge regression,Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。

应理解的是，在获取了筛选的照片帧之后，需要先根据深度信息对检测出的地标进行三维化，再结合多视图信息进行三维地标的稀疏融合。利用三维地标初步拟合三维可变人脸模型基，得到粗人脸形状与纹理参数。

可理解的是，稀疏融合的步骤如下：首先，根据检测出的二维地标在输入的照片帧RGB上获取面部凸包构成人脸的掩膜。再使用双边滤波以衰减照片帧深度信息中的无效噪声，并利用获得的人脸掩膜计算每个照片帧掩膜中的平均深度。选取掩膜区域中的深度处于平均深度内外十厘米区间内的像素作为有效掩膜。记录有效掩膜区域中照片帧的深度信息。最终，有效掩膜内的像素深度在距离前置相机约40厘米到1米的范围内。最后进行稀疏融合：利用有效眼膜中的深度信息、三维地标、相机的内参矩阵K以及照片帧对应的精细位姿进行稀疏融合。正面、左右侧面的地标信息和深度信息在稀疏融合之后得到唯一融合三维地标。融合后的三维人脸地标仍然处于多视图重建模型的局部空间坐标系，因此需要获取局部控件坐标系相对于相机世界坐标系的变换关系。将三维可变人脸模型的平均人脸的三维地标设置为相机世界坐标系下正对相机的源点云，融合后的三维地标为目标点云，执行迭代最近点算法，得到从融合后的三维地标代表的人脸局部空间坐标系到相机世界坐标系的变换矩阵，也称为模型矩阵。根据估计的模型矩阵和三维地标，做逆运算可过滤信息有误的融合地标。初步拟合过程包含两个参数回归过程。其中形状参数可以为500维向量，纹理参数可以为294维向量。

具体实现中，先使用一个岭回归算法将三维可变人脸模型的平均形状与融合后的三维地标拟合，得到初始形状参数。具体步骤包括：首先，读取三维可变人脸模型形状(PCA结果)，包括模型平均形状(55554,1)、模型形状基(55554,500)、模型形状参数扰动(500,1)、使用到的三角面(3,19394)和所有三维地标在三维可变人脸模型中对应的索引(86,1)。再读取筛选出来的适当的照片帧与融合后的三维地标相关数据。根据三维可变人脸模型形状基，基于融合后的三维地标粗估计模型形状基对应的形状参数，再将形状参数对应的模型形状基生成对重建人脸形状重投影至正面，结合正面照片帧中的人脸地标对形状参数进行岭回归优化。岭回归优化完成后根据形状参数在模型形状基上重建得到的拟合人脸形状成为预拟合人脸形状。

再通过另一个岭回归来拟合人脸纹理图，得到初始理参数。具体步骤包括：首先，读取三维可变人脸模型纹理基(纹理图PCA结果)，包括纹理图对应顶点展开为一维后的平均值(1,248430)、模型纹理基(294,248430)、拟合后人脸顶点对应纹理图坐标(82810,2)。再根据三维可变人脸模型纹理基，将预设的纹理参数右乘模型纹理基后加上纹理图对应顶点展开为一维后的平均值作为纹理拟合人脸(调整大小后为(82810,3))。通过上述拟合获得的人脸形状参数与人脸纹理参数作为人脸粗参数，以便于后期根据人脸粗参数和使用tensorflow.scatter_nd函数，根据添加批索引后的拟合后人脸顶点对应纹理图坐标，将纹理拟合人脸离散至三通道纹理图，得到预拟合UV空间纹理图。如果令纹理拟合人脸上有值处为一，则可以得到拟合掩膜，同理使用tensorflow.scatter_nd函数，根据相同的索引离散得到预拟合UV空间纹理掩膜。

步骤S20：基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数。

需说明的是，为了优化上述人脸粗参数中包含的两个参数向量(初始形状参数和初始纹理参数，其中初始形状参数可以为500维向量，初始纹理参数可以为294维向量)，需要将恢复的预拟合形状与预拟合纹理图在三维中的点云渲染至二维屏幕空间中，以便和本身就处于二维屏幕空间的输入照片帧进行比较，计算误差。由于使用深度学习中的反向传播算法，需要使用适配tensorflow的可微渲染器tf_mesh_renderer以计算误差反向传播至参数向量的梯度，达到利用反向传播算法迭代优化参数的目的。

应理解的是，为了将三维物体渲染至二维屏幕上，需要进行重建人脸局部空间到二维屏幕空间的变换。渲染器要求将所有希望可见的顶点在每一个顶点着色器运行之后都用标准化设备坐标(NDC)表示，即每个顶点的XYZ坐标都应该在-1到1之间；坐标在此范围之外的顶点将不可见。通过可微渲染器给定估计的两个参数以及三维可变人脸模型基，则可以通过计算得到一组渲染之后的RGB-D照片帧。通过优化可以减少渲染的相机帧与输入的照片帧之间的误差。本步骤优化除了优化之前预拟合得到的两个参数向量之外，还优化四个挑选出来的照片帧所对应的位姿参数。每个位姿参数向量都是6维。渲染的照片帧和输入的照片帧之间的误差函数主要由五大部分组成：第一项是卷积神经网络提取的特征向量之间的L2范数。选取vggface网络中提取的全连接第七层(FC7)的输出向量作为照片帧的特征向量。第二项是相机帧之间的RGB光度误差。通过计算渲染和输入照片帧之间像素三通道灰度值的差的L2,1范数来约束渲染照片帧尽可能接近输入照片帧。第三项是深度信息误差。计算渲染帧和输入帧之间的深度信息差的截断L2范数。使用截断L2范数的目的是使误差对深度信息异常值更鲁棒。第四项是地标误差。计算渲染帧和输入帧之间地标距离的加权L2范数，达到约束地标距离的效果。在权重分配方面尤其重视唇、眼以及鼻子的权重。上述地标权重可以赋为5～15，其余地标权重赋为1。第五项是参数正则项。计算预拟合参数的加权L2范数，防止参数优化过拟合。损失函数的总体公式为：

上式中，Lrgb为RGB光度误差、Ldep为深度信息误差、Lid为特征向量之间的L2范数、Llan为地标误差、Lreg为参数正则项。上式中各项的具体表达式具体的数学形式如下：

步骤S30：基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数。

需说明的是，由于预拟合的纹理参数向量是基于三维可变人脸模型低分辨纹理基的，这种纹理基的表达能力有限，生成的预拟合UV空间纹理图分辨率不高，因此需要使用上一步优化后的形状与位姿参数向量直接从输入的照片帧中根据局部掩膜提取指定区域的局部纹理，并展开至UV纹理空间中，融合以形成忠实于输入照片帧的低分辨UV空间纹理图。

可理解的是，为了融合输入照片帧的多视图纹理信息，并输出高分辨重建纹理图。本方案可以通过进行局部纹理优化，并在每一局部纹理块中构建拉普拉斯纹理金字塔。做到逐尺度捕获纹理信息，充分融合不同视图与面部不同位置的纹理特征。

应理解的是，基于低分辨局部金字塔纹理基进行岭回归，获取面部不同局部区域的局部拟合纹理参数，低分辨率局部金字塔纹理基是指基于低分辨率的局部纹理图像。其中，回归误差包括光度误差项、参数正则项以及局部拟合得到的纹理图的总体方差。

步骤S40：基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸。

需说明的是，得到局部拟合后的纹理参数向量后，计算出局部拟合高分辨率UV空间纹理图，使得面部不同局部区域的皮肤与毛发细节可以通过高分辨率局部金字塔纹理基进行定性重建。

具体实现中，基于面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸。

本实施例通过将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数；基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数；基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸，相较于相关重建方案不能精准确定人脸纹理特征，导致重建效果差。本实施例通过构建局部纹理金字塔，逐尺度融合不同视角的纹理信息，用低分辨输入指导高清纹理图生成，提高了生成人脸的质量和保真度。

基于上述图2所示的第一实施例，提出本发明三维人脸重建方法的第二实施例，参照图3，图3为本发明三维人脸重建方法第二实施例的流程示意图。

在本实施例中，所述步骤S30还包括：

步骤S301：根据所述优化后的人脸参数中包含的顶点序号数组、纹理图像素点序号数组以及二维屏幕空间坐标系下纹理图像素点数组确定二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化坐标信息。

需说明的是，由于预拟合的纹理参数向量是基于三维可变人脸模型低分辨纹理基的，这种纹理基的表达能力有限，生成的预拟合UV空间纹理图分辨率不高，因此需要使用上一步优化后的形状与位姿参数向量直接从输入的照片帧中根据局部掩膜提取指定区域的局部纹理，并展开至UV纹理空间中，融合以形成忠实于输入照片帧的低分辨UV空间纹理图。输入照片帧展开与多视图纹理融合的步骤如下：步骤一：读取三维可变人脸模型形状基(含补全头部)，包括预拟合形状参数向量的转置(1,500)、模型平均形状(1,61443)、模型形状基(500,61443)。将预拟合形状参数向量转置后右乘模型形状基再加上模型平均形状，并调整结果矩阵的尺寸，得到模型形状基局部空间坐标系下的人脸点云(3,20481)。读取稀疏融合的结果，包括模型矩阵，将人脸点云变换到相机世界坐标系。再读取筛选过后的照片帧的视图矩阵的逆，对视图矩阵的逆做逆操作得到视图矩阵，并将人脸点云变换到视图空间坐标系；再利用相机内参K(3,3)，也就是投影矩阵，左乘之(得到光栅化的裁剪空间坐标系下人脸点云),又让点云的XY坐标再除以Z,得到保留光栅化的裁剪空间坐标系下Z与进一步归一化XY的人脸点云；为便于渲染，转置(20481,3)。

步骤二：读取三维可变人脸模型基，包括三角面包含的顶点序号数组(18684,3)、三角面包含的纹理图像素点序号数组(18684,3)、二维屏幕空间坐标系下纹理图像素点数组(20792,2)。

步骤三：将顶点RGB属性和对应的可见顶点掩膜展开至UV空间：a)取光栅化的裁剪空间坐标系下人脸点云的归一化YX坐标b)将点云顶点YX坐标映射至UV空间中，并做光栅化生成像素(也称片段),得到二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化YX坐标(记为warp_ver_to_uv)：先使用tensorflow.gather_nd函数，根据展开并添加批索引后的三角面包含的顶点序号数组在光栅化的裁剪空间坐标系下人脸点云的归一化YX坐标中取数，作为顶点属性数组。再使用tensorflow.scatter_nd函数(tensorflow.gather_nd的逆运算),根据展开并添加批索引后的三角面包含的纹理图像素点序号数组将顶点属性数组离散至与二维屏幕空间坐标系下纹理图像素点数组等长的纹理图像素点属性数组(属性为二维屏幕空间坐标系下像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化YX坐标)。之后，将纹理图像素点属性数组、二维屏幕空间坐标系下UV坐标转换为U(1-V)Z(Z为随机正态分布得到，极小)后的纹理图像素点数组、三角面包含的纹理图像素点序号数组输入光栅化器，得到二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化YX坐标((1,512,512,2)。

具体实现中，光栅化算法的原理可以是先将U(1-V)Z坐标转换为NDC(normalizeddevice coordinates,实际上就是要求每个维度的值域都属于[-1,1],实现方式是齐次W坐标，以在tensorflow中保留尽可能多的操作),再对每个三角面内部的归一化YX坐标进行了重心插值估计，同时纠正了光栅化后的透视畸变)c)使用tensorflow.gather_nd函数，根据添加批索引后的二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化YX坐标在输入照片帧中取RGB灰度值，作为二维屏幕空间坐标系下纹理图像素点对应的照片帧指定的部分纹理。

步骤S302：基于顶点法线函数和所述归一化坐标信息确定顶点法线数组。

需说明的是，利用投影器获取顶点法线函数，处理保留光栅化的裁剪空间坐标系下Z与进一步归一化XY的人脸点云，得到顶点法线数组。

步骤S303：基于所述顶点法线数组确定可见顶点的索引信息。

需说明的是，将顶点法线数组输入可见掩膜提取算法，得到对应的可见顶点掩膜，再利用warp_ver_to_uv将可见顶点掩膜映射至二维屏幕UV空间中，得到二维屏幕空间坐标系下纹理图像素点对应的可见顶点的索引，从而确定可见顶点的索引信息。

步骤S304：基于所述索引信息对若干个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图。

需说明的是，若干个照片帧可以是两个照片帧，通过可见顶点的索引信息对两个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图。

进一步地，所述步骤S304还包括：基于所述索引信息从若干个照片帧中选取预设数量的照片帧构建拉普拉斯金字塔；基于所述拉普拉斯金字塔和所述预设三维可变人脸模型的纹理基确定二维屏幕空间坐标系下纹理图像素点对应的照片帧指定的部分纹理，获得二维屏幕空间坐标系下融合的多视图纹理图。

需说明的是，本方案通过混合两个照片帧在纹理图像素点对应的二维屏幕空间坐标系下根据可见顶点掩膜指定的部分纹理：输入两个照片帧和其中一帧对应的可见顶点掩膜与对应三位可变人脸模型标准掩膜的乘积；先利用二维卷积，将掩膜乘积和自定义的blur内核卷积；若两个照片帧中有一个是三维可变人脸模型的纹理图基，则将纹理图基从RGB通道转化为YUV通道，匹配另一个输入的照片帧的色调后还原为RGB通道。

可理解的是，使用图像金字塔多尺度融合两个照片帧。先构建三个图片金字塔，两个照片帧构建拉普拉斯金字塔，其中，掩膜乘积使用下采样方法，逐层混合之后恢复。依照上述两两融合正面、左右侧面和三维可变人脸模型的纹理图基在二维屏幕空间坐标系下纹理图像素点对应的照片帧指定的部分纹理，得到二维屏幕空间坐标系下融合的多视图纹理图。

步骤S305：基于低分辨率局部金字塔纹理基对所述多视图纹理图进行岭回归，获得面部不同局部区域的局部拟合纹理参数。

需说明的是，在获得二维屏幕空间坐标系下融合的多视图纹理图之后，需要基于低分辨局部金字塔纹理基进行岭回归，获取面部不同局部区域的局部拟合纹理参数。

本实施例通过将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数；根据所述优化后的人脸参数中包含的顶点序号数组、纹理图像素点序号数组以及二维屏幕空间坐标系下纹理图像素点数组确定二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化坐标信息；基于顶点法线函数和所述归一化坐标信息确定顶点法线数组；基于所述顶点法线数组确定可见顶点的索引信息；基于所述索引信息对若干个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图；基于低分辨率局部金字塔纹理基对所述多视图纹理图进行岭回归，获得面部不同局部区域的局部拟合纹理参数；基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸，相较于相关重建方案不能精准确定人脸纹理特征，导致重建效果差。本实施例通过构建局部纹理金字塔，逐尺度融合不同视角的纹理信息，用低分辨输入指导高清纹理图生成，提高了生成人脸的质量和保真度。

基于上述图2所示的第一实施例，提出本发明三维人脸重建方法的第三实施例，参照图4，图4为本发明三维人脸重建方法第三实施例的流程示意图。

在本实施例中，所述步骤S40还包括：

步骤S401：根据所述局部拟合纹理参数确定局部拟合高分辨率UV空间纹理图。

需说明的是，得到局部拟合后的纹理参数向量后，有赖于局部金字塔纹理基的桥梁作用(低、高分辨局部金字塔纹理基同一层同一局部区域对应信息只有分辨率上的不同)，计算出局部拟合高分辨率UV空间纹理图，使得面部不同局部区域的皮肤与毛发细节可以通过高分辨率局部金字塔纹理基进行定性重建。

步骤S402：对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得细节合成纹理RGB图。

需说明的是，由于上一步的岭回归获得的局部拟合纹理参数是基于低分辨局部金字塔纹理基进行的，计算得到的局部拟合高分辨率UV空间纹理图往往是过度平滑的，因此需要训练条件生成对抗网络pix2pix进行细节合成。采用两个pix2pix分别合成纹理RGB图以及纹理法线图细节。

具体实现中，通过采用两个pix2pix对局部拟合高分辨率UV空间纹理图进行细节合成，获得纹理RGB图以及细节纹理法线图。

进一步地，所述步骤S402还包括：对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得纹理RGB图以及细节纹理法线图；基于所述纹理RGB图以及所述细节纹理法线图确定细节合成纹理RGB图。

可理解的是，对于纹理RGB图，细节合成模块使用计算出的局部拟合高分辨UV空间纹理RGB图作为输入，并以相同的高分辨率输出细节合成纹理RGB图；对于纹理法线图，细节合成模块使用计算出的局部拟合高分辨UV空间纹理法线图和细节合成纹理RGB图沿通道维度连接，将连接后的结果作为输入，并输出细节合成纹理法线图。

具体实现中，在细节合成网络的训练过程中，可以使用高分辨局部金字塔纹理基作为训练期间的真实答案，使用在高分辨局部金字塔纹理基上进行的局部拟合后计算得到局部拟合高分辨率UV空间纹理RGB图与法线图作为训练期间的输入。对于纹理RGB图细节合成训练，损失函数包含光度L1项、生成对抗网络项以及图像总方差(用于消除伪影)；对于纹理法线图细节合成训练，损失函数除了包含光度L1项、生成对抗网络项之外，还计算预测法线与真实答案法线向量之间的余弦距离以提高法线方向的准确性。

pix2pix的训练过程如下：pix2pix的训练有两个步骤，分别是训练鉴别器和训练生成器。为了训练鉴别器，首先令生成器根据输入生成输出图像。再将生成器输出图像输入鉴别器，鉴别器尝试鉴别输入图像/真实答案对和输入图像/输出图像对，并预测它们包含真实答案的概率。然后根据输入图像/输出图像对和输入图像/真实答案对的分类误差调整鉴别器的权重。然后根据鉴别器的输出以及生成器输出图像和真实答案之间的差异调整生成器的权重。在鉴别器的输出上训练生成器时，可以通过鉴别器计算梯度，当鉴别器在改进的同时，生成器也在同步训练以对抗鉴别器。随着鉴别器变得更好，生成器也会变得更好。

步骤S403：根据所述细节合成纹理RGB图重建三维人脸，获得目标三维人脸。

需说明的是，通过细节合成纹理RGB图重建三维人脸，获得目标三维人脸，通过利用对抗生成网络进行纹理和法线细节调整，使得生成的人脸更加逼真。

具体实现中，为进一步说明本方案，可以参考图5所示的三维重建流程示意图，基于移动端多视图融合的三维人脸重建方法，基本步骤为：

步骤一：通过计算机视觉相关算法对输入的照片流进行过滤。使用在MobileNet作为人脸地标检测器检测得到人脸地标，利用地标结合PnP算法进行人脸识别、矫正、分割与裁剪，挑选出最适合用于人脸重建的照片帧；

步骤二：在获取了精心筛选的照片帧之后，需要先根据深度信息对检测出的地标进行三维化，再结合多视图信息进行三维地标的稀疏融合。利用三维地标初步拟合三维可变人脸模型基，得到粗人脸形状与纹理参数。然后利用可微渲染器对初步得到的人脸形状与纹理参数进一步优化。

步骤三：通过构建局部纹理金字塔，逐尺度融合不同视角的纹理信息，用低分辨输入指导高清纹理图生成；

步骤四：利用调整过参数的对抗生成网络，使生成的人脸的RGB与法线细节更符合输入照片流本身的约束条件，使得最终输出的人脸具有高保真度、高分辨率的特点。

本方案通过深度学习算法进行人脸识别、矫正、分割与裁剪、东亚人种的人脸可变模型进行形状与纹理的拟合、局部纹理金字塔逐尺度融合不同视角的纹理信息和对抗生成网络调整生成人脸的RGB与法线细节。这些技术手段使得本提案在人脸重建方面具有更高的准确性和可靠性、生成的人脸更加符合真实人脸的特征、提高了生成人脸的质量和保真度、生成的人脸更加逼真。

参照图6，图6为本发明三维人脸重建装置第一实施例的结构框图。

如图6所示，本发明实施例提出的三维人脸重建装置包括：

人脸拟合模块10，用于将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数；

参数优化模块20，用于基于可微渲染器对所述人脸粗参数进行参数优化，获得优化后的人脸参数；

纹理融合模块30，用于基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数；

三维重建模块40，用于基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸。

进一步地，所述人脸拟合模块10还用于基于预设角度采集目标用户对应的多视角视频信息；从所述多视角视频中提取待识别的照片流对应的照片帧；基于人脸地标检测器和预设位姿对所述照片帧进行地标三维化处理，获得三维地标；将所述三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数。

进一步地，所述人脸拟合模块10还用于对所述三维地标进行稀疏融合，获得融合后的三维人脸地标；基于岭回归算法将预设三维可变人脸模型的平均形状与所述融合后的三维人脸坐标进行拟合，获得初始形状参数；基于所述岭回归算法将所述预设三维可变人脸模型的纹理基与所述融合后的三维人脸坐标进行拟合，获得初始纹理参数；根据所述初始形状参数和所述初始纹理参数确定人脸粗参数。

进一步地，所述纹理融合模块30还用于根据所述优化后的人脸参数中包含的顶点序号数组、纹理图像素点序号数组以及二维屏幕空间坐标系下纹理图像素点数组确定二维屏幕空间坐标系下纹理图像素点对应的光栅化的裁剪空间坐标系下人脸点云的归一化坐标信息；基于顶点法线函数和所述归一化坐标信息确定顶点法线数组；基于所述顶点法线数组确定可见顶点的索引信息；基于所述索引信息对若干个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图；基于低分辨率局部金字塔纹理基对所述多视图纹理图进行岭回归，获得面部不同局部区域的局部拟合纹理参数。

进一步地，所述纹理融合模块30还用于基于所述索引信息从若干个照片帧中选取预设数量的照片帧构建拉普拉斯金字塔；基于所述拉普拉斯金字塔和所述预设三维可变人脸模型的纹理基确定二维屏幕空间坐标系下纹理图像素点对应的照片帧指定的部分纹理，获得二维屏幕空间坐标系下融合的多视图纹理图。

进一步地，所述三维重建模块40还用于根据所述局部拟合纹理参数确定局部拟合高分辨率UV空间纹理图；对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得细节合成纹理RGB图；根据所述细节合成纹理RGB图重建三维人脸，获得目标三维人脸。

进一步地，所述三维重建模块40还用于对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得纹理RGB图以及细节纹理法线图；基于所述纹理RGB图以及所述细节纹理法线图确定细节合成纹理RGB图。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的三维人脸重建方法，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image，ROM)/随机存取存储器(Random AccessMemory，RAM)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种三维人脸重建方法，其特征在于，所述三维人脸重建方法包括以下步骤：

2.如权利要求1所述的三维人脸重建方法，其特征在于，所述将待识别照片帧对应的三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数的步骤，包括：

基于预设角度采集目标用户对应的多视角视频信息；

从所述多视角视频中提取待识别的照片流对应的照片帧；

3.如权利要求2所述的三维人脸重建方法，其特征在于，所述将所述三维地标与预设三维可变人脸模型进行拟合，获得人脸粗参数的步骤，包括：

4.如权利要求3所述的三维人脸重建方法，其特征在于，所述基于低分辨率局部金字塔纹理基对所述优化后的人脸参数进行多视图纹理融合，获得面部不同局部区域的局部拟合纹理参数的步骤，包括：

基于所述顶点法线数组确定可见顶点的索引信息；

5.如权利要求4所述的三维人脸重建方法，其特征在于，所述基于所述索引信息对若干个照片帧进行多视图纹理融合，获得二维屏幕空间坐标系下融合的多视图纹理图的步骤，包括：

6.如权利要求1所述的三维人脸重建方法，其特征在于，所述基于所述面部不同局部区域的局部拟合纹理参数重建三维人脸，获得目标三维人脸的步骤，包括：

7.如权利要求6所述的三维人脸重建方法，其特征在于，所述对所述局部拟合高分辨率UV空间纹理图进行pix2pix细节合成，获得细节合成纹理RGB图的步骤，包括：

8.一种三维人脸重建设备，其特征在于，所述三维人脸重建设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维人脸重建程序，所述三维人脸重建程序被所述处理器执行时实现如权利要求1至7中任一项所述的三维人脸重建方法。

9.一种存储介质，其特征在于，所述存储介质上存储有三维人脸重建程序，所述三维人脸重建程序被处理器执行时实现如权利要求1至7中任一项所述的三维人脸重建方法。

10.一种三维人脸重建装置，其特征在于，所述三维人脸重建装置包括：