CN109255831A

CN109255831A - 基于多任务学习的单视图人脸三维重建及纹理生成的方法

Info

Publication number: CN109255831A
Application number: CN201811105233.2A
Authority: CN
Inventors: 曹汛; 汪晏如; 朱昊; 张艺迪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-01-22
Anticipated expiration: 2038-09-21
Also published as: CN109255831B

Abstract

本发明公开了一种基于多任务学习的单视图人脸三维重建及纹理生成的方法，属于计算机视觉领域。该方法包括：人脸三维模型渲染的特殊视点的选取；特殊视点下生成深度图、纹理图作为真值数据；设计深度信息与纹理信息特征共享的集成学习编码网络；设计由共享特征恢复出深度图的分支解码网络，恢复出深度图；设计由共享特征作为潜变量的互信息最大化生成对抗网络，恢复出纹理展开图；调整各任务损失函数的比例，训练模型；将网络输出的深度图进行插值处理再结合纹理图恢复出带纹理细节的人脸三维网格模型。本发明利用基于多任务学习进行单视图人脸三维重建以及纹理生成与风格迁移，具有速度快、成本低等优势。

Description

基于多任务学习的单视图人脸三维重建及纹理生成的方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于多任务学习的单视图人脸三维重建及纹理生成的方法。

背景技术

三维人脸模型在安全认证、影视动漫、医学科学等领域的应用非常广泛。然而同时获取精准人脸三维结构与完整高分辨率的纹理图的成本非常昂贵，且得到的纹理图也不方便后期处理，或者是存在三维结构与高分辨率纹理图不能同时获取等等各种难题。

对于使用传统方法的单视图人脸三维重建及纹理生成，通常有两种技术：(1)采用阴影恢复形状(Shape-from-Shading，SFS)方法或光度立体(Photometric stereo)方法根据单个视图的彩色图像重建三维模型。由不同光照下的相同视角人脸图像信息计算出由表面法向量，再恢复出三维表面信息。该方法依赖于光照条件和光照模型的先验知识，而且它更适合重建人脸表面细节，对人头部整体的三维重建精度不高；(2)Feng Liu、Dan Zeng和Qijun Zhao(Liu F,Zeng D,Zhao Q,et al.Joint face alignment and 3d facereconstruction[C]//European Conference on Computer Vision.Springer,Cham,2016:545-560)提出了在回归框架下的人脸对齐和三维重建，该方法在给定输入二维人脸图像上的特征点的条件下，实时重建其三维模型的方法。利用两组级联的线性回归，一组用来更新2D特征点，另一组用来更新3D人脸形状。在每一次迭代中，先用SDM(SupervisedDescentMethod)方法得到特征点更新量，再用特征点的更新量去估计出3D人脸形状的更新量。新的3D人脸一旦更新就可以粗略地计算出3D-to-2D投影矩阵，同时再利用3D人脸对特征点进行修正，最终得到经过不断修正后的人脸三维模型。这些传统方法对于模型的纹理处理通常都是顶点着色，而不是用高分辨、表征纹理细节的纹理图进行纹理映射的得到的彩色模型。对于单张图像，需要是正脸图像，侧脸效果很差，纹理不全。

近年也涌现了大量基于深度学习的单视图人脸三维重建的方法，其中Feng Y,WuF等人(Feng Y,Wu F,Shao X,et al.Joint 3D Face Reconstruction and DenseAlignment with P osition Map Regression Network[J].2018.)提出将人脸三维模型的顶点坐标xyz存为UV图，图中像素RGB值分别表示xyz，以图片的形式表达三维信息，并基于深度学习由单视图人脸图像进行UV图的恢复进而再恢复出人脸三维模型。而他们的研究中关于人脸纹理的处理则是直接由输入的纹理图进行局部仿射变换，所以无法恢复出遮挡部分的纹理。如果输入的是侧面人脸图像，恢复出的带纹理人脸三维模型的纹理很差。此外，也有研究者(Booth J,Roussos A,Ververas E,et al.3D Reconstruction of"In-the-Wild"Faces in Images and Videos[J].IE EE Transactions on Pattern Analysis&Machine Intelligence,2018,PP(99):1-1.)提出了一种从无约束条件下，即真实场景中的面部图像中学习统计纹理模型的方法，该纹理模型与之前的统计三维形状模型类似，同时包含身份和表情的特征。由于不需要对光照参数进行优化，所以纹理模型具有拟合策略非常简单的优点。但是该研究也无法保证在输入人脸是侧面，即遮挡区域很大的情况下的纹理恢复。Jiankang Deng等人设计了一种生成对抗网络(Deng J,Cheng S,Xue N,et al.UV-GAN:Adversarial Facial UV Map Completion for Pose-invariant Face Recognition[J].2017.)包含一个生成器与两个判别器，生成器用于生产完整的人脸纹理展开图，两个判别器分别用于判别整张纹理图的整体真实性、局部纹理与人的身份的一致性。该方法恢复的纹理图效果比较好，但是人脸三维模型重建的效果不够好。

上述现有技术都具有以下缺点：基于单张人脸图像，没有同时恢复出精确的人脸三维几何结构与完整的纹理，并且对于深度学习的方法，完整纹理展开图数据集的收集成本很高且不方便。有的方法可以得到比较完整的人脸三维几何结构，但是纹理部分是直接根据输入原图像进行局部仿射变换得到的纹理图像，在遮挡区域的纹理都是明显错误的。有的方法可以恢复出高分辨率且完整的人脸纹理图，但是局限于人脸正面图或者是小角度的侧脸图，并且人脸的三维结构恢复的也不够理想。

发明内容

针对上述现有技术中存在的缺陷，为了基于单张人脸图像同时恢复出精确的人脸三维几何结构与完整的纹理，提高人脸三维重建的方便性、准确性，本发明提出了一种基于多任务学习的单视图人脸三维重建及纹理生成的方法。

为了实现上述发明目的，本发明方法采用的技术方案如下：

基于多任务学习的单视图人脸三维重建及纹理生成的方法，包括如下步骤：

S1，基于OpenGL将虚拟相机放置于人脸头部三维模型内部，朝向人脸，在这样的渲染视点下不断调整相机内外参数，选择合适的视场角和焦距，使整个人脸展开在平面上尽可能完整地在窗口中渲染出来；

S2，利用S1中得到的相机内外参数，基于CGAL计算上述渲染视点下的人脸三维模型的深度数据，并存为深度图，基于OpenGL加载人脸三维模型文件，在所述渲染视点下进行渲染，得到纹理图像，作为深度学习训练的一组真值；

S3，构建深度信息与纹理信息特征共享的集成学习编码网络，将S2获得的真值数据与人脸原图数据作为一组训练数据；收集多个预训练的人脸识别模型作为元模型，第一级网络是将人脸原图数据分别输入各个元模型，将元模型的输出再次作为输入，传送给第二卷积神经级网络，利用集成学习中的集成叠加算法，最终得到人脸的特征图；

S4，由S3中的集成学习编码网络得到由原始人脸图片提取到的特征图，作为深度图分支解码网络的输入，由该分支解码网络恢复出单通道的深度图；

S5，由S3中的集成学习编码网络得到由原始人脸图片提取到的共享特征，作为互信息最大化对抗网络的输入的一部分，由该对抗网络恢复出高分辨率的彩色通道纹理图；

S6，根据深度图分支解码网络与互信息最大化对抗网络的收敛速度的相对关系，给这两个网络的损失函数按比例分配权重，进行网络训练；

S7，训练完模型后，输入测试的原始人脸图片，由所述深度图分支解码网络与互信息最大化对抗网络分别得到预测深度图和带真实感的人脸纹理展开图，根据需要的任意三维模型分辨率，对网络输出的深度图进行插值来生成需要的尺寸；根据是否有风格迁移的需要对纹理进行后期处理，最终恢复出人脸三维模型。

本发明首次提出选用特殊视点进行渲染得到人脸纹理展开图，提出了一种针对单视点人脸三维重建在几何和色彩上同时进行重建的网络结构：基于集成学习的方法使用多种人脸识别的预训练模型，分别得到各个模型输出的人脸特征图，再运用卷积神经网络进行集成学习，得到的最终的更为全面的人脸特征图。最后通过多任务学习网络，由其中的一个分支网络，即经典的反卷积网络得到人脸深度图；由另一个分支网络，即互信息最大化对抗网络的生成器网络得到人脸纹理图。对于脸部有遮挡情况下，比如头发、眼镜，或者只有侧脸情况下的人脸图像，使用深度学习中的生成对抗网络进行恢复，可以弥补使用单张存在遮挡、不全的人脸图像作为输入带来的影响，并得到自动去除遮挡、完整展开的人脸纹理图。

本发明提供了一种准确高效地重建人脸三维模型的几何结构以及完整纹理的方法，利用基于多任务学习进行单视图人脸三维重建以及纹理生成与风格迁移，具有速度快、成本低等优势，而且生成的纹理图与深度图相对应，可以很方便的进行后期处理，具有生成数据全面、速度快、输入数据形式简单并且容易获取等特点。

附图说明

图1为本发明方法的流程图。

图2为本发明实施例选取的特殊视角下人脸纹理(a)展开图及其(b)对应深度图。

图3为本发明方法的整体网络框架图。

图4中(a)为本发明整体网络框架图中的数据预处理与集成学习编码网络的结构，(b)为本发明的整体网络框架图中的深度图解码网络的结构，(c)为本发明的整体网络框架图中的互信息最大化生成对抗网络的生成网络的结构，(d)为本发明的整体网络框架图中的互信息最大化生成对抗网络的判别网络及Q网络的结构。

图5为本发明实施例中的测试图像的结果；(a)输入图像，(b)从左到右分别为输出深度图以及由深度图恢复得到的无纹理人脸三维模型正面图与侧面图，(c)从左到右分别为输出纹理图以及将纹理映射到三维模型上的到的人脸三维模型正面图与侧面图。

图6为本发明实施例中的由测试图像得到纹理图再进行风格迁移的结果；(a)表达风格的参考图片，(b)输出进行风格迁移后的人脸纹理图片，(c)(d)分别为将风格迁移后的纹理图映射到三维模型上的到的人脸三维模型正面图与侧面图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于多任务学习的单视图人脸三维重建及纹理生成的方法，如附图中图1所示流程图，包括如下步骤：

(1)为了更方便的生成人脸纹理展开图，取代传统进行纹理UV参数化展开的方法，本发明通过选择特殊视点下的视场角和焦距，使整个人脸三维模型展开在平面上，并且尽可能地完整地在窗口中渲染出来。

(2)利用(1)中得到的相机内外参数，基于CGAL计算特殊视角下的人脸三维模型的深度数据，并存为深度图，基于OpenGL加载人脸三维模型文件，在特殊视角下进行渲染，得到特殊视角下的纹理图像，深度图与纹理图作为深度学习训练的一组真值。

(3)构建深度信息与纹理信息特征共享的集成学习编码网络，人脸原图数据与步骤(2)获得的数据组成一组训练数据。收集多个预训练的人脸识别模型作为元模型，第一级网络是将人脸原图数据分别输入各个元模型，将元模型的输出再次作为输入，传送给第二级卷积神经网络，利用集成学习中的集成叠加算法，最终得到人脸的特征图。

(4)将原始人脸图片输入(3)中的集成学习编码网络得到提取的共享特征图，作为深度图分支解码网络的输入，由该分支解码网络恢复出单通道的深度图；

(5)将(4)中的提到的共享特征图数据与噪声信号进行组合，作为互信息最大化对抗网络的输入，由该分支网络恢复出高分辨率的彩色通道纹理图；

(6)根据恢复深度与恢复纹理两个分支网络的收敛速度的相对关系，给两个任务的损失函数按比例分配权重，进行网络训练；

(7)训练完模型后，输入测试的原始人脸图片，由生成深度图、纹理图的分支网络分别得到的深度图、纹理图，根据需要的任意三维模型分辨率，对网络输出的深度图插值为指定尺寸；根据是否有风格迁移的需要对纹理进行后期处理，最终恢复出人脸三维模型。

所述步骤(1)中，所选取的人脸三维模型来自300W_LP人脸数据库，该数据库包含数千组自然场景下的人脸图像以及对应的人脸三维模型3DMM模型参数、图像中人脸所处的光源参数等等。本发明首次提出了通过选取特殊视角下进行模型渲染、捕获窗口图像来获取纹理展开图的方法。其中选取特殊视角的具体方法为：将虚拟相机放置于人脸头部三维模型内部，朝向人脸，在这样的特殊视点下，基于OpenGL将人脸三维模型在窗口中渲染出来，根据渲染效果对相机内外参数进行修正调整，根据对人脸纹理展开图完整性的需求选取合适的视角和焦距，并保存相机内外参数。仅用一张图即可保留人脸三维模型的纹理，并且可以得到对应的深度图。

所述步骤(2)中，

1)得到特殊视角下人脸深度数据的具体方法为：首先利用步骤(1)中得到的相机内外参数，计算出三维人脸模型在该视角下的成像平面A；再设定一个与A平行的平面B，并且使三维模型和相机的虚拟位置在该平面的同一侧；然后从相机位置分别与成像平面的每个像素位置连成射线，射线与平面B有相交点，再以这些交点为原点出发，与虚拟相机的位置连成射线，与三维模型有相交点(由于视角的特殊性，应该取距离相机中心最远的交点到相机中心位置的距离，作为模型交点处在该视角下的深度值)；最后将得到的深度值进行归一化处理后存为深度图。

2)得到特殊视角下的纹理图像的具体方法为：对于渲染特定视角下的虚拟人脸图像，在已知模型和相机内外参数的条件下，可以基于OpenGL渲染得到。其中设定的内参矩阵的形式一般为：

其中，u₀,v₀是图像平面中心，dx和dy表示一个像素的大小，即每一个像素在u轴和v轴方向上的物理尺寸。f为摄像机镜头的焦距。

相机的外参数矩阵的一般形式为：

其中，R为旋转矩阵，T为平移矩阵。最终视角j下的相机的投影矩阵为P_j：

通过投影矩阵即可得到三维模型在特定虚拟视点下的二维图片。在OpenGL中还可以根据需要的纹理分辨率设定渲染窗口的大小，然后在通过步骤(1)中得到的相机内外参数的基础上，根据渲染窗口大小调整相机内参，可以使渲染的纹理图分辨率相对于深度图分辨率更高。此外，在渲染的过程中需要开启深度测试，由于视点的特殊性，需要设置渲染出深度值最大的点，即观察者在正面视角下可以看到的部分。将窗口中渲染得到的数据存为图片最终得到特殊视角下的高分辨率纹理图像。由于在使用3DMM模型参数恢复人脸三维模型纹理时使用到了光源参数，所以生成的纹理图是带有原图光照效果的。

所述步骤(3)中，利用集成学习的思想，先搜集多种人脸识别的深度学习预训练模型作为元模型，将原始人脸图像输入给各个元模型都可以得到不同的人脸特征图，将来自不同元模型的人脸特征图再次使用卷积神经网络训练，得到最终的人脸特征图，这个特征图将包含人脸的更为全面的特征信息。由这些特征可以恢复出深度图与纹理展开图。

所述步骤(4)中，该分支解码网络采用多个反卷积层组成，由S3中的集成学习编码网络得到由原始人脸图片提取到的共享特征作为输入，最终通过反卷积生成预测的单通道深度图。由该分支解码网络的损失函数除了预测深度值与深度真值之间的L1正则化约束外，还加入了深度梯度约束、图像结构相似性约束，最终该分支结构的损失函数为：

Loss_depth＝||d_p-d_g||+L_ssim+L_{depth_grad}

其中d_p为深度图分支解码网络的预测输出的人脸深度值，d_g为对应的人脸深度真值，L_ssim为预测深度图与真值深度图两者的图像结构相似性约束函数，L_{depth_grad}为预测深度图相对于真值深度图上像素值变化的梯度约束。

所述步骤(5)中，互信息最大化生成对抗网络即为纹理图分支解码网络，它由生成网络G、判别网络D1、判别类别网络Q三个网络组成，并且D1、Q除最后一层外共享网络参数。生成对抗网络的原理是：生成器G的目标是尽量生成真实的样本去欺骗判别器D1，而判别器D1的目标是尽可能把生成器G生成的假样本和真实的样本区分开来，这样生成器和判别器就构成了一个动态博弈过程。下面式子即为原始生成对抗网络的目标函数：

其中，x为真实样本，Pdata(x)为真实样本分布，z为随机噪声，Pz(z)为随机噪声的分布，一般采用高斯分布，D(x)为x样本是真实样本的概率，G(z)为根据随机噪声z生成的假样本。

在理想的情况下，博弈的结果是：生成器生成以假乱真的样本，而判别器无法再区分出样本的真假，最终由输入的原始人脸图像可以得到真实的特殊视角下的纹理展开图像。但是原始GAN的输入只有噪声信号，没有任何约束，网络难以将噪声信号的具体维度和样本数据的特征语义信息对应起来，会使网络输出很不可控。所以本发明选取了改进版本的互信息最大化生成对抗网络，即在生成网络的输入中加入隐含变量，该变量表征输入人脸图像中隐含的特征信息。比如人脸水平旋转角、俯仰角大小、图片亮度、人脸胖瘦宽窄、是否带了眼镜、发型、情绪等等特征。这样使得生成网络的训练更为可控，可以更好的生成对应于原人脸图像的纹理展开图。在本发明中生成网络的输入中所加入的隐含变量就是由步骤(3)中的集成学习编码网络得到的，由原始人脸图片提取到的共享特征。对于加入的具有特征表达的隐含变量，需要引入互信息的正则化约束：

由于在实践中直接求互信息I(c；G(z，c))比较困难，所以转换为求下界：

≤I(c；G(z，c))

其中，G(z，c)为根据随机噪声z和隐含变量c生成的假样本，I(c；G(z，c))为隐含变量与生成的假样本之间的互信息，H(c)为常量。

最终互信息最大化生成对抗网络的目标函数表达为：

在互信息最大化生成对抗网络的训练过程中，需要同时训练生成网络与判别网络、Q网络。在训练生成网络时所进行的求导计算表达式为：

正常情况下，对于生成网络，是根据上式来进行网络更新的，其中θ_g为生成网络的各层网络权重，计算其梯度根据梯度下降算法更新θ_g。但是由于信息最大化生成对抗网络的生成网络嵌入在多任务学习网络中，所以生成网络的损失函数将成为整体多任务学习网络损失函数的一部分。由该生成网络可以恢复出高分辨率的彩色通道纹理图。然后将得到的纹理图与对应真值图一同作为纹理图分支解码网络的判别网络的输入。此外，Q网络在训练的过程中学习隐含变量的信息。

在训练判别网络时所进行的求导计算表达式为：

θ_d为判别网络的各层网络权重，m为样本个数，softmax(c_i，c′_i)为Q网络目标函数为输入隐含变量与输出预测的特征类别的交叉熵，计算其梯度根据梯度上升算法更新θ_d。

由于优化生成器的前提是判别器要有最优的状态，所以为了防止判别器性能太弱，训练过程中，训练判别器k次再训练生成器一次。

所述步骤(6)中，同时预测人脸深度图以及纹理展开图的整体网络结构是多任务学习网络，整个网络的损失函数Loss_A定义为：

Loss_A＝αLoss_depth+βLoss_{generator_texture}

＝α(||d_p-d_g||+L_ssim+L_{depth_grad})+β(log(1-D(G(z_i，c_i))))

其中Loss_depth、Loss_{generator_texture}分别是深度图分支解码网络与互信息最大化生成对抗网络的生成网络的损失函数项，α、β分别是对应的权重系数，在整个多任务学习网络的训练过程中，需要不断调节α、β以使得网络效果最优。

所述步骤(7)中，对于由深度图分支解码网络得到的预测深度图，可以根据需要的三维模型顶点规模对深度图进行插值放缩，在由深度图恢复三维结构时对相机内参做出相应调整即可。由深度数据恢复出网格模型的具体过程可以是：通过把深度图中邻近像素点组成两个直角三角形对应三维模型的三角形网格，再由逆投影矩阵进行逆投影，转换为三维空间中的相邻两个三角形面片。对于由纹理图分支解码网络得到的预测纹理图，直接得到的是带真实感的人脸纹理展开图，可以根据是否有风格迁移的需要选择是否对纹理进行后期处理。如果需要进行纹理风格迁移，可以使用预训练的风格迁移模型，输入纹理图分支解码网络中得到的真实人脸纹理展开图和代表迁移风格的图片，就可以得到迁移风格后的纹理图。将纹理图映射到无纹理三维模型上，最终可以恢复出有不同纹理需求的人脸三维模型。

实施例

本实施例提供了一种基于多任务学习的单视图人脸三维重建及纹理生成的方法，具体包括：

(1)为了利用300W_LP人脸数据库制作数据集，先由自然场景下的人脸图像对应的三维模型3DMM模型参数中的几何形状参数恢复出人脸三维模型的网格结构，再由3DMM模型参数中的纹理参数以及附加的光源参数恢复出人脸三维模型的纹理信息。300W_LP人脸数据库包括AFW、HELEN、IBUG、LFPW四个子数据集，包含3837个不同身份的人脸，同时每个身份的人脸都有不同角度的图像，包含从左侧面到右侧面中间***9～17不等数量个视点的图像。它们都会对应于同一身份人脸的三维模型。

将虚拟相机放置于人脸头部三维模型内部，朝向人脸，在这样的特殊视点下，基于OpenGL将人脸三维模型在窗口中渲染出来，设定需求的纹理分辨率为512×512，根据渲染效果对相机内外参数进行修正调整，根据对人脸纹理展开图完整性的需求选取了合适的视角和焦距，仅用一张图即可保留人脸三维模型的纹理，效果图分别见图2中(a)、(b)，并保存好相机内外参数。

(2)设定需求的深度图分辨率为224×224，首先利用步骤(1)中得到的相机内外参数进行比例转换，再计算出三维人脸模型在该视角下的成像平面A；再设定一个与A平行的平面B，并且使三维模型和相机的虚拟位置在该平面的同一侧；然后从相机位置分别与成像平面的每个像素位置连成射线，射线与平面B有相交点，再以这些交点为原点出发，与虚拟相机的位置连成射线，与三维模型有相交点(由于视角的特殊性，应该取距离相机中心最远的交点到相机中心位置的距离，作为模型交点处在该视角下的深度值)；最后将得到的深度值进行归一化处理后存为深度图。

再利用步骤(1)中得到的相机内外参数，通过计算投影矩阵，批量地获取人脸三维模型在特殊视点下的二维图片。并且要注意在渲染的过程中需要开启深度测试，由于视点的特殊性，需要设置渲染出深度值最大的点，即观察者在正面视角下可以看到的部分。将窗口中渲染得到的数据存为图片最终得到特殊视角下的纹理图像。由于在使用3DMM模型参数恢复人脸三维模型纹理时使用到了光源参数，所以生成的纹理图是带有原图光照效果的。对于纹理展开图，在输入网络前可以进行数据增强处理，包括在一定范围内随机调整对比度等等，使训练的的样本更加丰富，使结果更具有鲁棒性。

(3)如图4(a)所示，构建深度信息与纹理信息特征共享的集成学习编码网络，搜集了多种人脸识别的深度学习预训练模型作为元模型，人脸原图数据与步骤(2)获得的数据组成一组训练数据。将原始人脸图像输入给各个元模型都可以得到不同的人脸特征图，将来自不同元模型的人脸特征图再次使用2层卷积神经网络训练，得到最终的人脸特征图，这个特征图将包含人脸的更为全面的特征信息。由这些特征可以恢复出深度图与纹理展开图。

(4)如图4(b)所示，设计深度图分支解码网络，它采用4个反卷积层组成。由(3)中的集成学习编码网络得到由原始人脸图片提取到的共享特征作为输入，最终可以通过反卷积生成预测的单通道深度图。在深度图分支解码网络的损失函数中除了预测深度值与深度真值之间的L1正则化约束外，还加入了深度梯度约束、图像结构相似性约束。

(5)设计纹理图分支解码网络，它由生成网络G、判别网络D1、判别类别网络Q三个网络组成。生成网络G共有5层反卷积层，见图4(c)所示。网络D1、Q分别有4层卷积层，除最后一层外其余层共享网络参数，见图4(d)所示。将步骤(3)中集成学习编码网络得到的从原始人脸图片提取到的共享特征，与噪声信号进行组合，作为纹理分支解码网络的生成网络G的输入，输出高分辨率的彩色通道纹理图。然后将得到的纹理图与对应真值图一同作为纹理图分支解码网络的判别网络D1的输入。此外，Q网络在训练判别网络D1的过程中一同学习隐含变量的信息。

(6)该深度神经网络采用Adam的优化算法进行训练，设置每对判别网络训练10次，对生成网络训练1次，设置训练周期数(number of epoch)为50，学习率设置为0.00001。

前向传播阶段的步骤如下：

将原始人脸图像输入到集成学习编码网络，经过各个预训练模型得到不同人脸特征向量，再由第二级卷积网络进行集成学习整合卷积，输出最终的人脸特征向量。首先，该特征向量作为深度图分支解码网络的输入，输出单通道人脸深度图。其次，该特征向量还作为纹理图分支解码网络的输入的一部分，和噪声信号进行组合作为最终输入信息，输出人脸纹理展开图，再输入给判别网络进行判别，同时Q网络学习隐含变量。

后向传播阶段的步骤如下：

误差反传，调整各层权值参数；检查训练集的所有样本是否都参与了训练；检查互信息最大化生成对抗网络是否已经达到博弈均衡；网络总误差是否到达精度E_i，误差小于精度结束训练，误差大于精度继续训练工作，按极小化误差的方法反向传播调整权矩阵。

(7)如图5所示，(a)为输入的测试人脸图像。对于由深度图分支解码网络得到的预测深度图(图5(b)左)，通过把深度图中邻近像素点组成两个直角三角形对应三维模型的三角形网格，再由逆投影矩阵进行逆投影，转换为三维空间中的相邻两个三角形面片，从而得到人脸三维模型，图5(b)中间和右边视图为恢复出的人脸三维模型的正面、侧面。

对于由纹理图分支解码网络得到的预测纹理图，直接得到的是带真实感的人脸纹理展开图(图5(c)左)，直接将该纹理映射到人脸三维模型的效果见图5(c)中间和右边视图。然后又进行了纹理风格迁移的测试。使用预训练的风格迁移模型，输入真实人脸纹理展开图和代表迁移风格的图片(图6(a))，得到迁移风格后的纹理图(图6(b))。将纹理图映射到无纹理三维模型上，最终可以恢复出有不同纹理需求的人脸三维模型(图6(c))。

测试实验的结果表明本发明可以对于较大的侧脸角度下的人脸图像依然恢复出精确的深度图和完整的纹理图，并且可以灵活地对深度图、纹理图进行后期处理。因此，本发明提出的基于多任务学习的单视图人脸三维重建及纹理生成的方法将有助于提升针对人脸三维重建的鲁棒性。此外，本发明首次对人脸三维模型的纹理进行风格迁移，实现人脸的3D风格渲染，生成的人脸三维模型可以应用于艺术创作、影视动漫、面具制作等领域。

Claims

1.基于多任务学习的单视图人脸三维重建及纹理生成的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多任务学习的单视图人脸三维重建及纹理生成的方法，其特征在于，所述步骤S2中，人脸三维模型的深度数据的具体计算方法为：

首先利用S1中得到的相机内外参数，计算出三维人脸模型在所述渲染视点下的成像平面A，再设定一个与平面A平行的平面B，并且使三维模型和相机的虚拟位置在平面A的同一侧；然后从相机位置分别与成像平面A的每个像素位置连成射线，射线与平面B有相交点，再以这些交点为原点出发，与虚拟相机的位置连成射线，与三维模型有交点，并取距离相机中心最远的交点到相机中心位置的距离，作为模型交点处在渲染视点下的深度值；最后将得到的深度值存为深度图。

3.根据权利要求1所述的基于多任务学习的单视图人脸三维重建及纹理生成的方法，其特征在于，所述步骤S2中，得到纹理图像的具体方法为：

首先根据需要的纹理分辨率设定渲染窗口的大小，然后在S1中得到的相机内外参数的基础上根据渲染窗口大小调整相机内参，使得到的纹理图分辨率相对于深度图分辨率更高；基于OpenGL加载人脸三维模型文件，在所述渲染视点下进行渲染，渲染的时候开启深度测试，由于视点的特殊性，需要设置渲染出深度值最大的点，即观察者在正面视角下可以看到的部分；将窗口中渲染得到的数据存为图片最终得到特殊视角下的高分辨率纹理图像。

4.根据权利要求1所述的基于多任务学习的单视图人脸三维重建及纹理生成的方法，其特征在于，所述步骤S7中如果需要进行纹理风格迁移，则使用预训练的风格迁移模型，并输入得到的人脸纹理展开图和代表迁移风格的图片，就可以得到迁移风格后的纹理图。