CN114882197B

CN114882197B - 一种基于图神经网络的高精度三维人脸重建方法

Info

Publication number: CN114882197B
Application number: CN202210512763.9A
Authority: CN
Inventors: 王晨; 张龙; 王贵锦
Original assignee: Guizhou Caicaibao Internet Service Co ltd
Current assignee: Guizhou Caicaibao Internet Service Co ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-05-05
Anticipated expiration: 2042-05-10
Also published as: CN114882197A

Abstract

本发明涉及三维人脸重建技术领域，特别涉及一种基于图神经网络的高精度三维人脸重建方法。包括将人脸图像预处理为64*64像素大小的RGB图像，输入神经网络编码器，分别得到纹理参数、形状参数、空间与光照参数；然后将纹理参数输入纹理解码器生成纹理图，形状参数输入形状解码器生成深度图；将纹理图的像素坐标转为空间中的X，Z坐标并网格化，以深度图中对应像素值的大小作为Y坐标，得到三维人脸顶点坐标，结合空间参数对姿态进行矫正，得到人脸初步三维模型；通过图神经网络，聚合相邻点之间的特征，对空间点的位置与纹理进行优化，得到更加平滑真实的人脸模型。本发明对三维人脸模型有较好的平滑作用，使其形状、纹理色彩更加真实。

Description

一种基于图神经网络的高精度三维人脸重建方法

技术领域

本发明涉及三维人脸重建技术领域，特别涉及一种基于图神经网络的高精度三维人脸重建方法。

背景技术

三维人脸重建技术从二维人脸图片中提取信息，建立对应的三维人脸模型。目前该技术大多采用基于3D可形变人脸模型(3DMM)的方法进行线性重建，线性重建方法又可分为传统的关键点参数拟合法与神经网络参数拟合法；少部分方法不依赖3DMM模型，使用神经网络直接进行非线性重建。

3DMM方法公式如下：

其中S_mean、T_mean分别代表了统计的人脸平均形状和纹理，s_i与e_i分别是人脸形状与表情的主成分，两者共同决定人脸形状，t_i是人脸纹理的主成分，决定了人脸的颜色信息。该方法采用线性方程的形式，只考虑了人脸的关键特征，忽略了人脸的高维特征，因此基于该方法的重建都存在高维表达能力不足的情况，重建的人脸精确度较低且细节模糊。

各类方法存在的问题分析如下：

1.关键点参数拟合法，对人脸68个关键点信息进行迭代求解，得到公式(1)、(2)中的形状与纹理参数(α_i，β_i与γ_i)。该方法基于3DMM模型，重建细节模糊，且只考虑了RGB图片中人脸关键点的位置与色彩，没有考虑全局信息，进一步导致了重建精度的降低。

2.神经网络参数拟合法，通过编码器网络提取整张人脸RGB图片的特征，预测3DMM模型的参数α_i，β_i与γ_i，再代入公式(1)、(2)中得到重建后的人脸模型。该方法虽然考虑了全局信息，但没有从根本上解决3DMM高维特征表达能力差的问题。

3.神经网络非线性重建法，通过编码器—解码器网络结构，直接从人脸RGB图片中提取特征并输出3D人脸顶点坐标的位置与纹理数据。由于3D人脸模型包含数万个顶点，需要神经网络预测的数据量非常大，所以该方法中模型参数量较多，且训练过程中难以收敛，迁移效果欠佳。

发明内容

本发明要解决的技术问题是提供一种基于图神经网络的高精度三维人脸重建方法，以解决背景技术中提出的问题。

为了解决上述技术问题，本发明的技术方案为：

一种基于图神经网络的高精度三维人脸重建方法，包括：

步骤一、将人脸图像预处理为64*64像素大小的RGB图像，输入神经网络编码器，分别得到纹理参数、形状参数、空间与光照参数；然后将纹理参数输入纹理解码器生成纹理图，形状参数输入形状解码器生成深度图；将纹理图的像素坐标转为空间中的X，Z坐标并网格化，以深度图中对应像素值的大小作为Y坐标，得到三维人脸顶点坐标，结合空间参数对姿态进行矫正，得到人脸初步三维模型；

步骤二、通过图神经网络，聚合相邻点之间的特征，对空间点的位置与纹理进行优化，得到更加平滑真实的人脸模型。

优选地，还包括渲染步骤，具体为：模型训练时需要在二维图像层面进行损失计算，生成的三维人脸数据需要投影成二维人脸才能与原图片进行比较，在投影时使用渲染技术，保证三维人脸模型生成二维人脸图片的平滑与真实感，渲染时采用神经网络渲染器。

优选地，在所述步骤一中，其图像处理过程为：将RGB图像输入神经网络编码器中，分别得到128维形状参数、128维纹理参数和10维空间与光照参数；形状参数输入形状解码器中得到深度图，纹理参数输入纹理解码器中得到纹理图；将深度图、纹理图投影到空间中，每个像素点对应空间中一个的3D点，即三维人脸模型的顶点；每个顶点包含了空间位置信息与纹理信息，通过空间参数调整所有顶点的相对位置与角度，得到初步重建后的三维人脸模型。

优选地，所述形状解码器与所述纹理解码器的结构相同，均由5层反卷积层构成。

优选地，所述神经网络编码器为简化版FaceNet结构。

优选地，在所述步骤二中，还包括将深度图、纹理图投影到空间中，每个像素点对应空间中一个的3D点，即三维人脸模型的顶点。

优选地，在所述步骤二中，还包括通过点云转Mesh数据，将空间中每个点与最邻近的两个点连接起来组成一个三角面，建立了点与点之间的联系。

优选地，所述图神经网络采用多头注意力图神经网络，特征聚合公式如下：

式中j是顶点i的邻居点，f代表顶点特征，α_ij是注意力，代表了两个点之间的特征相似度，K代表注意力头数，W是特征聚合权重矩阵，点i的特征通过邻居点的特征f_j聚合得到。

优选地，还包括从Y轴观测三维模型可得顶点之间的连接关系，除边缘节点外，每个节点有8个邻居节点，以顶点连接关系为基础，建立边矩阵E，维度为[2，L]，第一行是边的起始顶点，第二行是边的到达顶点，在实际计算中，边矩阵E可通过邻接矩阵A直接转换得到。

优选地，还包括除边矩阵E外，图神经网络还需输入人脸顶点的位置与RGB信息作为特征，为此构建了用于重建的节点特征矩阵F，节点特征矩阵格式为[N，f]，其中N是节点数，f代表每个节点的特征，包含6维信息，分别是3维坐标信息与3维RGB纹理信息。

与现有技术相比，本发明的有益效果为：

第一、本发明中使用了注意力图神经网络由两层图卷积层构成，在卷积过程中保持节点数量不变，第一层输入节点特征矩阵F与边矩阵E，输出每个节点卷积与聚合之后的特征，第二层作用与第一层相似，输出聚合之后的节点特征矩阵，在训练过程中，图神经网络不断学习特征聚合权重矩阵W与注意力α_ij，将点与点之间的信息进行交换与融合，最终输出网络优化后的位置与纹理数据。

第二、本发明不依赖线性人脸模型，可以提取二维人脸的高维特征以及个性化的信息，应对更加丰富的实际场景。

第三、本发明的应用极大地减少了输出的数据量，简化了神经网络参数量，不需要大量真实的三维人脸数据，解决了训练时不易收敛的问题。

第四、本发明首次将注意力图神经网络(GAT)应用到三维人脸模型优化工作中，该方法对三维人脸模型有较好的平滑作用，使其形状、纹理色彩更加真实。

附图说明

图1为本发明的流程示意图；

图2为本发明的深度与纹理图转三维模型示意图；

图3为本发明的三维人脸顶点连接关系示意图；

图4为本发明的Y轴观测顶点邻接关系示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

参照图1，本发明的一种基于图神经网络的高精度三维人脸重建方法，包括将人脸图像预处理为64*64像素大小的图片，输入参数编码器，分别得到纹理参数、形状参数、空间与光照参数。然后将纹理参数输入纹理解码器生成纹理图，形状参数输入形状解码器生成深度图。将纹理图的像素坐标转为空间中的X，Z坐标并网格化，以深度图中对应像素值的大小作为Y坐标，得到三维人脸顶点坐标，结合空间参数对姿态进行矫正，得到人脸初步重建的结果。

将RGB图像输入神经网络编码器(Encoder)中，分别得到128维形状参数、128维纹理参数和10维空间与光照参数；形状参数输入形状解码器(Decoder1)中得到深度图，纹理参数输入纹理解码器(Decoder2)中得到纹理图；编码器采用简化版FaceNet结构。两个解码器结构相同，均由5层反卷积层(Deconvolution)构成。具体网络结构如表1所示。

表1编码器与解码器结构

如图2中所示，将深度图、纹理图投影到空间中，每个像素点对应空间中一个的3D点，即三维人脸模型的顶点。每个顶点包含了空间位置信息与纹理信息，通过空间参数调整所有顶点的相对位置与角度，得到初步重建后的三维人脸模型。

由上述部分可知，初步生成的三维人脸模型是点云数据，空间点只包含了自身的信息，具有相对独立性。通过点云转Mesh数据，将空间中每个点与最邻近的两个点连接起来组成一个三角面，建立了点与点之间的联系，连接如图3中所示。通过图神经网络，聚合相邻点之间的特征，对空间点的位置与纹理进行优化，得到更加平滑真实的人脸模型。

图神经网络采用了多头注意力图神经网络(GAT)，特征聚合公式如下：

式中j是顶点i的邻居点，f代表顶点特征，α_ij是注意力，代表了两个点之间的特征相似度，K代表注意力头数，W是特征聚合权重矩阵。点i的特征通过邻居点的特征f_j聚合得到。

如图4所示，从Y轴观测三维模型可得顶点之间的连接关系：除边缘节点外，每个节点有8个邻居节点。以顶点连接关系为基础，建立边矩阵E，维度为[2，L]，第一行是边的起始顶点，第二行是边的到达顶点。在实际计算中，边矩阵E可通过邻接矩阵A直接转换得到。

除边矩阵E外，图神经网络还需输入人脸顶点的位置与RGB信息作为特征。为此本发明构建了用于重建的节点特征矩阵F。节点特征矩阵格式为[N，f]，其中N是节点数，f代表每个节点的特征，包含6维信息，分别是3维坐标信息与3维RGB纹理信息。

本发明中使用的GAT由两层图卷积层构成，在卷积过程中保持节点数量不变。第一层输入节点特征矩阵F与边矩阵E，输出每个节点卷积与聚合之后的特征。第二层作用与第一层相似，输出聚合之后的节点特征矩阵。在训练过程中，图神经网络不断学习特征聚合权重矩阵w与注意力α_ij，将点与点之间的信息进行交换与融合，最终输出网络优化后的位置与纹理数据。

本发明还包含渲染部分以及各种损失函数。

由于缺乏真实的三维人脸数据，模型训练时需要在二维图像层面进行损失计算，生成的三维人脸数据需要投影成二维人脸才能与原图片进行比较。简单的正交投影法会造成数据重叠以及色彩失真，因此在投影时使用了渲染技术，保证三维人脸模型生成二维人脸图片的平滑与真实感。渲染部分采用了常见的神经网络渲染器(neural renderer)。

损失函数部分包含了像素级损失、关键点损失以及对抗损失。像素级损失通过比对原图和渲染图之间的像素差得到，关键点损失只比较68个关键点的信息差，对抗损失使用预训练的人脸判别器来判断两张图片之间的特征相似度，在训练过程中，重建后的渲染人脸与原图相似度不断提高。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于图神经网络的三维人脸重建方法，其特征在于，包括：

步骤二、通过图神经网络，聚合相邻点之间的特征，对空间点的位置与纹理进行优化，得到人脸模型。

2.根据权利要求1所述的基于图神经网络的三维人脸重建方法，其特征在于：还包括渲染步骤，具体为：模型训练时需要在二维图像层面进行损失计算，生成的三维人脸数据需要投影成二维人脸才能与原图片进行比较，在投影时使用渲染技术，渲染时采用神经网络渲染器。

3.根据权利要求1所述的基于图神经网络的三维人脸重建方法，其特征在于：在所述步骤一中，其图像处理过程为：将RGB图像输入神经网络编码器中，分别得到128维形状参数、128维纹理参数和10维空间与光照参数；形状参数输入形状解码器中得到深度图，纹理参数输入纹理解码器中得到纹理图；将深度图、纹理图投影到空间中，每个像素点对应空间中一个的3D点，即三维人脸顶点；每个三维人脸顶点包含了空间位置信息与纹理信息，通过空间参数调整所有三维人脸顶点的相对位置与角度，得到人脸初步三维模型。

4.根据权利要求3所述的基于图神经网络的三维人脸重建方法，其特征在于：所述形状解码器与所述纹理解码器的结构相同，均由5层反卷积层构成。

5.根据权利要求1所述的基于图神经网络的高精度三维人脸重建方法，其特征在于：所述神经网络编码器为FaceNet结构。

6.根据权利要求1所述的基于图神经网络的三维人脸重建方法，其特征在于：在所述步骤二中，还包括将深度图、纹理图投影到空间中，每个像素点对应空间中一个的3D点，即三维人脸顶点。

7.根据权利要求1所述的基于图神经网络的高精度三维人脸重建方法，其特征在于：在所述步骤二中，还包括通过点云转Mesh数据，将空间中每个点与最邻近的两个点连接起来组成一个三角面，建立了点与点之间的联系。

8.根据权利要求1所述的基于图神经网络的三维人脸重建方法，其特征在于：所述图神经网络采用多头注意力图神经网络，特征聚合公式如下：

式中j是顶点i的邻居点，f代表三维人脸顶点特征，α_ij是注意力，代表了两个点之间的特征相似度，K代表注意力头数，W是特征聚合权重矩阵，点i的特征通过邻居点的特征f_j聚合得到。

9.根据权利要求1所述的基于图神经网络的三维人脸重建方法，其特征在于：还包括从Y轴观测可得顶点之间的连接关系，除边缘节点外，每个节点有8个邻居节点，以三维人脸顶点连接关系为基础，建立边矩阵E，维度为[2，L]，第一行是边的起始三维人脸顶点，第二行是边的到达顶点，在实际计算中，边矩阵E可通过邻接矩阵A直接转换得到。

10.根据权利要求9所述的基于图神经网络的三维人脸重建方法，其特征在于：还包括除边矩阵E外，图神经网络还需输入人脸顶点的位置与RGB信息作为特征，为此构建了用于重建的节点特征矩阵F，节点特征矩阵格式为[N，f]，其中N是节点数，f代表三维人脸顶点特征，包含6维信息，分别是3维坐标信息与3维RGB纹理信息。