CN109508678A

CN109508678A - 人脸检测模型的训练方法、人脸关键点的检测方法和装置

Info

Publication number: CN109508678A
Application number: CN201811367129.0A
Authority: CN
Inventors: 陈德健
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-22
Anticipated expiration: 2038-11-16
Also published as: RU2770752C1; EP3882808B1; SG11202105115TA; EP3882808A4; WO2020098686A1; EP3882808A1; CN109508678B; US11922707B2; US20210406516A1

Abstract

本发明实施例公开了一种人脸检测模型的训练方法、人脸关键点的检测方法、装置、设备和存储介质，所述训练方法包括：获取训练人脸图像；基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型；根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图；采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，本发明实施例无需对训练人脸图像和训练UV坐标图进行人工标注，解决了现有技术中训练数据需要人工预估标注导致训练数据不准确，造成CNN输出人脸关键点坐标不准确的问题，提高了人脸检测模型的性能，同时也提高了人脸关键点检测的准确性。

Description

人脸检测模型的训练方法、人脸关键点的检测方法和装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种人脸检测模型的训练方法、一种人脸关键点的检测方法、一种人脸检测模型的训练装置、一种人脸关键点的检测装置、设备和存储介质。

背景技术

随着互联网技术的发展，出现了各种视频应用程序，通过视频应用程序人们可以更直观地进行交流。

在视频直播或者录制短视频的过程中，用户通常需求对视频进行一些特效处理，例如对视频中的人脸添加美颜、贴纸等特效，上述特效的添加依赖于人脸上的眼睛、嘴巴、鼻子等关键点，因此，检测人脸关键点的准确度对特效的处理尤其重要。在现有检测人脸关键点的方法中，一种方式是直接回归，通过把人脸图像输入CNN(卷积神经网络，Convolutional Neural Network)中，回归出各个关键点的坐标，另一种方式是层级法，通过多次预测关键点的坐标来提升精度，通过以前一次预测关键点的坐标为中心，裁剪出多个局部图片，再把多个局部图片输入CNN中，回归出关键点的最终坐标。

然而在训练CNN时，在训练样本中，当人脸图像中人脸角度较大时，人脸的某些部位受到遮挡，需要对受遮挡部分进行人工预估标注，导致得到训练数据不准确，从而造成CNN输出人脸关键点坐标不准确的问题。

发明内容

本发明实施例提供一种人脸检测模型的训练方法、一种人脸关键点的检测方法、一种人脸检测模型的训练装置、一种人脸关键点的检测装置、设备和存储介质，以解决现有人脸关键点的检测方法存在人脸关键点检测不准确的问题，以提高人脸关键点检测的准确性。

第一方面，本发明实施例提供了一种人脸检测模型的训练方法，包括：

获取训练人脸图像；

基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型；

根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图；

采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，其中，所述人脸检测模型用于生成包含三维坐标的UV坐标图。

第二方面，本发明实施例提供了一种人脸关键点的检测方法，包括：

获取目标人脸图像；

将所述目标人脸图像输入预先训练的人脸检测模型中，以生成所述目标人脸图像的UV坐标图，所述UV坐标图中的每个像素点包含三维坐标；

获取UV模板图，所述UV模板图包含预先标注的人脸关键点；

在所述UV坐标图中确定所述人脸关键点对应的像素点，以检测所述人脸关键点的三维坐标。

第三方面，本发明实施例提供了一种人脸检测模型的训练装置，包括：

训练人脸图像获取模块，用于获取训练人脸图像；

三维重建模块，用于基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型；

训练UV坐标图生成模块，用于根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图；

训练模块，用于采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，其中，所述人脸检测模型用于生成包含三维坐标的UV坐标图。

第四方面，本发明实施例提供了一种人脸关键点的检测装置，包括：

目标人脸图像获取模块，用于获取目标人脸图像；

UV坐标图生成模块，用于将所述目标人脸图像输入预先训练的人脸检测模型中，以生成所述目标人脸图像的UV坐标图，所述UV坐标图中的每个像素点包含三维坐标；

模板图获取模块，用于获取UV模板图，所述UV模板图包含预先标注的人脸关键点；

人脸关键点三维坐标检测模块，用于在所述UV坐标图中确定所述人脸关键点对应的像素点，以检测所述人脸关键点的三维坐标。

第五方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的人脸检测模型的训练方法和/或人脸关键点的检测方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的人脸检测模型的训练方法和/或人脸关键点的检测方法。

本发明实施例在获取训练人脸图像后，基于预设的三维人脸模型对训练人脸图像进行三维重建，得到训练三维人脸模型，并根据训练三维人脸模型生成包含训练三维人脸模型的三维坐标的训练UV坐标图；采用训练人脸图像和训练UV坐标图对语义分割网络进行训练，获得人脸检测模型。本发明通过对训练人脸图像进行三维重建以生成训练三维人脸模型，进一步生成训练UV坐标图，从而获得训练数据对语义分割网络进行训练获得到人脸检测模型，无需对训练人脸图像和训练UV坐标图进行人工标注，解决了现有技术中训练数据需要人工预估标注导致训练数据不准确，造成CNN输出人脸关键点坐标不准确的问题，提高了人脸检测模型的性能，同时也提高了人脸关键点检测的准确性。

进一步地，人脸检测模型可以生成包含三维坐标的UV坐标图，可以检测关键点的三维坐标，使得检测到的人脸关键点具有深度信息，丰富了关键点的应用场景。

附图说明

图1是本发明实施例一提供的一种人脸检测模型的训练方法的流程图；

图2A是本发明实施例二提供的一种人脸检测模型的训练方法的流程图；

图2B是本发明实施例二中三维人脸模型对齐的示意图；

图2C是本发明实施例二中通过三维重建生成训练三维人脸模型的示意图；

图3A是本发明实施例三提供的一种人脸关键点的检测方法的流程图；

图3B是本发明实施例三中人脸检测模型输出的UV坐标图的示意图；

图3C是本发明实施例三中UV模板图的示意图；

图4是本发明实施例四提供的一种人脸检测模型的训练装置的结构框图；

图5是本发明实施例五提供的一种人脸关键点的检测装置的结构框图；

图6是本发明实施例六提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种人脸检测模型的训练方法的流程图，本发明实施例可适用于训练人脸检测模型生成包含三维坐标的UV坐标图的情况，该方法可以由人脸检测模型的训练装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，具体地，如图1所示，该方法可以包括如下步骤：

S101、获取训练人脸图像。

具体地，训练人脸图像可以是包含人脸的二维图像，该二维图像的存储格式可以是BMP、JPG、PNG、TIF等格式。其中，BMP(Bitmap)是Windows操作***中的标准图像文件格式，BMP采用位映射存储格式，BMP文件的图像深度可选lbit、4bit、8bit及24bit；JPG即JPEG(Joint Photo graphic Experts Group)，JPEG图片以24位颜色存储单个位图，JPEG是与平台无关的格式；PNG(Portable Network Graphic Format，可移植网络图形格式)是一种位图文件存储格式，PNG用来存储灰度图像时，灰度图像的深度可多到16位，存储彩色图像时，彩色图像的深度可多到48位，并且还可存储多到16位的α通道数据；TIF(Tag Image FileFormat，标签图像文件格式)是一种灵活的位图格式，主要用来存储包括照片和艺术图在内的图像。

在实际应用中，可以从本地存储的图像中选取出训练人脸图像，也可以是从网络上获取已公开的人脸图像作为训练人脸图像，还可以是从视频中截取人脸图像作为训练人脸图像。本发明实施例对训练人脸图像的存储格式不加以限制，对获取训练人脸图像的方式也不加以限制。

S102、基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型。

其中，预设的三维人脸模型可以是对真实人脸进行三维扫描，获得真实人脸的三维扫描数据，三维扫描数据即为三维人脸模型，通过对多个真实人脸进行三维扫描，可以获得多个不同的三维人脸模型以生成三维人脸模型库，当然，三维人脸模型也可以是已公开的三维人脸模型。

本发明实施例中，可以对大量预设的三维人脸模型进行分析，以获得三维人脸模型的主成分分量和特征值，通过主成分分量和拟合不同的特征值可以生成不同的三维人脸模型，因此，对于训练人脸图像，可以拟合不同的特征值进行三维重建，以生成训练人脸图像对应的训练三维人脸模型。通过获取多张训练人脸图像生成对应的三维人脸模型，可以解决对真实人脸进行三维扫描获取三维人脸模型代价高，以及，公开的三维人脸模型数据稀疏，无法为人脸检测模型训练提供足够训练数据的问题，提高了获取训练数据的效率和降低了获取训练数据的成本。

S103、根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图。

其中，UV是U，V纹理贴图坐标的简称，其中U是水平方向坐标，V是垂直方向坐标，通过二维的UV坐标图，可以将UV坐标系中图像上每一个点对应到三维人脸模型的表面，即三维人脸模型上的每个点在UV坐标图上具有唯一的一个点，通过UV坐标图可以还原出三维人脸模型。具体到本发明实施例中，UV坐标图可以是存储训练三维人脸模型的三维坐标的二维平面图，该UV坐标图可以由三维数组组成，如对于一个226×226×3的数组，前两维数据为UV坐标图上的像素点在UV坐标图上的位置，最后一维数据表示该像素点关联的三维坐标，该三维坐标为训练三维人脸模型上的点的三维坐标。

具体地，训练三维人脸模型可以是多个顶点的集合，每个顶点具有确定的三维坐标，可以根据三维人脸模型的顶点生成相应的训练UV坐标图，该训练UV坐标图中的每个像素点对应于训练三维人脸模型上的每个顶点，每个像素点关联有其对应的顶点的三维坐标。

S104、采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，其中，所述人脸检测模型用于生成包含三维坐标的UV坐标图。

在具体实施方式中，人脸检测模型可以根据输入的人脸图像生成包含三维坐标的UV坐标图，在人脸检测模型训练时，可以将训练人脸图像作为训练数据，训练人脸图像对应的训练UV坐标图作为训练标签，将训练人脸图像输入语义分割网络中，预估训练人脸图像的各个像素点的三维坐标以及各个像素点在UV坐标图中的位置，以生成预测的UV坐标图，然后根据预测的UV坐标图和输入的训练人脸图像对应的训练UV坐标图计算损失率后调整网络参数，获得最终训练好的人脸检测模型。通过训练好的人脸检测模型，将新的人脸图像输入人脸检测模型后，可以获得该人脸图像对应的UV坐标图，该UV坐标图上的每个像素点与人脸图像上的像素点对应，并且每个像素点包含有三维坐标。

本发明实施例通过对训练人脸图像进行三维重建，以通过三维重建生成的训练三维人脸模型生成训练UV坐标图，从而获得训练数据对语义分割网络进行训练获得到人脸检测模型，无需对训练人脸图像和训练UV坐标图进行人工标注，解决了现有技术中训练数据需要人工预估标注导致训练数据不准确，造成CNN输出人脸关键点坐标不准确的问题，提高了人脸检测模型的性能，同时也提高了人脸关键点检测的准确性。

实施例二

图2A为本发明实施例二提供的一种人脸检测模型的训练方法的流程图，本发明实施例在实施例一的基础上，对三维重建和生成训练UV坐标图进行优化，具体地，如图2A所示，该方法可以包括如下步骤：

S201、获取训练人脸图像。

S202、选取M个三维人脸模型。

本发明实施例可以从预设的三维人脸模型库中选取M个三维人脸模型，并对选取的三维人脸模型进行预处理，采用光流法对预处理后的三维人脸模型进行对齐，得到对齐后的三维人脸模型。

三维人脸模型可是通过三维扫描生成的，不同的扫描仪成像原理不同，可能会存在三维人脸模型的某些区域存在缺失数据的情况，可以对缺失数据的三维人脸模型做补洞处理，或者为了消除或减少扫描过程中光照条件的细微变化造成三维人脸模型表面不光滑，可以对三维人脸模型做平滑处理，当然还可以对局部区域的顶点的三维坐标做坐标矫正处理等，本发明实施例对预处理的方式不加以限制。

另外，为避免不同三维人脸模型之间的差异导致经过预处理的三维人脸模型的顶点数量、面片的数量以及三维人脸模型数据结构不一致，可以采用光流法对三维人脸模型进行对齐，使得三维人脸模型具有相同的维数的向量，以及具有相同语义信息的顶点对应到相同的向量位置。

具体地，假设三维人脸模型上的顶点用圆柱坐标表示为其中h表示顶点在圆柱坐标中的高度，表示旋转角度。根据光流法的定义，顶点在微小移动的时候，其亮度保持不变，由此可以得到h和的数学表达式：

其中，v_h和表示光流，可用Δh和近似替代，R表示以为中心的5×5的临近区域，‖.‖²表示L2范数，对于每个顶点要使得上述函数E尽可能小。

用Ih和分别表示上述函数E中所求解得到的偏导数和则每个顶点的新位置如下：

如图2B所示，假设模板人脸为S₀＝(x₁y₁z₁,x₂y₂z₁₂,……,x_ky_kz_k)，对于新的人脸对齐到模板人脸后为S＝(x₁y₁z₁,x₂y₂z₁₂,……,x_ky_kz_k)，即所有的三维人脸均有k维向量，对于具有相同语义信息的顶点对应到相同的向量位置，例如，对于S₀和S中鼻子上的点存储在第k个向量位置中，以此使得三维人脸模型对齐。

S203、对所述M个三维人脸模型进行主成分分析，得到主成分分量矩阵和特征值矩阵。

主成分分析(Principal Component Analysis，PCA)是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法，具体到本发明实施例中，可以对M个三维人脸模型进行主成分分析，以获取M个三维人脸模型的主成分分量矩阵和特征值矩阵。

具体地，对应每个三维人脸模型S₁、S₂、…、S_m，通过以下公式计算均值：

其中，为三维人脸模型平均值，即平均脸模型，m为选取三维人脸模型的数量，S_i为三维人脸模型。

然后求取每个三维人脸模型S_i的偏差可以得到偏差组成的矩阵A＝(α_i)，则A的协方差矩阵如下：

通过对协方差矩阵进行特征值分解后，按特征值从大到小进行排序，得到前m个主成分分量矩阵s＝(s₁,s₂,……,s_m)和特征值α＝(a₁,a₂,……,a_m)。则任意一个三维人脸模型S_i可以近似地用主成分分量矩阵s和特征值α的线性来表示。

S204、针对每个训练人脸图像，采用所述主成分分量矩阵和所述特征值矩阵进行三维重建，得到训练三维人脸模型。

具体地，可以设置初始特征值矩阵和初始投影参数矩阵，并采用初始特征值矩阵和主成分分量矩阵构建初始三维人脸模型。

例如，设初始特征值矩阵α′＝(a′₁,a′₂,…….,a′_n)，通过初始特征值矩阵α′和主成分分量矩阵s构造出初始三维人脸模型S′＝α′s＝a′₁s₁+a′₂s₂+…+a′_ns_n。

在构建初始三维人脸模型后，可以基于初始投影参数矩阵，获取初始三维人脸模型在二维空间的投影人脸图像。

具体地，初始三维人脸模型到二维空间的投影需要考虑人脸平移、人脸旋转、光照等问题，设平移坐标为(t_x,t_y,t_z)，人脸旋转参数为，环境光照强度(r_amb,g_amb,b_amb)，有向光照强度(r_dir,g_dir,b_ambdir)，以及光源方向以上投影参数用矩阵ρ来表示。

设置初始投影参数矩阵ρ，将初始三维人脸模型S′投影至二维平面上，得到初始三维人脸模型的投影人脸图像I_model＝ρS′，并设训练人脸图像为I_input，则投影人脸图像I_model与训练人脸图像I_input差异越小时，说明该初始三维人脸模型越接近训练人脸图像对应的真实人脸。

因此，可以计算投影人脸图像和训练人脸图像之间的差异值，并根据差异值，采用随机梯度下降法分别对初始特征值矩阵和初始投影参数矩阵进行迭代优化，获得差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵。

具体地，可以通过以下公式计算投影人脸图像I_model与训练人脸图像I_input的差异值：

其中，E_I为差异值，I_input(x,y)为训练人脸图像上的像素点，I_model(x,y)为训练人脸图像上的像素点，‖.‖²表示L2范数。

如果上述E_I大于预设阈值，则需要对设初始特征值矩阵α′和初始投影参数矩阵ρ进行优化，通过优化后的初始特征值矩阵α′和初始投影参数矩阵ρ重新构建三维人脸模型后进行投影，计算差异值E_I，直至差异值E_I收敛为止。

可选地，可以使用随机梯度下降算法(SGD)进行优化，具体地，针对前N轮迭代优化，在训练人脸图像和投影人脸图像中随机选取K个特征点，根据K个特征点计算投影人脸图像和训练人脸图像之间的差异值，并根据差异值，采用随机梯度下降法对初始特征值矩阵中的部分特征值和初始投影参数矩阵进行迭代优化，在N轮迭代优化后，采用随机梯度下降法对所有特征值和初始投影参数矩阵进行优化，获得差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵。

例如，在前N轮的每次迭代中，从训练人脸图像I_input和投影人脸图像I_model上选择K＝40个随机特征点进行优化，特征点可以是人脸上眼睛、嘴巴或者脸型轮廓上的点，通过选择较少数量的特征点计算差异值优化初始特征值矩阵α′和初始投影参数矩阵ρ，可以避免每次迭代优化造成计算冗余，提高优化的速度。

同时，可以先对设初始特征值矩阵α′中特征值较大的n个特征值进行优化，避免在前N轮迭代时拟合较小的特征值造成过度拟合。因此在前N轮迭代，可以拟合重要性较高的特征值。例如，前100轮迭代中优化特征值较大的10个特征值和投影参数矩阵ρ，100轮迭代后优化所有的特征值和投影参数矩阵ρ，当差异值E_I收敛时，得到目标特征值矩阵，则可以采用目标特征值矩阵和主成分分量矩阵生成训练三维人脸模型。

如图2C所示，训练三维人脸模型S通过主成分分量矩阵中的主成分分量和目标特征值矩阵中的特征值拟合而成，即基于预设的三维人脸模型可以对训练人脸图像进行三维重建，获得训练三维人脸模型，可以解决对人脸进行三维扫描获取三维人脸模型代价高，以及公开的三维人脸模型数据稀疏，无法为人脸检测模型训练提供足够训练数据的问题，提高了获取训练数据的效率和降低了获取训练数据的成本。

S205、获取所述训练三维人脸模型的顶点，所述顶点具有三维坐标。

在本发明实施例中，训练三维人脸模型可以是多个顶点的集合，每个顶点在训练三维人脸模型中具有确定的三维坐标，例如，训练三维人脸模型为S＝(x₁y₁z₁,x₂y₂z₁₂,……,x_ky_kz_k)，即训练三维人脸模型包括k个顶点。

S206、将所述顶点投影至预设球面上，得到顶点在所述球面上的投影点。

具体地，可以通过球面投影将顶点投影到预设半径的球面上，例如，对于三维人脸模型的每个顶点，将顶点与球心连线，则该连线在球面上的交点即为顶点在球面上的投影，训练三维人脸模型的顶点都进行投影后，可以把不规则的训练三维人脸模型投影到球面上。

S207、对包含所述投影点的球面进行展开处理，以生成包含所述投影点的训练UV坐标图；其中，所述训练UV坐标图中的每个投影点关联有所述顶点的三维坐标。

具体地，可以把球面展开成二维平面图得到UV坐标图，该UV坐标图存储了训练三维人脸模型的顶点的三维坐标，即UV坐标图中的每个像素点对应于训练三维人脸模型上的唯一一个顶点，通过UV坐标图中的像素点可以还原出训练三维人脸模型。

S208、采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，其中，所述人脸检测模型用于生成包含三维坐标的UV坐标图。

本发明实施例中，可以采用训练人脸图像作为训练数据，训练人脸图像对应的训练UV坐标图作为训练标签对语义分割网络进行训练。

具体地，可以随机提取训练人脸图像，将训练人脸图像输入语义分割网络中提取预测UV坐标图，并采用预设损失函数和所述训练UV坐标图对预测UV坐标图计算损失率，采用损失率计算梯度，判断梯度是否满足预设的迭代条件；若是，则确定语义分割网络为人脸检测模型；若否，则采用梯度与预设的学习率对语义分割网络的网络参数进行梯度下降，返回提取训练人脸图像的步骤。

在实际应用中，语义分割网络可以是FCN、SegNet、U-Net等语义分割网络，本发明实施例可以通过随机梯度下降的方式训练语义分割网络。

具体到本发明实施例中，将训练人脸图像输入语义分割网络可以提取预测UV坐标图，可选地，该预测UV坐标图与输入的训练人脸图像的分辨率相同，例如分别率均为226×226，并且预测UV坐标图上每个像素点均关联有三维坐标，则可以获取训练人脸图像对应的训练UV坐标图，通过预测UV坐标图、训练UV坐标图和损失函数以及损失权重计算损失率。

可选地，损失函数如下：

其中，P(u,v)为训练UV坐标图，为预测UV坐标图，W(u,v)为损失权重。对于训练UV坐标图P(u,v)和预测UV坐标图可以分别提取位置相同的像素点关联的三维坐标以计算差值，则可以得到每个像素点的差值，如果该像素点在人脸关键点区域，如在眼睛、嘴巴、鼻子等关键点区域，可以增加损失权重，比如像素点(u,v)在眼睛、嘴巴、鼻子等关键区域，则设置W(u,v)为4，如果在其他区域，则设置W(u,v)为1，以提高准确性。

在计算损失率后，可以计算每个网络参数w_t相对于损失函数Loss的偏导数以获得梯度：

其中，为梯度，Loss为损失函数，w_t为网络参数，为求偏导数。

如果梯度未满足预设的迭代条件，如连续多个梯度之间的差异大于或等于预设的差异阈值，或者未到达迭代次数，则按照以下公式采用梯度与预设的学习率对语义分割网络的网络参数进行梯度下降：

其中，w_t+1为更新后的网络参数，w_t为更新前的网络参数，lr为学习率，为梯度。

如果梯度满足预设的迭代条件，如连续多个梯度之间的差异小于或等于预设的差异阈值，或者到达迭代次数，则结束训练，输出网络参数w_t，获得人脸检测模型。

本发明实施例通过对训练人脸图像进行三维重建以生成训练三维人脸模型，进一步生成训练UV坐标图，从而获得训练数据对语义分割网络进行训练获得到人脸检测模型，无需对训练人脸图像和训练UV坐标图进行人工标注，解决了现有技术中训练数据需要人工预估标注导致训练数据不准确，造成CNN输出人脸关键点坐标不准确的问题，提高了人脸检测模型的性能，同时也提高了人脸关键点检测的准确性。

实施例三

图3A为本发明实施例三提供的一种人脸关键点的检测方法的流程图，本发明实施例可适用于通过人脸图像检测人脸关键点的情况，该方法可以由人脸关键点的检测装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，具体地，如图3A所示，该方法可以包括如下步骤：

S301、获取目标人脸图像。

在本发明实施例中，目标人脸图像可以是待添加视频特效的人脸图像。例如，可以是视频直播或者录制短视频过程中，用户选择美瞳、添加贴图、瘦脸等添加视频特效的操作时，视频直播APP检测到用户的操作，从摄像头采集到的视频帧中截取一帧包含人脸的图像作为目标人脸图像，目标人脸图像还可以是人脸认证时通过人脸认证装置采集到待认证人脸的人脸图像，还可以是用户对存储在本地的图像进行图像处理时的人脸图像，还可以是其它待检测人脸关键点的图像，本发明实施例对获取目标人脸图像的方式不加以限制。

S302、将所述目标人脸图像输入预先训练的人脸检测模型中，以生成所述目标人脸图像的UV坐标图，所述UV坐标图中的每个像素点包含三维坐标。

其中，在本发明实施例中人脸检测模型可以通过如下方式进行训练：

S3021，获取训练人脸图像；

S3021，基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型；

S3021，根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图；

S3021，采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，其中，所述人脸检测模型用于生成包含三维坐标的UV坐标图。

对于人脸检测模型的训练方法可以参考实施例一和实施例二，在此不再详述。

如图3B所示，将目标人脸图像输入预先训练的人脸检测模型中后，可以生成如图3B所示的目标人脸图像的UV坐标图，该UV坐标图中的每个像素点包含三维坐标，可选地，输出的UV坐标图的分辨率与目标人脸图像的分辨率相同。

S303、获取UV模板图，所述UV模板图包含预先标注的人脸关键点。

其中，UV模板图可以是根据大量UV坐标图总结得到二维图，在UV模板图中标注有人脸关键点，并且所标注的人脸关键点适用于大部分人脸的关键点检测。

如图3C所示为本发明实施例的UV模板图的示意图，该UV模板图上预先标注有人脸关键点，例如，在UV模板图中标准眼睛、鼻子、嘴巴、人脸轮廓等人脸关键点。

S304、在所述UV坐标图中确定所述人脸关键点对应的像素点，以检测所述人脸关键点的三维坐标。

在本发明的可选实施例中，UV坐标图和UV模板图的分辨率相同，每个像素点一一对应，可以在UV坐标图中确定UV模板上预先标注的人脸关键点对应的像素点，以检测人脸关键点的三维坐标，可以提高人脸关键点检测的效率。

例如，在UV模板图中，可以根据不同的业务需求对预先标注的人脸关键点添加分类标识，以应对用户不同的业务需求，例如眼睛的关键点的分类标识为A，鼻子的关键点的分类标识为B，嘴巴的关键点的分类标识为C等等，当用户需要在直播视频中对眼睛添加特效时，UV模板图上分类标识为A的人脸关键点有效，则在UV坐标图中可以确定分类标识为A的人脸关键点对应的像素点，进而获取像素点关联的三维坐标，以实现人脸关键点的检测，以便后续根据人脸关键点的三维坐标进行特效处理。

本发明实施例将目标人脸图像输入预先训练的人脸检测模型中，以生成目标人脸图像的UV坐标图，获取包含预先标注的人脸关键点UV模板图，并在UV坐标图中确定人脸关键点对应的像素点，以检测人脸关键点的三维坐标，本发明实施例人脸检测模型无需对训练人脸图像和训练UV坐标图进行人工标注，解决了现有技术中训练数据需要人工预估标注导致训练数据不准确，造成CNN输出人脸关键点坐标不准确的问题，提高了人脸检测模型的性能，能够得到准确的人脸关键点。

进一步地，UV坐标图中的每个像素点包含三维坐标，可以检测关键点的三维坐标，使得检测到的人脸关键点具有深度信息，丰富了关键点的应用场景。

实施例四

图4为本发明实施例四提供的一种人脸检测模型的训练装置的结构示意图，如图4所示，该装置具体包括：

训练人脸图像获取模块401，用于获取训练人脸图像；

三维重建模块402，用于基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型；

训练UV坐标图生成模块403，用于根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图；

训练模块404，用于采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，其中，所述人脸检测模型用于生成包含三维坐标的UV坐标图。

可选地，所述三维重建模块402包括：

三维人脸模型选取子模块，用于选取M个三维人脸模型；

主成分分析子模块，用于对所述M个三维人脸模型进行主成分分析，得到主成分分量矩阵和特征值矩阵；

三维重建子模块，用于针对每个训练人脸图像，采用所述主成分分量矩阵和所述特征值矩阵进行三维重建，得到训练三维人脸模型。

可选地，所述三维重建模块402还包括：

三维人脸模型预处理子模块，用于对选取的三维人脸模型进行预处理；

三维人脸模型对齐子模块，用于采用光流法对预处理后的三维人脸模型进行对齐，得到对齐后的三维人脸模型；

其中，所述预处理包括如下至少一种：平滑处理、补洞处理和坐标矫正。

可选地，所述三维重建子模块包括：

初始参数设置单元，用于设置初始特征值矩阵和初始投影参数矩阵；

初始三维人脸模型构建单元，用于采用所述初始特征值矩阵和所述主成分分量矩阵构建初始三维人脸模型；

初始三维人脸模型投影单元，用于基于所述初始投影参数矩阵，获取所述初始三维人脸模型在二维空间的投影人脸图像；

差异值计算单元，用于计算所述投影人脸图像与所述训练人脸图像之间的差异值；

优化单元，用于根据所述差异值，采用随机梯度下降法分别对所述初始特征值矩阵和所述初始投影参数矩阵进行迭代优化，获得所述差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵；

训练三维人脸模型生成单元，用于采用所述目标特征值矩阵和所述主成分分量矩阵生成训练三维人脸模型。

可选地，所述优化单元包括：

特征点选取子单元，用于针对前N轮迭代优化，在所述训练人脸图像和所述投影人脸图像中随机选取K个特征点；

差异值计算子单元，用于根据所述K个特征点计算所述投影人脸图像与训练人脸图像之间的差异值；

第一迭代优化子单元，用于根据所述差异值，采用随机梯度下降法对所述初始特征值矩阵中的部分特征值和所述初始投影参数矩阵进行迭代优化；

第二迭代优化子单元，用于在N轮迭代优化后，采用随机梯度下降法对所有特征值和所述初始投影参数矩阵进行优化，获得所述差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵。

可选地，所述训练UV坐标图生成模块403包括：

顶点获取子模块，用于获取所述训练三维人脸模型的顶点，所述顶点具有三维坐标；

投影子模块，用于将所述顶点投影至预设球面上，得到顶点在所述球面上的投影点；

训练UV坐标图生成子模块，用于对包含所述投影点的球面进行展开处理，以生成包含所述投影点的训练UV坐标图；其中，所述训练UV坐标图中的每个投影点关联有所述顶点的三维坐标。

可选地，所述训练模块404包括：

训练人脸图像提取子模块，用于提取训练人脸图像；

预测UV坐标图提取子模块，用于将所述训练人脸图像输入语义分割网络中提取预测UV坐标图；

损失率计算子模块，用于采用预设损失函数和所述训练UV坐标图对所述预测UV坐标图计算损失率；

梯度计算子模块，用于采用所述损失率计算梯度；

迭代条件判断子模块，用于判断所述梯度是否满足预设的迭代条件；

人脸检测模型确定子模块，用于确定所述语义分割网络为人脸检测模型；

网络参数调整子模块，用于采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行梯度下降，返回提取训练人脸图像的步骤。

可选地，所述损失率计算子模块包括：

训练UV坐标图单元，用于获取所述训练人脸图像对应的训练UV坐标图；

损失率计算单元，用于采用所述训练UV坐标图、所述预测UV坐标图、预设损失函数以及预设损失权重计算损失率，其中，所述预设损失权重为预设特征点的权重。

本发明实施例所提供的人脸检测模型的训练装置可执行本发明任意实施例所提供的人脸检测模型的训练方法，具备执行方法相应的功能模块和有益效果。

图5为本发明实施例五提供的一种人脸关键点的检测装置的结构示意图，如图5所示，该装置具体包括：

目标人脸图像获取模块501，用于获取目标人脸图像；

UV坐标图生成模块502，用于将所述目标人脸图像输入预先训练的人脸检测模型中，以生成所述目标人脸图像的UV坐标图，所述UV坐标图中的每个像素点包含三维坐标；

模板图获取模块503，用于获取UV模板图，所述UV模板图包含预先标注的人脸关键点；

人脸关键点三维坐标检测模块504，用于在所述UV坐标图中确定所述人脸关键点对应的像素点，以检测所述人脸关键点的三维坐标。

本发明实施例所提供的人脸关键点的检测装置可执行本发明任意实施例所提供的人脸关键点的检测方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图6，示出了本发明一个示例中的一种设备的结构示意图。如图6所示，该设备具体可以包括：处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是一个或者多个，图6中以一个处理器60为例。该设备中存储器61的数量可以是一个或者多个，图6中以一个存储器61为例。该设备的处理器60、存储器61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的人脸检测模型的训练方法对应的程序指令/模块(例如，上述人脸检测模型的训练装置中的训练人脸图像获取模块401、三维重建模块402、训练UV坐标图生成模块403和训练模块404)，或如本发明任意实施例所述的人脸关键点的检测方法对应的程序指令/模块(例如，上述人脸关键点的检测装置中的目标人脸图像获取模块501、UV坐标图生成模块502、模板图获取模块503和人脸关键点三维坐标检测模块504)。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏62为具有触摸功能的显示屏62，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏62用于根据处理器60的指示显示数据，还用于接收作用于显示屏62的触摸操作，并将相应的信号发送至处理器60或其他装置。可选的，当显示屏62为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏62的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器50或者其他设备。

通信装置65，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置63可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是，输入装置63和输出装置64的具体组成可以根据实际情况设定。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述人脸检测模型的训练方法和/或人脸关键点的检测方法。

具体地，实施例中，处理器60执行存储器61中存储的一个或多个程序时，具体实现本发明实施例提供的人脸检测模型的训练方法和/或人脸关键点的检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的人脸检测模型的训练方法和/或人脸关键点的检测方法。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的人脸检测模型的训练方法和/或人脸关键点的检测方法。

值得注意的是，上述人脸检测模型的训练装置和人脸关键点的检测装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种人脸检测模型的训练方法，其特征在于，包括：

获取训练人脸图像；

2.如权利要求1所述的方法，其特征在于，所述基于预设的三维人脸模型对所述训练人脸图像进行三维重建，得到训练三维人脸模型，包括：

选取M个三维人脸模型；

对所述M个三维人脸模型进行主成分分析，得到主成分分量矩阵和特征值矩阵；

针对每个训练人脸图像，采用所述主成分分量矩阵和所述特征值矩阵进行三维重建，得到训练三维人脸模型。

3.如权利要求2所述的方法，其特征在于，在对所述M个三维人脸模型进行主成分分析，得到主成分分量矩阵和特征值矩阵之前，包括：

对选取的三维人脸模型进行预处理；

采用光流法对预处理后的三维人脸模型进行对齐，得到对齐后的三维人脸模型；

4.如权利要求2或3所述的方法，其特征在于，所述针对每个训练人脸图像，采用所述主成分分量矩阵和所述特征值矩阵进行三维重建，得到训练三维人脸模型，包括：

设置初始特征值矩阵和初始投影参数矩阵；

采用所述初始特征值矩阵和所述主成分分量矩阵构建初始三维人脸模型；

基于所述初始投影参数矩阵，获取所述初始三维人脸模型在二维空间的投影人脸图像；

计算所述投影人脸图像与所述训练人脸图像之间的差异值；

根据所述差异值，采用随机梯度下降法分别对所述初始特征值矩阵和所述初始投影参数矩阵进行迭代优化，获得所述差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵；

采用所述目标特征值矩阵和所述主成分分量矩阵生成训练三维人脸模型。

5.如权利要求4所述的方法，其特征在于，所述根据所述差异值，采用随机梯度下降法分别对所述初始特征值矩阵和所述初始投影参数矩阵进行迭代优化，获得所述差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵，包括：

针对前N轮迭代优化，在所述训练人脸图像和所述投影人脸图像中随机选取K个特征点；

根据所述K个特征点计算所述投影人脸图像与训练人脸图像之间的差异值；

根据所述差异值，采用随机梯度下降法对所述初始特征值矩阵中的部分特征值和所述初始投影参数矩阵进行迭代优化；

在N轮迭代优化后，采用随机梯度下降法对所有特征值和所述初始投影参数矩阵进行优化，获得所述差异值收敛时的特征值矩阵和投影参数矩阵，作为目标特征值矩阵和目标投影参数矩阵。

6.如权利要求1-3任一项所述的方法，其特征在于，所述根据所述训练三维人脸模型，生成包含所述训练三维人脸模型的三维坐标的训练UV坐标图，包括：

获取所述训练三维人脸模型的顶点，所述顶点具有三维坐标；

将所述顶点投影至预设球面上，得到顶点在所述球面上的投影点；

对包含所述投影点的球面进行展开处理，以生成包含所述投影点的训练UV坐标图；其中，所述训练UV坐标图中的每个投影点关联有所述顶点的三维坐标。

7.如权利要求1-3任一项所述的方法，其特征在于，所述采用所述训练人脸图像和所述训练UV坐标图对语义分割网络进行训练，获得人脸检测模型，包括：

提取训练人脸图像；

将所述训练人脸图像输入语义分割网络中提取预测UV坐标图；

采用预设损失函数和所述训练UV坐标图对所述预测UV坐标图计算损失率；

采用所述损失率计算梯度；

判断所述梯度是否满足预设的迭代条件；

若是，则确定所述语义分割网络为人脸检测模型；

若否，采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行梯度下降，返回提取训练人脸图像的步骤。

8.如权利要求7所述的方法，其特征在于，所述采用预设损失函数和所述训练UV坐标图对所述预测UV坐标图计算损失率，包括：

获取所述训练人脸图像对应的训练UV坐标图；

采用所述训练UV坐标图、所述预测UV坐标图、预设损失函数以及预设损失权重计算损失率，其中，所述预设损失权重为预设特征点的权重。

9.一种人脸关键点的检测方法，其特征在于，包括：

获取目标人脸图像；

获取UV模板图，所述UV模板图包含预先标注的人脸关键点；

10.一种人脸检测模型的训练装置，其特征在于，包括：

训练人脸图像获取模块，用于获取训练人脸图像；

11.一种人脸关键点的检测装置，其特征在于，包括：

目标人脸图像获取模块，用于获取目标人脸图像；

12.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的人脸检测模型的训练方法和/或权利要求9所述的人脸关键点的检测方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的人脸检测模型的训练方法和/或权利要求9所述的人脸关键点的检测方法。