CN112115783A

CN112115783A - 基于深度知识迁移的人脸特征点检测方法、装置及设备

Info

Publication number: CN112115783A
Application number: CN202010809064.1A
Authority: CN
Inventors: 吕科; 高鹏程; 薛健
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-22
Anticipated expiration: 2040-08-12
Also published as: CN112115783B

Abstract

本发明实施例公开了基于深度知识迁移的人脸特征点检测方法、装置及设备，该方法包括：提供人脸数据集，根据人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集；将测试样本和训练样本输入到初始人脸对齐网络框架中；利用Pytorch训练初始人脸对齐网络框架中的教师网络和学生网络，直至损失函数和最大迭代次数满足预定条件时生成训练模型；冻结教师网络的模型参数，提取教师网络学习的深层暗知识传递给学生网络生成最终人脸对齐网络模型；将自然场景下的RGB人脸图像输入至最终人脸对齐网络模型中，输出人脸特征点检测结果。本发明人脸特征点检测精度稿，模型参数量和计算复杂度低。

Description

基于深度知识迁移的人脸特征点检测方法、装置及设备

技术领域

本发明实施例涉及计算机视觉和数字图像处理领域，具体涉及基于深度知识迁移的人脸特征点检测方法、装置及设备。

背景技术

现有对人脸特征点检测的方法，对于自然场景下的人脸特征点定位不能有效的解决，复杂的方法模型参数量庞大，计算复杂度较高，无法满足运行速度的需求。简单的方法无法应对自然场景下极端姿态、多变光照、严重遮挡等因素的干扰，精度无法达到应用要求。

发明内容

本发明实施例的目的在于提供基于深度知识迁移的人脸特征点检测方法、装置及设备，用以解决现有人脸特征点检测计算复杂度较高、运行速度慢和精度低的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种基于深度知识迁移的人脸特征点检测方法，包括：

S1：提供包含人脸特征点标注的人脸数据集，根据所述人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集；

S2：从所述训练集中获取训练样本，并从所述测试集中获取测试样本，将所述测试样本和所述训练样本输入到初始人脸对齐网络框架中；

S3：设置卷积神经网络的参数，利用Pytorch训练所述初始人脸对齐网络框架中的教师网络和学生网络，直至损失函数和最大迭代次数满足预定条件时生成训练模型；

S4：冻结教师网络的模型参数，提取所述教师网络学习的深层暗知识，将所述深层暗知识传递给所述学生网络，监督所述学生网络的训练过程生成最终人脸对齐网络模型；

S5：将自然场景下的RGB人脸图像输入至所述最终人脸对齐网络模型中，输出人脸特征点检测结果。

在本发明一个实施例中，步骤S1包括：

S1-1：提供WFLW数据集，所述WFLW数据集包括N张训练图片和M张测试图片，每张图片具有图片标签，所述图片信息包括人脸框信息、人脸特征点位置信息和多个属性信息，N和M均为大于零的正整数；

S1-2：根据所述人脸数据集提供的人脸检测框对人脸图像进行裁剪，同时对所述人脸检测框进行扰动，对所述人脸图像施加随机旋转、尺寸缩放和翻转，以进行数据增强得到所述训练集、所述验证集和所述测试集。

在本发明一个实施例中，通过以下方式生成所述初始人脸对齐网络框架：

采用编码器-解码器的网络结构生成所述教师网格，教师网格编码器包括三个上采样层与卷积层，所述教师网格编码器用于对输入图像进行特征提取和编码，保留原始网络的特征提取信息，移除最后的平均池化层、用来分类的全连接层和最后一个升维的1×1卷积层；

在所述编码器后添加所述解码器，对所述编码器提取的图像特征进行空间上采样得到特征图，将所述特征图的通道维数转换为人脸特征点的数量，使用空间softargmax运算在变换后的每张特征图上计算期望得到对应的人脸特征点坐标；

提供EfficientFAN结构的学生网络，学生网络编码器包括三个上采样层与卷积层，所述学生网络用于最终的人脸特征点检测，使用EfficientNet-B0作为所述学生网络编码器的主干部分，移除EfficientNet-B0最后的平均池化层、用来分类的全连接层和最后一个升维的1×1卷积层；

在所述学生网格编码器之后添加了一个1×1的卷积层，将所述学生网格编码器上采样得到特征图的通道数转换为人脸特征点的数目，使用空间softargmax运算在转换后的特征图上计算人脸特征点的坐标。

在本发明一个实施例中，步骤S3包括：

单独地训练所述教师网络和所述学生网络，使用特征点损失函数L_P对网络参数进行优化，特征点损失函数L_P通过Wingloss损失函数计算，Wingloss损失函数如下表示:

其中，P∈R^1×2N是预测的人脸特征点坐标向量，G∈R^1×2N是真实的人脸特征点坐标向量，N是人脸特征点的数目，ω、∈是f(x)的预设参数。

在本发明一个实施例中，在步骤S4中，提取所述教师网络学习的深层暗知识，包括：

基于特征对齐的知识蒸馏方法提取特征图上的像素分布信息，对齐所述教师网络和所述学生网络特征图的像素分布，特征对齐的知识蒸馏损失函数为：

其中A和B分别是所述教师网络和所述学生网络在同一阶段的特征图，

是一个1×1的卷积层用于对齐A和B两个特征图的通道维度。

在本发明一个实施例中，在步骤S4中，将所述深层暗知识传递给所述学生网络，包括：

基于块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息，将人脸图像的结构化信息由所述教师网络传递给所述学生网络。

第二方面，本发明实施例还提供一种基于深度知识迁移的人脸特征点检测装置，包括：

提供模块，用于提供包含人脸特征点标注的人脸数据集，根据所述人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集；

输出模块；

控制处理模块，用于从所述训练集中获取训练样本，并从所述测试集中获取测试样本，将所述测试样本和所述训练样本输入到初始人脸对齐网络框架中；所述控制处理模块还用于设置卷积神经网络的参数，利用Pytorch训练所述初始人脸对齐网络框架中的教师网络和学生网络，直至损失函数和最大迭代次数满足预定条件时生成训练模型；所述控制处理模块还用于冻结教师网络的模型参数，提取所述教师网络学习的深层暗知识，将所述深层暗知识传递给所述学生网络，监督所述学生网络的训练过程生成最终人脸对齐网络模型；所述控制处理模块还用于将自然场景下的RGB人脸图像输入至所述最终人脸对齐网络模型中，通过所述输出模块输出人脸特征点检测结果。

第三方面，本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的基于深度知识迁移的人脸特征点检测方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，包含一个或多个程序指令，所述一个或多个程序指令用于被执行如第一方面所述的基于深度知识迁移的人脸特征点检测方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例提供的基于深度知识迁移的人脸特征点检测方法、装置及设备，采用EfficientFAN作为简单有效的轻量化模型，基于上采样与深度可分离卷积的解码器结构快速实现了特征图的上采样恢复过程，有效地保存了特征图的空间信息。

本发明与当前先进的大型复杂模型相比，可以达到可比的人脸特征点检测精度，但模型参数量和计算复杂度明显降低。

本发明使用知识蒸馏方法和知识迁移模块提高学生网络EfficientFAN人脸特征点定位的准确性，提出了块相似性知识蒸馏方法学习人脸多尺度的结构信息，结合特征对齐知识蒸馏学习特征图上的像素分布信息，共同监督和指导EfficientFAN的训练过程。在不改变网络结构和不增加模型参数的前提下，EfficientFAN通过知识迁移方法获得了更准确地人脸特征点检测结果。在公开数据集上的实验结果表明EfficientFAN是一个简单有效的人脸特征点检测网络，知识蒸馏方法有效地提升了人脸特征点检测的精度。二者结合之下，EfficientFAN具有相当优越的性能，精度与速度兼具。

附图说明

图1为本发明的基于深度知识迁移的人脸特征点检测方法的流程图。

图2为本发明的基于深度知识迁移的人脸特征点检测装置的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本发明的描述中，需要理解的是，术语“第一”和“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”和“连接”应做广义理解，例如可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1为本发明的基于深度知识迁移的人脸特征点检测方法的流程图。如图1所示，本发明的基于深度知识迁移的人脸特征点检测方法，包括：

S1：提供包含人脸特征点标注的人脸数据集，根据人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集。

具体地，步骤S1包括：

S1-1：提供WFLW数据集。该数据集开源于IEEE Conference on Computer Visionand Pattern Recognition 2018，共包含10000张图片(7500张训练图片和2500张测试图片)。每个图片标签提供了人脸框信息、98个人脸特征点位置信息以及6种属性信息(姿态、表情、光照、化妆、遮挡、模糊)，并且根据图像属性信息将整个数据集划分为6类子集。

S1-2：根据人脸数据集提供的人脸检测框对人脸图像进行裁剪，同时对人脸检测框进行扰动，对人脸图像施加随机旋转、尺寸缩放和翻转，以进行数据增强得到训练集、验证集和测试集。

S2：从训练集中获取训练样本，并从测试集中获取测试样本，将测试样本和训练样本输入到初始人脸对齐网络框架中。

具体地，教师网络采用编码器-解码器网络结构，使用EfficientNet-B7作为其编码器的主干部分。编码器用于对输入图像进行特征提取和编码，仅保留原始网络的特征提取部分，移除了最后的平均池化层以及用来分类的全连接层，还移除了最后一个升维的1×1卷积层并且从最后一个反向残差模块处提取特征。这一操作使得教师网络提取得到的特征图的通道数相比于经过1×1卷积层之后的特征图拥有更小的通道数(640vs.2048)，维持了更加原始的特征信息，不会因升维而丢失信息，低维的特征图也更适合解码器解析。

紧接在EfficientNet-B7的最后一个反向残差模块后添加解码器，对编码器提取的图像特征进行空间上采样，使用更自然的上采样方法提升特征图的空间维度，即利用上采样层与卷积层的组合替代反卷积，先使用一般的上采样方法对特征图进行空间上采样，之后在上采样的特征图基础上进行卷积运算丰富特征图的变换。

本发明使用三个上采样层与卷积层的组合作为人脸对齐网络的解码器，添加在编码器之后。网络模型中使用深度可分离卷积替代传统卷积运算，减少上采样过程中的计算量。

具体而言，上采样层的比例因子设定为2，即每个上采样得到的特征图长宽扩大为输入特征图的两倍，基于最近邻插值算法实现特征图的上采样。在解码器之后使用1×1的卷积层生成空间热力图，并将特征图的通道维数转换为人脸特征点的数量。使用空间softargmax运算在变换后的每张特征图上计算期望得到对应的人脸特征点坐标。

空间softargmax运算可以分为两步，第一步在输出特征图上使用softmax运算进行归一化，可表示为：

其中x，y是像素索引，exp表示指数函数，得到的M是归一化后的特征图。第二步，特征点l的坐标P最终可以表示为：

一个小型轻量化的学生网络，称为Efficient Face Alignment Network(EfficientFAN)，具有与教师网络相似的网络结构，将用于最终的人脸特征点检测。使用EfficientNet-B0作为学生网络EfficientFAN编码器的主干部分。与教师网络相同，学生网络的编码器也删除了EfficientNet-B0中最后的平均池化层和用于分类的全连接层，以及最后一个升维的1×1卷积层。

同样地，使用三个上采样层与卷积层的组合作为学生网络的解码器，添加在编码器之后。每个上采样层的比例因子为2，每个卷积层的输出通道数目为128。在学生网络的解码器之后添加了一个1×1的卷积层，将解码器上采样得到特征图的通道数从128转换为人脸特征点的数目。

最后使用空间softargmax运算在转换后的特征图上计算人脸特征点的坐标。

表1学生网络

学生网络的具体结构如表1所示，其中MBConv表示Efficient使用的手机端反向残差模块(Mobile Inverted Bottleneck)，DSConv表示深度可分离卷积，k代表卷积核的尺寸。

位于上方的教师网络和位于下方的学生网络通过知识迁移(KnowledgeTransfer)模块有机地联系在一起。

基于深度知识迁移的高效人脸对齐网络使用了两种知识蒸馏方法，以此将不同类型的暗知识由教师网络迁移给学生网络EfficientFAN。

特征对齐的知识蒸馏方法提取特征图上的像素分布信息，对齐教师网络和学生网络特征图的像素分布，使得学生网络的特征图分布向教师网络的分布靠近。

相应地，块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息，将人脸图像的结构化信息由教师网络传递给学生网络，使得简单的学生网络也能够学习到当前图像的人脸结构信息。

特征对齐蒸馏在教师网络和学生网络的同一阶段处对齐特征图的的通道维度，并直接比较教师网络特征图和对齐后的学生网络特征图之间的差异作为学生网络训练过程中的监督信息。

S3：设置卷积神经网络的参数，利用Pytorch训练初始人脸对齐网络框架中的教师网络和学生网络，直至损失函数和最大迭代次数满足预定条件时生成训练模型。

具体地，单独地训练教师网络和学生网络，仅使用特征点损失函数L_P对网络参数进行优化。特征点损失函数L_P通过Wing loss损失函数计算，Wing loss损失函数可以如下表示:

其中P∈R^1×2N是预测的人脸特征点坐标向量，G∈R^1×2N是真实的人脸特征点坐标向量，N是人脸特征点的数目。f(x)是一个特殊设计的损失函数，对于较小的误差，其表现为具有偏移量的对数损失函数；对于较大的误差，其表现为L1损失函数，ω、∈是f(x)的预设参数，

是一个常量。

S4：冻结教师网络的模型参数，提取教师网络学习的深层暗知识，将深层暗知识传递给学生网络，监督学生网络的训练过程生成最终人脸对齐网络模型。

具体地，特征对齐的知识蒸馏方法提取特征图上的像素分布信息，对齐教师网络和学生网络特征图的像素分布，使得学生网络的特征图分布向教师网络的分布靠近。特征对齐的知识蒸馏损失函数可以定义如下：

其中，A和B分别是教师网络和学生网络在同一阶段的特征图，

是一个1×1的卷积层用于对齐A和B两个特征图的通道维度。

块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息，将人脸图像的结构化信息由教师网络传递给学生网络，使得简单的学生网络也能够学习到当前图像的人脸结构信息。

为输入特征图构建不同尺度的关系图，并基于构建的关系图计算相似度矩阵。对于一个尺寸为H×W的特征图而言，可以按照不同尺寸的局部块对特征图区域进行划分。通常特征图的尺寸满足H＝W＝2ⁿ，以整幅特征图为连通域，基于不同尺寸的局部块为节点构建关系图，关系图中的节点可以设置为2^k×2^k，k＝0，1，…，k-1大小的局部块。一幅2ⁿ×2ⁿ的特征图构建的节点尺寸为2^k×2^k的关系图包含2^n-k×2^n-k个局部块或者关系节点。简单起见，使用平均池化操作将2^k×2^k的局部块聚合为1×1的关系图节点。对于一个通道数为的特征图，构建的关系图中第个节点向量化可以表示为f_i∈R^C。使用向量的余弦相似度计算关系图中节点之间的相似关系，第i个节点向量f_i和第j个节点向量f_j之间的相似度a_ij计算如下所示。

特别地，教师网络和学生网络在相同阶段的中间特征图具有相同的分辨率和不同的通道数。假设教师网络的特征图为A∈R^C×H×W，学生网络的特征图为B∈R^C′×H×W，在此特征图上以2^k×2^k大小的局部块为节点构建的亲和图中，节点数目为4^n-k，节点俩俩之间计算相似度关系可以得到一个4^n-k×4^n-k大小的相似度矩阵。令

表示教师网络特征图上以2^k×2^k大小的局部块为节点构建而成的关系图中第i个节点和第j个节点得到的余弦相似度，

表示学生网络对应的特征图上同样以2^k×2^k大小的局部块构建而成的关系图中第i个节点和第j个节点得到的余弦相似度，块相似性知识蒸馏方法的损失函数可以归纳如下，其中特征图的尺寸满足H＝W＝2ⁿ。

结合特征对齐知识蒸馏方法和块相似性知识蒸馏方法，引入知识迁移损失函数L_KT作为网络训练损失函数的一部分，监督学生网络的训练过程。学生网络不仅学***衡两个损失函数的影响，

和

分别是解码器第d阶段的块相似性知识蒸馏损失函数和特征对齐知识蒸馏损失函数。

S5：将自然场景下的RGB人脸图像输入至最终人脸对齐网络模型中，输出人脸特征点检测结果。

本发明实施例提供的基于深度知识迁移的人脸特征点检测方法，采用EfficientFAN作为简单有效的轻量化模型，基于上采样与深度可分离卷积的解码器结构快速实现了特征图的上采样恢复过程，有效地保存了特征图的空间信息。

图2为本发明的基于深度知识迁移的人脸特征点检测装置的结构框图。如图2所示，本发明的基于深度知识迁移的人脸特征点检测装置包括：提供模块100、输出模块200和控制处理模块300。

其中，提供模块100用于提供包含人脸特征点标注的人脸数据集，根据人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集。控制处理模块300用于从训练集中获取训练样本，并从测试集中获取测试样本，将测试样本和训练样本输入到初始人脸对齐网络框架中。控制处理模块300还用于设置卷积神经网络的参数，利用Pytorch训练初始人脸对齐网络框架中的教师网络和学生网络，直至损失函数和最大迭代次数满足预定条件时生成训练模型。控制处理模块300还用于冻结教师网络的模型参数，提取教师网络学习的深层暗知识，将深层暗知识传递给学生网络，监督学生网络的训练过程生成最终人脸对齐网络模型。控制处理模块300还用于将自然场景下的RGB人脸图像输入至最终人脸对齐网络模型中，通过输出模块输出人脸特征点检测结果。

需要说明的是，本发明实施例的基于深度知识迁移的人脸特征点检测装置的具体实施方式与本发明实施例的基于深度知识迁移的人脸特征点检测方法的具体实施方式类似，具体参见基于深度知识迁移的人脸特征点检测方法部分的描述，为了减少冗余，不做赘述。

另外，本发明实施例的基于深度知识迁移的人脸特征点检测装置的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的基于深度知识迁移的人脸特征点检测方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的基于深度知识迁移的人脸特征点检测方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。