CN110287846A

CN110287846A - 一种基于注意力机制的人脸关键点检测方法

Info

Publication number: CN110287846A
Application number: CN201910531637.6A
Authority: CN
Inventors: 王腾; 童心洁; 薛磊
Original assignee: Nanjing Yunzhi Control Industrial Technology Research Institute Co Ltd; Southeast University
Current assignee: Nanjing Yunzhi Control Industrial Technology Research Institute Co Ltd; Southeast University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-27
Anticipated expiration: 2039-06-19
Also published as: CN110287846B

Abstract

本发明公开了一种基于注意力机制的人脸关键点检测方法，该方法包括以下步骤：建立面向多分辨率输入的多通道特征提取网络结构；设计一个注意力模块，利用具有沙漏结构的特征融合网络，引入注意力机制，选择与任务相关的关键特征；将注意力模块输出的特征图经过残差模块，输出关键点位置信息。本发明所涉及的面向多分辨率输入的多通道特征提取网络，通过引入中继监督在降低网络深度的同时保证检测精度；本发明所涉及的注意力模块，通过引入注意力机制将特征不断聚焦到感兴趣区域，提高遮挡、大姿态下的人脸关键点检测精度。实验表明该发明可以有效克服大姿态、遮挡给精度带来的影响，解决网络深度与检测速度均衡难题。

Description

一种基于注意力机制的人脸关键点检测方法

技术领域

本发明涉及一种基于注意力机制的人脸关键点检测方法，属于图像处理技术领域。

背景技术

人脸关键点检测也称为人脸关键点定位或者人脸对齐，是指根据给定的人脸图像，标定出人脸的眉毛、眼睛、鼻子、嘴巴以及轮廓区域，在科学研究及实际应用中都受到广泛关注。例如，人脸姿态矫正、姿态识别、表情识别、疲劳监测、嘴型识别、人脸美妆等。现有的公开的常用人脸数据集有很多，例如WFLW(98点)、Helen(194点)、300W(68点)、IBUG(68点)、LFPW(29点)，AFLW(21点)等，可以直接用于人脸关键点检测算法的研究。

考虑到卷积神经网络具有强烈的特征表达能力，目前基于卷积神经网络的人脸关键点检测成为研究热点。基于卷积神经网络的人脸关键点检测任务可解释为一个非线性回归问题，用于学习原图与人脸关键点坐标之间的映射：输入一张RGB三通道的人脸图片，本质是输入一个大小为[W,H,3]的矩阵(其中W,H分别为人脸图片尺寸的宽和高)，输出一个维数为2L的向量[x₁,x₂,...,x_L,y₁,y₂,...,y_L]^T，其中L为关键点总数，(x_i,y_i),i∈{1,…L}为第i个关键点的坐标。人脸关键点的真实值由人工标注，主观性强，当关键点较为稠密时，相邻坐标点的数据将十分接近，直接增加了关键点的定位难度。针对上述困难，目前基于神经网络的关键点检测算法将关键点坐标转化为热力图形式，输出每个关键点的似然区域特征图。上述算法可提高检测精度，但是会相应提高网络的复杂度，影响检测算法的速度。另外，现有算法在遮挡，大姿态人脸关键点检测方面表现不佳。

因此，目前在这些数据集上的人脸特征点检测领域仍然存在以下问题：1)无法有效解决大姿态、遮挡、低分辨率下的人脸关键点检测；2)人脸关键点检测精度与速度不能兼顾。

发明内容

针对上述问题，本发明提供一种基于注意力机制的人脸关键点检测方法，是一种基于卷积神经网络的人脸关键点检测方法，一定程度上克服原始图像遮挡、姿态、低分辨率等问题给精度带来的影响，同时保持算法的实时性要求。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于注意力机制的人脸关键点检测方法，包括如下步骤：

步骤(1)：针对一张原始图片，使用数据集提供的人脸检测框对原始图片中的人脸区域进行剪裁，并归一化为256×256×3px，再对归一化后的图像进行数据增强，得到训练样本；

步骤(2)：针对高分辨率通道，使用ResNet18的conv1_x至conv3_x对训练样本进行特征提取，输出一个大小为128×32×32的特征图F；

步骤(3)：针对低分辨率通道，先将训练样本降采样为64×64×3px，再使用ResNet50的conv1_x至conv3_x对降采样后的训练样本进行特征提取，输出一个低精度的关键点热力图M，大小为L×32×32，其中L为关键点的个数；

步骤(4)：将特征图F与低精度的关键点热力图M一同输入到注意力模块中，该模块包含一个具有沙漏结构的特征融合网络，注意力模块的输出H经过一个残差层BottleNeck模块和一个3×3的卷积模块，获得高精度的关键点热力图；

步骤(5)：采用坐标变换，将高精度的关键点热力图转化为关键点坐标，并将提取到的关键点坐标映射回原始图片，完成关键点的检测。

作为本发明的进一步技术方案，步骤(1)中的增强方式包括随机旋转、水平翻转、高斯模糊、调整亮度以及调整对比度。

作为本发明的进一步技术方案，所述步骤(4)的具有沙漏结构的特征融合网络的融合机制为：

其中，为矩阵连接操作，为对应元素相乘操作；为特征融合网络输入到输出的映射；经过特征映射后，得到特征值范围为-1～1的权重特征图W；在特征融合网络输出层引入tanh激活函数，tanh激活函数即双曲正切函数；H为注意力模块输出的特征图。

作为本发明的进一步技术方案，所述步骤(5)的关键点热力图转化为关键点坐标的步骤为：

其中，Δ＝0.25，为热力图中最大值所在位置坐标，为次最大值的坐标位置；

根据下式将映射回原始图片，得到最终坐标

其中(x₁,y₁)和(x₂,y₂)分别为人脸检测框在原始图片上的左上角和右下角的坐标值。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、提出面向多分辨率输入的多通道特征提取网络，提高网络的宽度，解决网络深度与检测速度均衡难题：采用多通道并行的方式，同时引入中继监督，对每个通道进行监督训练，防止输出层误差经过多层反向传播的梯度消失。基于这种设计思路，网络的层数不需要很复杂就可以实现高精度的关键点检测，可以降低模型的参数量，保持检测速度；中继监督的结构可以保证底层参数正常更新；

2、提出面向注意力机制的特征融合结构，有效提取特征图中的关键点区域，解决遮挡、姿态等困难样本的训练问题：设计的特征融合网络是一个对称的沙漏结构，可以有效保持高层语义信息和底层特征(纹理、颜色、形状等)，同时通过在输出层引入tanh激活函数，输出一个特征值范围为-1～1的权重特征图，利用注意力机制对关键点似然区域进行提取，一定程度克服图像遮挡、姿态等带来的影响，保证检测的精度；

3、本发明提供了一种精确度高，检测速度快的人脸关键点检测模型，有效提高大姿态、遮挡、低分辨率下的人脸关键点检测精度，超过了目前相关领域绝大部分主流算法的精度和速度。

附图说明

图1是本发明的人脸关键点检测算法流程图；

图2是本发明的神经网络训练及测试流程图；

图3是本发明面向关键点检测的神经网络整体框架；

图4是本发明使用的残差模块结构图，其中，(A)是Basic Block，(B)是BottleNeck；

图5是本发明的低分辨率通道热力图预测的神经网络结构图；

图6是本发明的神经网络训练策略示意图；

图7是本发明的注意力模块；

图8是本发明的沙漏结构特征融合网络结构图；

图9是本发明的激活函数Tanh的示意图；

图10是本发明的神经网络中间过程可视化示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1～图10所示，本发明给出一种基于注意力机制的人脸关键点检测方法，包括如下具体步骤：

步骤(1)：如图1所示，根据步骤S101～S102，根据数据集中给出的人脸检测框，对原始图像进行裁剪，并将剪裁后的图片归一化为256×256×3px，并进行数据增强，得到训练样本。其中，增强方式主要包括随机旋转(-30°～30°)、水平翻转(50％的概率)、高斯模糊、调整亮度、调整对比度。

步骤(2)：本发明的主网络均使用残差网络(ResNet)，并使用官方提供的预训练模型进行初始化，因此更容易优化。残差网络的结构解决了增加深度带来的副作用(退化问题)。

如图3所示，针对低分辨率通道，根据步骤S104，对训练样本进行降采样，降采样的操作为对256×256×3px的样本进行两次maxpool，卷积核大小为3×3，步长为2，输出降采样后的样本，尺寸为64×64×3px；使用ResNet50的conv1_x至conv3_x对降采样样本进行训练，共计21层，并设计一个损失函数用来监督特征图的训练。

具体的网络参数配置如表1所示：

表1网络参数配置

其中，对conv1_x，卷积操作的参数分别表示卷积核的大小(7×7)，通道数(64)以及步长(stride＝2)；对conv2_x，第一层maxpool为池化层，卷积核的大小为3×3，步长为2；第二层为三个残差模块(BottleNeck，如图4-(B)所示)，每个残差模块中，卷积核的大小分别为1×1，3×3，1×1，通道数分别为64，64，256；对conv3_x，包含四个残差模块(BottleNeck，如图4-(B)所示)，每个残差模块中，卷积核的大小为分别为1×1，3×3，1×1，通道数分别为128，128，512。另外，每个卷积操作之后都会经过一个ReLU激活函数以及Batch Normalization正则化层。最终，conv2_x将输出一个大小为256×16×16的特征图，conv3_x将输出一个大小为512×8×8的特征图，将两个特征图输入如图5所示的神经网络结构，对热力图进行估计。设计中继监督，采用L2loss对网络结构进行监督训练。设计损失函数为L2函数，假设特征点的个数为L，X_i为预测值，为真实值，具体数学表达式为：

训练过程中，采用Adam算法即自适应时刻估计方法(Adaptive MomentEstimation)进行梯度下降，训练策略如图5所示。最终输出的热力图的大小为L×32×32。

步骤(3)：如图3所示，针对高分辨率通道，根据步骤S103，使用ResNet18的conv1_x至conv3_x对样本进行特征提取，共9层，具体的网络参数配置如表2所示：

表2网络参数配置

其中，对conv1_x，卷积操作的参数分别表示卷积核的大小(7×7)，通道数(64)以及步长(stride＝2)；对conv2_x，第一层maxpool为池化层，卷积核的大小为3×3，步长为2；第二层为两个残差模块(Basic Block，如图4-(A)所示)，每个残差模块中，卷积核的大小为3×3，通道数为64；对conv3_x，包含两个残差模块(Basic Block，如图4-(A)所示)，每个残差模块中，卷积核的大小为3×3，通道数为128。另外，每个卷积操作之后都会经过一个ReLU激活函数以及Batch Normalization正则化层。最终，将输出一个大小为128×32×32的特征图。

步骤(4)：如图7所示，根据步骤S105，将高分辨率通道与低分辨率通道的输出作为注意力模块的输入，其中高分辨率通道的输出为大小为128×32×32的特征图F，低分辨率通道的输出为L×32×32的低精度热力图M。通过连接操作，将F与M一同输入到如图8所示的具有沙漏结构的特征融合网络，网络参数设计如表3所示，其中，每个卷积操作之后都会经过一个ReLU激活函数以及Batch Normalization正则化层。

表3网络参数设计

由图7可知，本结构设计主要借助于注意力机制的思想，利用低分辨率通道的输出的M提高F中对应位置的权值，使得网络的学习更加集中于关键点的似然区域。

具有沙漏结构的特征融合网络的融合机制为：

其中，为矩阵连接操作，为对应元素相乘操作；为特征融合网络的输入到输出的映射，该特征融合网络拥有对称结构，可以有效保持浅层特征与高层语义信息。为实现以零为中心的非线性映射在特征融合网络输出层引入tanh激活函数。经过特征映射后，得到特征值范围为-1～1的权重特征图W。tanh激活函数即双曲正切函数，表达式为：

该函数的绘制如图9所示，该函数是一个奇函数，其函数图像为过原点并且穿越Ⅰ、III象限的严格单调递增曲线，其图像被限制在两水平渐近线y＝1和y＝-1之间。因此，在经过tanh激活函数之后，针对原始的特征图F，融合注意力机制，权重特征图W将对应位置的权重进行增强或削弱，筛选出与任务相关的图像特征,并与F进行连接，以保证原图中其他有效信息不丢失，获得注意力模块的输出H，将H经过一个残差层BottleNeck模块和一个3×3的卷积模块，获得最终的热力图。

步骤(5)：特征融合的过程可视化示意图如图10所示，图10-(A)为原图经过低分辨率通道降采样，并使用ResNet50对关键点进行粗略预测所生成的低精度关键点热力图，可以看出，由于输入样本的参数量小(64×64×3px)，对关键点的预测并不是十分精确，但是这个粗略的关键点热力图可以有效提取出关键点似然区域；图10-(B)为原图经过高分辨率通道的ResNet18进行特征提取得到的特征图，由于原图的眼睛和眉毛区域被墨镜所遮挡，特征图无法正确反映眼睛与眉毛的轮廓。然而，经过将10-(B)中的特征图与10-(A)中低分辨率通道的低精度热力图融合，特征图中眉毛与眼睛似然区域的权重提高(如图10-(C)所示)，有效辅助了网络对困难样本的关键点检测。

如图2所示，针对网络的最终输出的特征图，设计损失函数为L2函数，假设特征点的个数为L，X_i为预测值，为真实值，具体数学表达式为：

测试阶段流程如图2所示，根据步骤S106，将最终生成的关键点热力图(如图10-(D)所示)转化为关键点坐标，由于最终生成的热力图大小为L×32×32，转化的原则为提取每张热力图(大小为32×32)中最大值所在位置为关键点的坐标位置，共L张；由于网络输入的样本是根据人脸框剪裁之后的人脸图片，需要将提取到的关键点坐标映射回原图片。

当输入大小为256×256时，热力图的大小为32×32，即为原图大小的1/8时，提取坐标值的步骤如下：

步骤5-1：对网络输出的热力图进行高斯模糊；

步骤5-2：在热力图中提取最大值所在位置坐标和次最大值的坐标位置

步骤5-3：设置超参数Δ＝0.25，根据下式计算得到热力图中的坐标

步骤5-4：根据热力图中的坐标根据下式将映射回原始图片，得到最终坐标

其中(x₁,y₁)和(x₂,y₂)分别为人脸框在原始图片上的左上角和右下角的坐标值。

本发明利用公开数据集300W进行训练，并验证设计方法的可行性。300W数据集的使用协议为：训练集使用AFW全体数据集，HELEN训练集以及LFPW训练集，共计3148张；测试集为HELEN测试集，LFPW测试集以及IBUG数据集，共计689张，其中HELEN测试集与LFPW测试集被称为简单测试集，共计554张，IBUG数据集被称为困难测试集。300W的每个样本包含68个特征点，其中包括轮廓点17个，左右眉毛各5个点共计10个点，左右眼睛各6个点共计12个点，鼻子9个点以及嘴巴20个点，该数据集的人脸特征点较为稠密，可以利用特征点对人脸图像进行美颜、换脸、姿态矫正等操作。

步骤(6)：在300W测试集上进行测试，测试集全集(Full)主要构成为HELEN测试集，LFPW测试集以及IBUG数据集，共计689张，其中HELEN测试集与LFPW测试集被称为简单测试集(Common)，共计554张，IBUG数据集被称为困难测试集，共计135张(Challenge)。测试协议使用外眼角距离(inter-ocular)为归一化标准，定义测试集的误差率为:

其中，样本数为N，特征点的个数为L，X_i为预测值，为真实值，dist_i为第i个样本的外眼角距离。最终本发明的测试误差如表4所示(单位：×10^-2)：

表4测试误差

使用一张GPU(型号为NVIDIA Tesla V100 PCI-E)，测试速度约为每秒100帧。一般的视频为24～30帧，因此本发明的测试速度完全可以应用于实时的视频关键点检测中。

综上所述，本发明提供了一种精确度高，检测速度快的人脸关键点检测模型，有效提高大姿态、遮挡、低分辨率下的人脸关键点检测精度，超过了目前相关领域绝大部分主流算法的精度和速度。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于注意力机制的人脸关键点检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于注意力机制的人脸关键点检测方法，其特征在于，步骤(1)中的增强方式包括随机旋转、水平翻转、高斯模糊、调整亮度以及调整对比度。

3.如权利要求1所述的一种基于注意力机制的人脸关键点检测方法，其特征在于，所述步骤(4)的具有沙漏结构的特征融合网络的融合机制为：

4.如权利要求1所述的一种基于注意力机制的人脸关键点检测方法，其特征在于，所述步骤(5)的关键点热力图转化为关键点坐标的步骤为：

根据下式将映射回原始图片，得到最终坐标