CN112699847B

CN112699847B - 基于深度学习的人脸特征点检测方法

Info

Publication number: CN112699847B
Application number: CN202110056324.7A
Authority: CN
Inventors: 黄鹤; 黄迎
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-12-07
Anticipated expiration: 2041-01-15
Also published as: CN112699847A; WO2022151535A1

Abstract

本发明公开了一种基于深度学习的人脸特征点检测方法，包括：S1.输入一张待检测的彩色图像，通过图像预处理将彩色图像进行裁剪、缩放；S2.将预处理后的图像经过特征提取后输入到堆叠注意力沙漏网络中，得到特征点的热力图；S3.所述堆叠注意力沙漏网络输出的热力图通过softargmax进行操作，得到的结果即人脸特征点检测的输出结果。本发明的有益效果：提出的基于深度学习的人脸特征点检测***通过堆叠注意力沙漏网络可以得到更高的检测准确率及更强的鲁棒性，从而表现出超越其它相关***的准确性和稳定性，且端到端的回归方式具有更少的计算量及更高的运算效率。

Description

基于深度学习的人脸特征点检测方法

技术领域

本发明涉及人脸特征点检测领域，具体涉及一种基于深度学习的人脸特征点检测方法。

背景技术

近年来，以深度学习为代表的人工智能技术为各个行业带来了巨大的变革，尤其在计算机视觉领域更是大放异彩。人脸特征点标示了人脸重要器官的位置，例如眼睛、鼻子和嘴巴等，特征点的位置信息在一定程度上表示了人脸的几何结构，同时去除了原始图片中的无关信息，因此人脸特征点定位是人脸识别、表情分析、人脸3D重构等众多人脸相关应用的重要基础。因此研究实现基于深度学习的人脸特征点检测符合当下的研究趋势，近年来逐渐发展成为视觉领域的一项基础研究课题。

人脸特征点定位，即搜寻人脸区域上具有重要语义的特征点的位置，如眼睛、鼻子和嘴巴等，近年来针对人脸特征点检测的研究已经取得了巨大的进展，但是人脸特征点检测过程中可能会遇到光照情况不佳、表情变化、姿态偏转、遮挡等情况，对特征点检测有较大影响，很多现有算法的特征点定位准确度出现了较大幅度的下降。因此，复杂场景下的人脸特征点检测仍然面临较大的挑战。

在人脸特征点检测过程中，根据原理类型可分为基于人脸模型的方法、基于形状回归的方法以及近年来基于深度学习的方法。早期的研究工作大多集中于生成式算法模型的研究，代表性的方法为主动形状模型和主动表征模型，这类方法分别为人脸表征和人脸形状建立统计模型，例如主成分分析模型，然后将两者结合为一个整体的统计模型，通过优化模型参数使得生成的人脸表征最接近于测试人脸。上述生成式模型存在的两个主要局限在于特征的鲁棒性较弱，模型的表达能力有限，难以达到较高的准确度。回归算法将人脸特征点定位课题视为一个回归问题，该问题的输入为形状索引特征，经过回归器(诸如线性回归器、随机森林、随机厥等)之后，输出当前形状的更新量从而完成一次形状更新，经过多次迭代之后直至收敛。然而回归方法对表情、姿态、遮挡等因素也比较敏感，难以达到理想的准确度。

近年来基于深度学习的人脸特征点检测算法发展迅速，与传统方法相比，深度学习利用卷积神经网络进行多层次的特征提取，通过设计合适的网络结构及损失函数回归人脸特征点的坐标，准确度上有了较大的提升，但当面部存在部分遮挡时，深度学习模型可能很难提取关键的面部特征，从而影响检测的准确性。基于深度学习的方法按照回归类型可分为坐标回归及热力图回归，坐标回归即直接回归坐标点，输出即为特征点坐标，训练和前向速度可以很快，且是端到端的全微分训练，但是缺乏空间泛化能力，丢失了特征图上面的空间信息，且全连接方式所得权重严重依赖于训练数据的分布，非常容易造成过拟合。热力图回归即输出预测特征点的热力图，热力图由全卷积神经网络(FCN)得到，与传统卷积神经网络(CNN)的核心区别在于全卷积神经网络将卷积神经网络末尾的全连接层转化成了卷积层，由于其输出特征图较大，空间泛化能力较强，精度通常高于坐标回归，但是训练和前向计算速度较慢，内存消耗较大，且不是端到端的方式，导致学习出来的结果出现偏移。

现有的人脸特征点检测方法的缺点主要有：

1.检测到的人脸特征点的位置准确度不够高，所得坐标点与真实坐标点存在较大的偏差；

2.对遮挡、光照等复杂环境影响比较敏感，稳定性较差，鲁棒性较弱；

3.基于深度学习的网络模型较复杂，参数量及计算量较大。

发明内容

本发明要解决的技术问题是提供一种基于深度学习的人脸特征点检测方法，可以得到更高的检测准确率。

为了解决上述技术问题，本发明提供了一种基于深度学习的人脸特征点检测方法，包括：S1.输入一张待检测的彩色图像，通过图像预处理器将彩色图像进行裁剪、缩放；S2.将预处理后的图像经过特征提取后输入到堆叠注意力沙漏网络中，得到特征点的热力图；S3.所述堆叠注意力沙漏网络输出的热力图通过softargmax进行操作，得到的结果即人脸特征点检测的输出结果。

在其中一个实施例中，其中步骤S2的具体流程为：

S2-1.将预处理过后的图像经过卷积网络层和池化网络层进行特征提取，得到特征图，将此特征图输入到第一阶注意力沙漏网络中；

S2-2.所述注意力沙漏网络存在上下两个分支，在下分支中，卷积层和最大池化层用于降低特征图的分辨率，在达到最低分辨率后，所述注意力沙漏网络开始进行较低分辨率的最近邻上采样，沙漏的拓扑结构是对称的，因此对于下分支上存在的每个层，都会出现相应的上采样层；在上分支中，特征图通过空间注意力残差单元与下分支中经过上采样后的特征图进行逐像素的特征融合；

S2-3.在达到网络的输出分辨率之后，应用卷积层来产生预测特征点的热力图，对于给定的热力图，网络预测特征点在每个像素处存在的概率；

S2-4.将两个沙漏网络端到端地级联在一起来扩展单个沙漏网络；在沙漏网络的堆叠过程中，引入通道注意力分支网络，通过建模各个特征通道的重要程度，对不同通道进行增强或者抑制，并与主干网络进行残差连接，再与原始特征图进行融合，以此作为下一阶沙漏网络的输入；

S2-5.每个子沙漏网络都会输出一个热力图，将每一个输出热力图都参与到损失函数的反向传播。

在其中一个实施例中，在步骤S2-1中，首先使用卷积层提取图像特征，然后通过一个残差块和一个用于下采样的最大池化层，接着再通过两个残差块最终得到特征图；其中，残差块使用的是瓶颈残差块，所述残差块的残差函数为

x_n+1＝x_n+F(x_n,W_n)，

其中F(x_n,W_n)是残差部分，由三个卷积操作构成。

在其中一个实施例中，在步骤S2-2中，所述注意力残差单元是一种融入了空间注意力机制的残差块，该单元由两部分并联构成：第一部分为瓶颈残差块；第二部分为空间注意力模块，该空间注意力模块采用空间可分离卷积的方式，将原通道数C一分为二进行卷积；将融合后的特征图通过sigmoid函数进行归一化得到H*W*1的权重图，然后与大小为H*W*C的原特征图相乘，赋予每个像素不同的权重；将第一部分与第二部分逐元素相加最终得到注意力残差单元的输出；注意力残差单元可表示为：

x_n+1＝x_n+F(x_n,W_n)+x_nS(x_n,W_n)

其中，x_n为输入特征图，x_n+1为输出特征图，x_n+F(x_n,W_n)表示瓶颈残差块，x_nS(x_n,W_n)表示空间注意力模块。

在其中一个实施例中，在步骤S2-4中，将步骤S2-3中得到的预测热力图经过一个卷积恢复至与主干网络相同的通道数，接着通过SEnet网络得到每一个通道的权重，然后与主干网络相乘得到具有不同通道权重的特征图；借鉴残差网络中恒等映射的思想，添加一个残差连接，用这种残差结构进行堆叠，堆叠过程可表示为：

X_i+1(x)＝X_i(x)+(1+C_i(x))T_i(x)

其中，X_i(x)代表第i阶沙漏网络的输入；C_i(x)代表分支网络的输出；T_i(x)代表主干网络的输出；得到下一阶的输入后，重复步骤S2-2、S2-3，得到下一阶的预测热力图。

在其中一个实施例中，在步骤S3中，将步骤S2中得到的预测热力图H＝{H₁,H₂,···,H_N}转化为对应的坐标点位置L＝{L₁,L₂,···,L_N}，通过softargmax操作计算特征点坐标，即L_n＝softargmax(H_n)，通过结合softmax函数，达到取最大值的目的，同时使得过程可导，其中，softargmax操作的具体流程为：

S3-1.将得到的预测热力图乘以系数β；

S3-2.对S3-1得到的热力图进行softmax归一化操作，softmax函数定义为：

S3-3.寻找最大值的索引值，其中，x坐标与y坐标分别计算；将归一化后的向量乘以索引值向量并进行累加，值越大，其索引值的权重也越大，因此得到的结果即为特征点的坐标值，即softargmax定义为：

在其中一个实施例中，所述堆叠注意力沙漏网络训练过程中采用一种鲁棒性可变的损失函数，所述损失函数定义为：

b＝|α-2|+ε

其中，x指预测值与真实值的差，ω＞0用来控制损失函数的幅度大小，α∈R用来控制损失函数的鲁棒性，c＞0用来控制损失函数在x＝0附近的形状，ε是一个非常小的数。

基于同样的发明构思，本申请还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

本发明提出的基于深度学习的人脸特征点检测***通过堆叠注意力沙漏网络可以得到较高的检测准确率，从而表现出超越其它相关***的准确性。

附图说明

图1是本发明基于深度学习的人脸特征点检测方法中的人脸特征点检测***网络结构示意图。

图2是本发明基于深度学习的人脸特征点检测方法中的空间注意力残差单元结构图。

图3为本发明基于深度学习的人脸特征点检测方法中的通道注意力分支网络结构图。

图4为本发明基于深度学习的人脸特征点检测方法中的可变鲁棒性损失函数及其梯度图，其中ω＝1，c＝0.5。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在热力图回归网络中，堆叠沙漏网络是一种运用最普遍、效果较好的一种全卷积网络结构，这种网络结构可以获得更大的感受野且能够利用多尺度信息，同时通过跳跃层的连接能够有效避免因不断上采样及下采样而产生的位置信息丢失的问题，但是非端到端的回归方式会存在位置偏差。本发明堆叠注意力沙漏网络中的空间注意力残差单元及通道注意力分支网络能够使网络更加关注特征点附近的区域，忽略无关信息，从而使网络具有更高的效率；可变鲁棒性损失函数通过参数控制检测***的鲁棒性，能够有效减小异常值带来的影响，从而使***具有较强的鲁棒性及稳定性；通过端到端的方式直接进行坐标点的回归，大大减少了模型的计算量和计算时间，且能有效避免热力图回归的坐标点偏移问题；仅使用二阶沙漏网络，没有使用任何额外信息及辅助网络，结构简单，参数量少。

本发明提出的基于深度学习的人脸特征点检测***构建了一种堆叠注意力沙漏网络，并使用鲁棒性可变的损失函数，从而实现了特征点坐标的准确定位，并增强了特征点检测的稳定性和鲁棒性。图1给出了整个网络的结构示意图，具体流程为：

S1.输入一张待检测的彩色图像，通过图像预处理器将其缩放到尺寸为256*256的图像；

S2.将缩放后的图像经过特征提取后输入到堆叠注意力沙漏网络中，得到特征点的热力图；

S3.堆叠注意力沙漏网络输出的热力图通过softargmax操作得到的结果就是人脸特征点检测的输出结果。

其中步骤S2的具体流程为：

S2-1.将预处理过后的256*256的图像经过卷积、池化等网络层进行特征提取，得到64*64*256的特征图，将此特征图输入到第一阶注意力沙漏网络中；

S2-2.沙漏网络存在上下两个分支，在下分支中，卷积层和最大池化层用于降低特征图的分辨率，在达到4*4最低分辨率后，网络开始进行较低分辨率的最近邻上采样，沙漏的拓扑结构是对称的，因此对于下分支上存在的每个层，都会出现相应的上采样层；在上分支中，特征图通过空间注意力残差单元(SAR unit)与下分支中经过上采样后的特征图进行逐像素的特征融合。这样将特征图不断融合后，得到最后一层的特征图既保留了所有层的信息，又和输入大小一致。

S2-3.在达到网络的输出分辨率之后，应用卷积层来产生预测特征点的热力图，对于给定的热力图，网络预测特征点在每个像素处存在的概率。

S2-4.将两个沙漏网络端到端地级联在一起来扩展单个沙漏网络。在沙漏网络的堆叠过程中，引入通道注意力分支网络(CAB)，通过建模各个特征通道的重要程度，对不同通道进行增强或者抑制，并与主干网络进行残差连接，再与原始特征图进行融合，以此作为下一阶沙漏网络的输入，从而能够更好地引导下一阶沙漏网络。

S2-5.每个子沙漏网络都会输出一个热力图，将每一个输出热力图都参与到损失函数的反向传播中能够起到中间监督的作用，不仅能够使网络在变得更深的情况下更好地收敛，而且预测准确度要远远好于只考虑最后一个沙漏输出的热力图；

在步骤S2-1中，首先使用一个7*7的卷积层提取图像特征，由256*256*3的图像得到128*128*64的特征图；然后通过一个残差块和一个下采样的最大池化层，接着再通过两个残差块最终得到64*64*256的特征图，这也是沙漏网络所需要的输入特征图大小。其中残差块使用的是瓶颈残差块(bottleneck)，其残差函数为

x_n+1＝x_n+F(x_n,W_n)，

其中F(x_n,W_n)是残差部分，由三个卷积操作构成，目的是为了防止在特征提取过程中信息丢失，且在较深的网络中，能有效解决梯度***和梯度消失的问题。

在步骤S2-2中，注意力残差单元是一种融入了空间注意力机制的残差块，其结构如图2所示，该单元由两部分并联构成：第一部分为瓶颈残差块；第二部分为空间注意力模块。

该空间注意力模块采用空间可分离卷积(SSC)的方式，将普通的3*3卷积替换为连续的1*3和3*1卷积，并利用“分合”思想,将原通道数C一分为二进行卷积，然后再逐像素相加进行融合,这种方式不仅能够减少参数量，而且计算量也大大减少。将融合后的特征图通过sigmoid函数进行归一化得到H*W*1的权重图，然后与大小为H*W*C的原特征图相乘，赋予每个像素不同的权重。将第一部分与第二部分逐元素相加最终得到注意力残差单元的输出。通过这种方式，不仅能够增加感受野，更好地获取全局信息，并能够在保留原有信息的基础上更加关注关键点区域信息，赋予其更高权重，同时忽略无关区域。注意力残差单元可表示为：

x_n+1＝x_n+F(x_n,W_n)+x_nS(x_n,W_n)

在步骤S2-3中，先经过一个残差块，然后通过两个1*1卷积得到第一阶沙漏网络的预测热力图。

在步骤S2-4中，将步骤S2-3中得到的预测热力图经过一个1*1卷积恢复至与主干网络相同的通道数，接着通过SEnet网络得到每一个通道的权重(SEnet由全局池化层、全连接层、ReLU层、全连接层、Sigmoid层组成)，然后与主干网络相乘得到具有不同通道权重的特征图。借鉴残差网络中恒等映射的思想，添加一个残差连接，这样的加法，不会使特征图的输出响应变弱，注意力分支输出的特征图也不会破坏主干分支的优点，使得主干分支输出的特征图中显著的特征更加显著，增加了特征的判别性。用这种残差结构进行堆叠，就能够很容易地使模型的深度达到很深的层次，从而具有很好的性能。堆叠过程可由表示为：

X_i+1(x)＝X_i(x)+(1+C_i(x))T_i(x)

其中，X_i(x)代表第i阶沙漏网络的输入；C_i(x)代表分支网络的输出；T_i(x)代表主干网络的输出。得到下一阶的输入后，重复步骤S2-2、S2-3，得到下一阶的预测热力图。

在步骤S3中，将步骤S2中得到的预测热力图H＝{H₁,H₂,···,H_N}转化为对应的坐标点位置L＝{L₁,L₂,···,L_N}，传统做法就是寻找热力图上的最大值，其坐标就是特征点的位置坐标，即argmax操作。然而argmax操作是一个不可微的过程，这就导致网络无法端到端的进行训练，只能通过热力图进行回归，不仅计算量较大，而且还会出现位置偏移。因此，我们通过softargmax操作计算特征点坐标，即L_n＝softargmax(H_n)，通过结合softmax函数，达到取最大值的目的，同时使得过程可导，所以可以直接使用得到的坐标计算损失函数，训练和前向计算速度可以很快。

softargmax操作的具体流程为：

S3-1.将得到的预测热力图乘以系数β，因为最大值的概率不够大，与其他值差距不明显，增大最大值而减弱其它值的影响可以得到更加准确的位置坐标。

S3-3.寻找最大值的索引值(x坐标与y坐标分别计算)。将归一化后的向量乘以索引值向量并进行累加，值越大，其索引值的权重也越大，因此得到的结果即为特征点的坐标值。因此，softargmax定义为：

整个人脸特征点检测***需要先在标注好的数据集上进行训练才可以用于实际测试和使用。具体的训练步骤为：

提取人脸图像：

一张图像可能包含多张人脸，但只对其中一张人脸进行标注，标注含有特征点的位置坐标及人脸的包围盒，为了更好地评估人脸特征点检测的性能，需要利用提供的包围盒裁剪人脸区域，由于提供的包围盒不是非常精确，为了保证裁剪过程中所有特征点都保留完整，因此将包围盒扩充10％后再进行裁剪，并将裁剪后的人脸图像大小改为256*256。

数据增强：

在得到256*256大小的人脸图像后，需要对其进行数据增强操作，数据增强也叫数据扩增，意思是在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值，主要用来防止过拟合。数据增强的具体过程为：

(1)旋转，以图像中心为旋转中心，随机旋转一定角度，取旋转角度范围为(-30,30)；

(2)缩放，缩放因子为(0.9,1.2)内的随机数；

(3)平移，将图像分别进行上下和左右平移，平移距离在图像大小的10％范围内。

(4)水平翻转，将图像通过中心轴左右翻转，不上下翻转的原因是在现实生活中所遇到的人脸图像几乎没有倒立的人脸，因此对训练数据集上下翻转无法起到数据增强的效果。

(5)加入高斯噪声，其中取高斯矩阵的长与宽为5，标准差为1。

将数据增强后的图像输入网络，能够有效的避免过拟合，需要注意的是，当对图像进行各种数据增强操作时，其对应的特征点标签需要同步变换。

训练过程：

训练过程本质上是特征点位置坐标的回归过程，由于受遮挡、光照等复杂环境的影响，人脸特征点检测对鲁棒性有着很高的要求，较强的鲁棒性是指模型受异常值的影响较小，而传统的均方差损失函数的一个关键特征是它对大误差的灵敏度比小误差高，偏向于减少最大的误差。但是优化问题应该要求模型受到正常点的影响要大于异常点。因此，本发明使用一种鲁棒性可变的损失函数，如图4所示，函数可以定义为：

b＝|α-2|+ε

其中，x指预测值与真实值的差，ω＞0用来控制损失函数的幅度大小，α∈R用来控制损失函数的鲁棒性，c＞0用来控制损失函数在x＝0附近的形状，ε是一个非常小的数，通常取ε＝10^-5。

该损失函数鲁棒性可变是因为不同的α取值对应不同的损失函数：

如图4所示，对于所有α值，当|x|＜c时，损失函数的导数近似线性，因此小差值的影响总是与该差值的大小成线性比例。当α＝2时，该损失函数接近于L₂损失，梯度始终与差值大小成正比；当α＝1时，该损失函数接近于L₁损失，|x|＞c时，梯度保持不变；当α＝0时，该损失函数接近于Cauchy损失；当α＝-2时，该损失函数接近于Geman-McClure损失；当α无限小时，该损失函数接近于Welsch损失，较大差值的梯度趋于零。因为α是一个连续的参数，因此该损失函数不仅是多种经典鲁棒性损失函数的集合，同时也包含了更广泛的损失函数，且随着α的减小，大差值的影响也逐渐减小，当α无限小时，大差值的影响几乎为零。因此，赋予α一个初始值，然后在优化的过程中逐渐减小α，能够有效避免训练后期损失函数受异常值主导，从而增强特征点检测的鲁棒性及稳定性。在训练过程中，当取ω＝10，c＝0.05时，准确度最高，其中α的初始值设置为α＝1.0，并每隔10次迭代减小0.025，直至α＝0.5。

经过训练，模型能够较精确地检测到人脸的特征点。通过对各种情况下的人脸进行测试，可以发现，即使在遮挡、偏转等条件下，本发明所提出的深度学习模型也能够精确地预测出人脸的特征点。

本发明的关键点如下：

1.构建了空间注意力残差单元(SAR unit)代替原来堆叠沙漏网络中的跳跃层，在保留原分辨率空间信息的基础上，赋予特征点相关区域更大的权重。在空间注意力残差单元中，采用空间可分离卷积来获取不同像素的权重，参数量及计算量大大减少。

2.在沙漏网络的堆叠过程中，引入通道注意力分支网络(CAB)，对不同通道进行增强或者抑制，并与主干网络进行残差连接，不仅增强了主干分支输出特征图的判别性，而且能够很容易地加深模型的深度。

3.使用一种可变鲁棒性损失函数，通过连续参数α来控制损失函数的鲁棒性，不仅是许多常见鲁棒损失函数的集合，而且可以调整α以模拟更广泛的损失函数，使***具有较强的鲁棒性。

4.训练过程中，鲁棒性参数α的更新方式为随着迭代次数等量减小，从而保证在训练过程中大差值的影响逐渐减小。

5.将网络输出的热力图通过softargmax操作得到特征点的坐标，并采用端到端的方式进行训练，计算量更小，训练速度更快。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于深度学习的人脸特征点检测方法，其特征在于，包括：S1.输入一张待检测的彩色图像，通过图像预处理将彩色图像进行裁剪、缩放；S2.将预处理后的图像经过特征提取后输入到堆叠注意力沙漏网络中，得到特征点的热力图；S3.所述堆叠注意力沙漏网络输出的热力图通过softargmax进行操作，得到的结果即人脸特征点检测的输出结果；

其中步骤S2的具体流程为：

S2-5.每个子沙漏网络都会输出一个热力图，将每一个输出热力图都参与到损失函数的反向传播；

在步骤S2-2中，所述注意力残差单元是一种融入了空间注意力机制的残差块，该单元由两部分并联构成：第一部分为瓶颈残差块；第二部分为空间注意力模块，该空间注意力模块采用空间可分离卷积的方式，将原通道数C一分为二进行卷积；将融合后的特征图通过sigmoid函数进行归一化得到H*W*1的权重图，然后与大小为H*W*C的原特征图相乘，赋予每个像素不同的权重；将第一部分与第二部分逐元素相加最终得到注意力残差单元的输出；注意力残差单元可表示为：

x_n+1＝x_n+F(x_n,W_n)+x_nS(x_n,W_n)

2.如权利要求1所述的基于深度学习的人脸特征点检测方法，其特征在于，在步骤S2-1中，首先使用卷积层提取图像特征，然后通过一个残差块和一个用于下采样的最大池化层，接着再通过两个残差块最终得到特征图；其中，残差块使用的是瓶颈残差块，所述残差块的残差函数为

x_n+1＝x_n+F(x_n,W_n)，

其中F(x_n,W_n)是残差部分，由三个卷积操作构成。

3.如权利要求1所述的基于深度学习的人脸特征点检测方法，其特征在于，在步骤S2-4中，将步骤S2-3中得到的预测热力图经过一个卷积恢复至与主干网络相同的通道数，接着通过SEnet网络得到每一个通道的权重，然后与主干网络相乘得到具有不同通道权重的特征图；借鉴残差网络中恒等映射的思想，添加一个残差连接，用这种残差结构进行堆叠，堆叠过程可表示为：

X_i+1(x)＝X_i(x)+(1+C_i(x))T_i(x)

4.如权利要求1所述的基于深度学习的人脸特征点检测方法，其特征在于，在步骤S3中，将步骤S2中得到的预测热力图H＝{H₁,H₂,…,H_N}转化为对应的坐标点位置L＝{L₁,L₂,…,L_N}，通过softargmax操作计算特征点坐标，即

L_n＝softargmax(H_n)，

通过结合softmax函数，达到取最大值的目的，同时使得过程可导，其中，softargmax操作的具体流程为：

S3-1.将得到的预测热力图乘以系数β；

5.如权利要求1所述的基于深度学习的人脸特征点检测方法，其特征在于，所述堆叠注意力沙漏网络训练过程中采用一种鲁棒性可变的损失函数，所述损失函数定义为：

b＝|α-2|+ε

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到5任一项所述的方法。