CN112801069B

CN112801069B - 一种人脸关键特征点检测装置、方法和存储介质

Info

Publication number: CN112801069B
Application number: CN202110398226.1A
Authority: CN
Inventors: 桑高丽; 卢丽; 韩强; 闫超
Original assignee: Sichuan Yifei Technology Co ltd
Current assignee: Sichuan Yifei Technology Co ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-06-29
Anticipated expiration: 2041-04-14
Also published as: CN112801069A

Abstract

本发明公开了一种人脸关键特征点检测装置、方法和存储介质，输入人脸图像并通过卷积模块提取包含人脸关键点位置信息的特征图，然后输入到自注意力变换模块；所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息；最后通过输出全连接层输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小、训练效率高，以及自注意力变换网络的归纳偏置少、网络精度高的优势，用于人脸关键特点检测，可以降低网络运算量，有效提升检测精度。

Description

一种人脸关键特征点检测装置、方法和存储介质

技术领域

本发明属于计算机机器视觉中的人脸关键特征点检测的技术领域，具体涉及一种人脸关键特征点检测装置、方法和存储介质。

背景技术

计算机机器视觉中的人脸关键特征点检测技术，用于检测人脸图像中，关键特征点的位置。人脸关键特征点包含如眼睛，眉毛，鼻子，嘴唇，脸边缘轮廓等。人脸关键特征点的位置信息广泛用于多种下游任务，如人脸识别，人脸图像美化，人脸建模等。

近年来人脸关键特征点的检测方法，一般可分为基于深度学习和非深度学习两类。非深度学习的方法主要有集成回归树等，优点是速度快，但是定位精度较差，特别是人脸在大角度时，定位误差较大。基于深度学习的方法一般都采用了卷积神经网络，通过全连接层输出关键点的坐标，或者是输出关键点对应的热力图的方式，如Hourglass等网络。但是这类网络，往往需要较大的运算量，对于运行设备的算力要求较高，限制其应用的范围。

因此，急需要提出一种计算工作量少、精度高的人脸关键特征点检测方法，或装置和电子设备。

发明内容

本发明的目的在于提供一种人脸关键特征点检测装置、方法和存储介质，旨在解决上述问题。

本发明主要通过以下技术方案实现：

一种人脸关键特征点检测装置，包括数据获取模块、检测模块；所述数据获取模块用于获取人脸图像，所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标；所述网络模型包括第一模块和第二模块，所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成；所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成；所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接，且中部的卷积模块与第二模块中部的自注意力变换模块连接；

所述人脸图像作为第一模块的输入，所述卷积模块用于提取包含人脸关键点位置信息的特征图，并输入到自注意力变换模块；所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息；所述输出全连接层输出人脸关键特征点的坐标。即输出人脸关键特征的位置，完成检测。

本发明在人脸图像输入网络模型后，利用卷积模块提取包含人脸关键点位置信息的特征图。同时，利用评估向量，通过多个注意力变换，融合特征图中的信息，最后从输出全连接层中输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小，训练效率高，以及自注意力变换网络的归纳偏置少，网络精度高的优势，用于人脸关键特点检测，可以降低网络运算量，提升检测精度。

为了更好地实现本发明，进一步地，所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成；所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性，得到注意力图，并通过注意力图计算新的评估向量；所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成，用于调整新的评估向量的维度，使得新评估向量的维度与原始评估向量的维度保持一致；所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成，用于使评估向量内部信息实现交流。本发明将新评估向量与原始评估向量相加，构成一个残差连接，使得模型更易于训练。本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息，并进行更新，得到具有更为丰富的人脸关键特征点信息的评估向量。

为了更好地实现本发明，进一步地，将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入，对于单向多头注意力计算模块的每一个头，首先将特征图通过变形和全连接层计算得到键向量和值向量，然后将评估向量通过全连接层计算得到查询向量；由查询向量与键向量计算获得注意力图，将值向量根据注意力图进行加权求和，得到单头输出的评估向量；将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。

每个头的评估向量通过注意力图，关注人脸关键特征点相对应位置的特征图上的特征点信息。多个头可以生成多个不同的注意力图，分别关注不同的特征点信息。同时，注意力图只单向的计算评估向量对于特征图不同位置的注意力，而不计算特征图内部点之间的注意力，相比普通的自注意力模块，将计算的复杂度由

，减少为

，大大的减少了计算量。其中，H为图像的高，W为图像的宽，此处为本领域的常规表达，故不再赘述。单个头的计算流程可以以下公式给出：

其中，M代表卷积模块得到的特征图，F代表评估向量，K为键向量，V为值向量，Q为查询向量，Attn为注意力图,F′为更新后的评估向量。

reshape()为变形操作函数，dense()为全连接层操作函数，softmax()为softmax函数，T代表矩阵的转置，x代表矩阵乘。

为了更好地实现本发明，进一步地，当预测的关键点数量小于等于10时，所述单向多头注意力计算模块的头的数量为1；当预测的关键点数量大于10且小于等于20时，所述单向多头注意力计算模块的头的数量为2；当预测的关键点数量大于20且小于等于70时，所述单向多头注意力计算模块的头的数量为4；当预测的关键点数量大于70时，所述单向多头注意力计算模块的头的数量为8。

为了更好地实现本发明，进一步地，所述评估向量为一维的向量，且评估向量的向量长度范围为128-512。评估向量为一维的向量，向量长度不应过长，增加网络计算量，也不应过短，无法包含足够的关于人脸关键点坐标位置的先验信息。

所述评估向量为一维的向量，初始值通过神经网络训练给定，并通过多个自注意力变换模块，逐步聚合卷积模块生成的特征图中的人脸关键点信息。最后通过输出全连接层输出人脸关键特征点的坐标。

为了更好地实现本发明，进一步地，所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍。输出维度分别表示关键点的x坐标值和y坐标值。

为了更好地实现本发明，进一步地，所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层；若卷积模块不进行下采样，则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出；若卷积模块进行下采样，则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。

本发明主要通过以下技术方案实现：

一种人脸关键特征点检测方法，采用上述的检测装置进行，包括以下步骤：

步骤S100：获取人脸图像，并通过卷积模块提取得到包含人脸关键点位置信息的特征图；

步骤S200：将包含人脸关键点位置信息的特征图输入自注意力变换模块，评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息；在自注意力变换模块中，首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块，计算评估向量与特征图上各特征点的相关性，得到注意力图，并通过注意力图计算新的评估向量；然后将新的评估向量输入投影模块，使得新评估向量的维度与原始评估向量的维度保持一致；最后通过多层前传模块使评估向量内部信息实现交流；

步骤S300：最后通过输出全连接层输出人脸关键特征点的坐标，即输出人脸关键特征的位置，完成检测。

为了更好地实现本发明，进一步地，所述步骤S200包括以下步骤：

步骤S201：对于单向多头注意力计算模块的每一个头，首先将特征图通过变形和全连接层计算得到键向量和值向量，

步骤S202：然后将评估向量通过全连接层计算得到查询向量；由查询向量与键向量计算获得注意力图，将值向量根据注意力图进行加权求和，得到单头输出的评估向量；

步骤S203：最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。

一种计算机可读存储介质，存储有计算机程序指令，所述程序指令被处理器执行时实现上述的人脸关键特征点检测方法。

本发明的有益效果：

（1）本发明融合了卷积神经网络的参数量小，训练效率高，以及自注意力变换网络的归纳偏置少，网络精度高的优势，用于人脸关键特点检测，可以降低网络运算量，提升检测精度；

（2）本发明利用评估向量，通过注意力变换模快，逐步的收集融合卷积模块得到的特征图中的相关信息，可以有效提升网络精度；

（3）本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息，并进行更新，得到具有更为丰富的人脸关键特征点信息的评估向量；

（4）本发明利用利用了单向多头注意力计算模块，相比普通的自注意力模块，将计算的复杂度由

，减少为

，大大的减少了计算量；

（5）本发明利用的单向多头注意力计算模块中，头的数量设置，可根据网络需要预测的人脸关键点数量灵活调整，达到精度与性能的平衡。

附图说明

图1为本发明的整体结构示意图；

图2为本发明的不进行下采样的卷积模块的结构示意图；

图3为本发明的进行下采样的卷积模块的结构示意图；

图4为本发明的单头注意力计算模块的原理框图；

图5为本发明的单向多头注意力计算模块的原理框图；

图6为本发明的投影模块的结构示意图；

图7为本发明的多层前传模块的结构示意图；

图8为本发明的自注意力变换模块的结构示意图。

具体实施方式

实施例1：

一种人脸关键特征点检测装置，如图1所示，包括数据获取模块、检测模块；所述数据获取模块用于获取人脸图像，所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标；所述网络模型包括第一模块和第二模块，所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成；所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成；所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接，且中部的卷积模块与第二模块中部的自注意力变换模块连接。

所述人脸图像作为第一模块的输入，所述卷积模块用于提取包含人脸关键点位置信息的特征图，并输入到自注意力变换模块；所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息；所述输出全连接层输出人脸关键特征点的坐标，完成检测。

实施例2：

本实施例是在实施例1的基础上进行优化，如图8所示，所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成；所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性，得到注意力图，并通过注意力图计算新的评估向量；如图6所示，所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成，用于调整新的评估向量的维度，使得新评估向量的维度与原始评估向量的维度保持一致；如图7所示，所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成，用于使评估向量内部信息实现交流。本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息，并进行更新，得到具有更为丰富的人脸关键特征点信息的评估向量。

进一步地，如图4所示，将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入，对于单向多头注意力计算模块的每一个头，首先将特征图通过变形和全连接层计算得到键向量和值向量，然后将评估向量通过全连接层计算得到查询向量；由查询向量与键向量计算获得注意力图，将值向量根据注意力图进行加权求和，得到单头输出的评估向量；如图5所示，将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。

进一步地，当预测的关键点数量小于等于10时，所述单向多头注意力计算模块的头的数量为1；当预测的关键点数量大于10且小于等于20时，所述单向多头注意力计算模块的头的数量为2；当预测的关键点数量大于20且小于等于70时，所述单向多头注意力计算模块的头的数量为4；当预测的关键点数量大于70时，所述单向多头注意力计算模块的头的数量为8。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，如图2、图3所示，所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层；若卷积模块不进行下采样，则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出；若卷积模块进行下采样，则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。

进一步地，所述评估向量为一维的向量，且评估向量的向量长度范围为128-512。所述评估向量为一维的向量，初始值通过神经网络训练给定，并通过多个自注意力变换模块，逐步聚合卷积模块生成的特征图中的人脸关键点信息。最后通过输出全连接层输出人脸关键特征点的坐标。评估向量为一维的向量，向量长度不应过长，增加网络计算量，也不应过短，无法包含足够的关于人脸关键点坐标位置的先验信息。

进一步地，所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍，分别表示关键点的x坐标值和y坐标值。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

一种人脸关键特征点检测方法，采用上述检测装置进行，包括以下步骤：

进一步地，所述步骤S200包括以下步骤：

本发明融合了卷积神经网络的参数量小，训练效率高，以及自注意力变换网络的归纳偏置少，网络精度高的优势，用于人脸关键特点检测，可以降低网络运算量，提升检测精度。

实施例5：

一种人脸关键特征点检测方法，包括以下步骤：

第一步，如图2、图3所示，构建卷积模块。卷积模块包含有依次连接的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层。如果卷积模块进行不下采样，则将模块的输入与最后的批归一化层输出相加，作为模块的输出。如果卷积模块进行采样，则将最后的批归一化层的输出作为模块的输出。卷积模块的输出为包含人脸关键点位置信息的特征图。

第二步，如图4-图8所示，构建自注意力变换模块，所述注意力变换模块由顺序连接的单向多头注意力计算模块，投影模块，多层前传模块构成。所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性，得到注意力图，并通过注意力图计算新的评估向量。所述投影模块将新的评估向量，通过一个全连接层，调整向量的维度，使得新评估向量的维度与原始评估向量的维度保持一致。所述多层前传模块，由两个全连接层构成，使得评估向量内部信息能够交流。通过这种方式，使得评估向量，能够关注和聚合特征图上与人脸关键特征点相关的特征点信息，并进行更新，得到具有更为丰富的人脸关键特征点信息的评估向量。

其中，如图4所示，单向多头注意力计算模块，输入为卷积模块得到的特征图和评估向量。对与单向多头注意力计算模块中的每一个头，首先将特征图通过全连接层计算得到键向量和值向量，然后将评估向量通过全连接层计算得到查询向量。注意力图由查询向量与键向量计算获得，将值向量根据注意力图进行加权求和，得到该头输出的评估向量。如图5所示，将所有头的评估向量向量进行通道拼接，得到评估向量为单向多头注意力计算模块。每个头的评估向量通过注意力图，关注人脸关键特征点相对应位置的特征图上的特征点信息。多个头可以生成多个不同的注意力图，分别关注不同的特征点信息。同时，注意力图只单向的计算评估向量对于特征图不同位置的注意力，而不计算特征图内部点之间的注意力，相比普通的自注意力模块，将计算的复杂度由

，减少为

，大大的减少了计算量。单个头的计算流程可以以下公式给出：

公式中，M代表卷积模块得到的特征图，F代表评估向量，K为键向量，V为值向量，Q为查询向量，Attn为注意力图,F’为更新后的评估向量。Reshape()为变形操作函数，dense()为全连接层操作函数，softmax()为softmax函数，T代表矩阵的转置，x代表矩阵乘。

第三步，构建一个评估向量，评估向量为一维的向量，向量长度不应过长，增加网络计算量，也不应过短，无法包含足够的关于人脸关键点坐标位置的先验信息，取值范围应在128至512之间。评估向量的具体值由网络训练确定。

第四步，如图1所示，构建融合了卷积和自注意力变换机制的深度神经网络模型。网络模型包括第一卷积层，第一批归一化层和第一激活层、多次重复堆叠的卷积模块，评估向量，第一自注意力变换模块，第二自注意力变换模块和第三自注意力变换模块，输出全连接层。

将人脸图像输入网络模型后，利用卷积模块提取包含人脸关键点位置信息的特征图。同时，利用评估向量，通过多个注意力变换，融合特征图中的信息，最后从输出全连接层中输出人脸关键特征点的坐标。

为了验证本方法的可行性和良好的性能，本实施例通过私有的人脸关键特征点检测数据集进行实验。数据集中包含有各类常见各类姿态的人脸图像共4289张，其中670张用于测试集。其余作为训练集用于网络的训练。

在本实验中，实验组为采用本实施例构建的神经网络。对照组参照实验中，移除实验组中的评估向量和所有自注意力变换模块而构成的卷积神经网络。两组网络均需要预测包含眼角，眉毛，鼻子，嘴角等17个关键点的坐标。网络的输入均采用长宽为128像素的人脸图像。评价标准为NME(%)，即归一化的平均误差，该值越小越好，以及NME<5%的检测准确率，该值越大越好。

表1

如表1所示，本实施例用于人脸关键点检测，对比常见的卷积神经网络，能够大幅提升准确率。本发明中的单向多头注意力计算模块，其运算量也很小，有利于网络的部署和应用。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种人脸关键特征点检测装置，其特征在于，包括数据获取模块、检测模块；所述数据获取模块用于获取人脸图像，所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标；所述网络模型包括第一模块和第二模块，所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成；所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成；所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接，且中部的卷积模块与第二模块中部的自注意力变换模块连接；

所述人脸图像作为第一模块的输入，所述卷积模块用于提取包含人脸关键点位置信息的特征图，并输入到自注意力变换模块；所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息；所述输出全连接层输出人脸关键特征点的坐标；

所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成；所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性，得到注意力图，并通过注意力图计算新的评估向量；所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成，用于调整新的评估向量的维度，使得新评估向量的维度与原始评估向量的维度保持一致；所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成，用于使评估向量内部信息实现交流。

2.根据权利要求1所述的一种人脸关键特征点检测装置，其特征在于，将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入，对于单向多头注意力计算模块的每一个头，首先将特征图通过变形和全连接层计算得到键向量和值向量，然后将评估向量通过全连接层计算得到查询向量；由查询向量与键向量计算获得注意力图，将值向量根据注意力图进行加权求和，得到单头输出的评估向量；将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。

3.根据权利要求2所述的一种人脸关键特征点检测装置，其特征在于，当预测的关键点数量小于等于10时，所述单向多头注意力计算模块的头的数量为1；当预测的关键点数量大于10且小于等于20时，所述单向多头注意力计算模块的头的数量为2；当预测的关键点数量大于20且小于等于70时，所述单向多头注意力计算模块的头的数量为4；当预测的关键点数量大于70时，所述单向多头注意力计算模块的头的数量为8。

4.根据权利要求1所述的一种人脸关键特征点检测装置，其特征在于，所述评估向量为一维的向量，且评估向量的向量长度范围为128-512。

5.根据权利要求1所述的一种人脸关键特征点检测装置，其特征在于，所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍。

6.根据权利要求1-5任一项所述的一种人脸关键特征点检测装置，其特征在于，所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层；若卷积模块不进行下采样，则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出；若卷积模块进行下采样，则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。

7.一种人脸关键特征点检测方法，采用权利要求1-6任一项所述的检测装置进行，其特征在于，包括以下步骤：

步骤S300：最后通过输出全连接层输出人脸关键特征点的坐标，完成检测。

8.根据权利要求7所述的一种人脸关键特征点检测方法，其特征在于，所述步骤S200包括以下步骤：

9.一种计算机可读存储介质，存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求7或8所述的方法。