CN112801069B - 一种人脸关键特征点检测装置、方法和存储介质 - Google Patents
一种人脸关键特征点检测装置、方法和存储介质 Download PDFInfo
- Publication number
- CN112801069B CN112801069B CN202110398226.1A CN202110398226A CN112801069B CN 112801069 B CN112801069 B CN 112801069B CN 202110398226 A CN202110398226 A CN 202110398226A CN 112801069 B CN112801069 B CN 112801069B
- Authority
- CN
- China
- Prior art keywords
- module
- attention
- vector
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 189
- 238000011156 evaluation Methods 0.000 claims abstract description 124
- 230000009466 transformation Effects 0.000 claims abstract description 55
- 238000010586 diagram Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims description 59
- 238000010606 normalization Methods 0.000 claims description 36
- 230000004913 activation Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 10
- 238000013527 convolutional neural network Methods 0.000 abstract description 8
- 230000006698 induction Effects 0.000 abstract description 5
- 210000003128 head Anatomy 0.000 description 30
- 230000006870 function Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人脸关键特征点检测装置、方法和存储介质,输入人脸图像并通过卷积模块提取包含人脸关键点位置信息的特征图,然后输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;最后通过输出全连接层输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小、训练效率高,以及自注意力变换网络的归纳偏置少、网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,有效提升检测精度。
Description
技术领域
本发明属于计算机机器视觉中的人脸关键特征点检测的技术领域,具体涉及一种人脸关键特征点检测装置、方法和存储介质。
背景技术
计算机机器视觉中的人脸关键特征点检测技术,用于检测人脸图像中,关键特征点的位置。人脸关键特征点包含如眼睛,眉毛,鼻子,嘴唇,脸边缘轮廓等。人脸关键特征点的位置信息广泛用于多种下游任务,如人脸识别,人脸图像美化,人脸建模等。
近年来人脸关键特征点的检测方法,一般可分为基于深度学习和非深度学习两类。非深度学习的方法主要有集成回归树等,优点是速度快,但是定位精度较差,特别是人脸在大角度时,定位误差较大。基于深度学习的方法一般都采用了卷积神经网络,通过全连接层输出关键点的坐标,或者是输出关键点对应的热力图的方式,如Hourglass等网络。但是这类网络,往往需要较大的运算量,对于运行设备的算力要求较高,限制其应用的范围。
因此,急需要提出一种计算工作量少、精度高的人脸关键特征点检测方法,或装置和电子设备。
发明内容
本发明的目的在于提供一种人脸关键特征点检测装置、方法和存储介质,旨在解决上述问题。
本发明主要通过以下技术方案实现:
一种人脸关键特征点检测装置,包括数据获取模块、检测模块;所述数据获取模块用于获取人脸图像,所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标;所述网络模型包括第一模块和第二模块,所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成;所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成;所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接,且中部的卷积模块与第二模块中部的自注意力变换模块连接;
所述人脸图像作为第一模块的输入,所述卷积模块用于提取包含人脸关键点位置信息的特征图,并输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;所述输出全连接层输出人脸关键特征点的坐标。即输出人脸关键特征的位置,完成检测。
本发明在人脸图像输入网络模型后,利用卷积模块提取包含人脸关键点位置信息的特征图。同时,利用评估向量,通过多个注意力变换,融合特征图中的信息,最后从输出全连接层中输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度。
为了更好地实现本发明,进一步地,所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成;所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成,用于调整新的评估向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致;所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成,用于使评估向量内部信息实现交流。本发明将新评估向量与原始评估向量相加,构成一个残差连接,使得模型更易于训练。本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量。
为了更好地实现本发明,进一步地,将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入,对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。
每个头的评估向量通过注意力图,关注人脸关键特征点相对应位置的特征图上的特征点信息。多个头可以生成多个不同的注意力图,分别关注不同的特征点信息。同时,注意力图只单向的计算评估向量对于特征图不同位置的注意力,而不计算特征图内部点之间的注意力,相比普通的自注意力模块,将计算的复杂度由,减少为,大大的减少了计算量。其中,H为图像的高,W为图像的宽,此处为本领域的常规表达,故不再赘述。单个头的计算流程可以以下公式给出:
其中,M代表卷积模块得到的特征图,F代表评估向量,K为键向量,V为值向量,Q为查询向量,Attn为注意力图,F′为更新后的评估向量。
reshape()为变形操作函数,dense()为全连接层操作函数,softmax()为softmax函数,T代表矩阵的转置,x代表矩阵乘。
为了更好地实现本发明,进一步地,当预测的关键点数量小于等于10时,所述单向多头注意力计算模块的头的数量为1;当预测的关键点数量大于10且小于等于20时,所述单向多头注意力计算模块的头的数量为2;当预测的关键点数量大于20且小于等于70时,所述单向多头注意力计算模块的头的数量为4;当预测的关键点数量大于70时,所述单向多头注意力计算模块的头的数量为8。
为了更好地实现本发明,进一步地,所述评估向量为一维的向量,且评估向量的向量长度范围为128-512。评估向量为一维的向量,向量长度不应过长,增加网络计算量,也不应过短,无法包含足够的关于人脸关键点坐标位置的先验信息。
所述评估向量为一维的向量,初始值通过神经网络训练给定,并通过多个自注意力变换模块,逐步聚合卷积模块生成的特征图中的人脸关键点信息。最后通过输出全连接层输出人脸关键特征点的坐标。
为了更好地实现本发明,进一步地,所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍。输出维度分别表示关键点的x坐标值和y坐标值。
为了更好地实现本发明,进一步地,所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层;若卷积模块不进行下采样,则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出;若卷积模块进行下采样,则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。
本发明主要通过以下技术方案实现:
一种人脸关键特征点检测方法,采用上述的检测装置进行,包括以下步骤:
步骤S100:获取人脸图像,并通过卷积模块提取得到包含人脸关键点位置信息的特征图;
步骤S200:将包含人脸关键点位置信息的特征图输入自注意力变换模块,评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;在自注意力变换模块中,首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块,计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;然后将新的评估向量输入投影模块,使得新评估向量的维度与原始评估向量的维度保持一致;最后通过多层前传模块使评估向量内部信息实现交流;
步骤S300:最后通过输出全连接层输出人脸关键特征点的坐标,即输出人脸关键特征的位置,完成检测。
为了更好地实现本发明,进一步地,所述步骤S200包括以下步骤:
步骤S201:对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,
步骤S202:然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;
步骤S203:最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。
一种计算机可读存储介质,存储有计算机程序指令,所述程序指令被处理器执行时实现上述的人脸关键特征点检测方法。
本发明的有益效果:
(1)本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度;
(2)本发明利用评估向量,通过注意力变换模快,逐步的收集融合卷积模块得到的特征图中的相关信息,可以有效提升网络精度;
(3)本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量;
(5)本发明利用的单向多头注意力计算模块中,头的数量设置,可根据网络需要预测的人脸关键点数量灵活调整,达到精度与性能的平衡。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的不进行下采样的卷积模块的结构示意图;
图3为本发明的进行下采样的卷积模块的结构示意图;
图4为本发明的单头注意力计算模块的原理框图;
图5为本发明的单向多头注意力计算模块的原理框图;
图6为本发明的投影模块的结构示意图;
图7为本发明的多层前传模块的结构示意图;
图8为本发明的自注意力变换模块的结构示意图。
具体实施方式
实施例1:
一种人脸关键特征点检测装置,如图1所示,包括数据获取模块、检测模块;所述数据获取模块用于获取人脸图像,所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标;所述网络模型包括第一模块和第二模块,所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成;所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成;所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接,且中部的卷积模块与第二模块中部的自注意力变换模块连接。
所述人脸图像作为第一模块的输入,所述卷积模块用于提取包含人脸关键点位置信息的特征图,并输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;所述输出全连接层输出人脸关键特征点的坐标,完成检测。
本发明在人脸图像输入网络模型后,利用卷积模块提取包含人脸关键点位置信息的特征图。同时,利用评估向量,通过多个注意力变换,融合特征图中的信息,最后从输出全连接层中输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度。
实施例2:
本实施例是在实施例1的基础上进行优化,如图8所示,所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成;所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;如图6所示,所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成,用于调整新的评估向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致;如图7所示,所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成,用于使评估向量内部信息实现交流。本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量。
进一步地,如图4所示,将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入,对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;如图5所示,将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。
进一步地,当预测的关键点数量小于等于10时,所述单向多头注意力计算模块的头的数量为1;当预测的关键点数量大于10且小于等于20时,所述单向多头注意力计算模块的头的数量为2;当预测的关键点数量大于20且小于等于70时,所述单向多头注意力计算模块的头的数量为4;当预测的关键点数量大于70时,所述单向多头注意力计算模块的头的数量为8。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,如图2、图3所示,所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层;若卷积模块不进行下采样,则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出;若卷积模块进行下采样,则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。
进一步地,所述评估向量为一维的向量,且评估向量的向量长度范围为128-512。所述评估向量为一维的向量,初始值通过神经网络训练给定,并通过多个自注意力变换模块,逐步聚合卷积模块生成的特征图中的人脸关键点信息。最后通过输出全连接层输出人脸关键特征点的坐标。评估向量为一维的向量,向量长度不应过长,增加网络计算量,也不应过短,无法包含足够的关于人脸关键点坐标位置的先验信息。
进一步地,所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍,分别表示关键点的x坐标值和y坐标值。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
一种人脸关键特征点检测方法,采用上述检测装置进行,包括以下步骤:
步骤S100:获取人脸图像,并通过卷积模块提取得到包含人脸关键点位置信息的特征图;
步骤S200:将包含人脸关键点位置信息的特征图输入自注意力变换模块,评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;在自注意力变换模块中,首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块,计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;然后将新的评估向量输入投影模块,使得新评估向量的维度与原始评估向量的维度保持一致;最后通过多层前传模块使评估向量内部信息实现交流;
步骤S300:最后通过输出全连接层输出人脸关键特征点的坐标,即输出人脸关键特征的位置,完成检测。
进一步地,所述步骤S200包括以下步骤:
步骤S201:对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,
步骤S202:然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;
步骤S203:最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。
本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度。
实施例5:
一种人脸关键特征点检测方法,包括以下步骤:
第一步,如图2、图3所示,构建卷积模块。卷积模块包含有依次连接的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层。如果卷积模块进行不下采样,则将模块的输入与最后的批归一化层输出相加,作为模块的输出。如果卷积模块进行采样,则将最后的批归一化层的输出作为模块的输出。卷积模块的输出为包含人脸关键点位置信息的特征图。
第二步,如图4-图8所示,构建自注意力变换模块,所述注意力变换模块由顺序连接的单向多头注意力计算模块,投影模块,多层前传模块构成。所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量。所述投影模块将新的评估向量,通过一个全连接层,调整向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致。所述多层前传模块,由两个全连接层构成,使得评估向量内部信息能够交流。通过这种方式,使得评估向量,能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量。
其中,如图4所示,单向多头注意力计算模块,输入为卷积模块得到的特征图和评估向量。对与单向多头注意力计算模块中的每一个头,首先将特征图通过全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量。注意力图由查询向量与键向量计算获得,将值向量根据注意力图进行加权求和,得到该头输出的评估向量。如图5所示,将所有头的评估向量向量进行通道拼接,得到评估向量为单向多头注意力计算模块。每个头的评估向量通过注意力图,关注人脸关键特征点相对应位置的特征图上的特征点信息。多个头可以生成多个不同的注意力图,分别关注不同的特征点信息。同时,注意力图只单向的计算评估向量对于特征图不同位置的注意力,而不计算特征图内部点之间的注意力,相比普通的自注意力模块,将计算的复杂度由,减少为,大大的减少了计算量。单个头的计算流程可以以下公式给出:
公式中,M代表卷积模块得到的特征图,F代表评估向量,K为键向量,V为值向量,Q为查询向量,Attn为注意力图,F’为更新后的评估向量。Reshape()为变形操作函数,dense()为全连接层操作函数,softmax()为softmax函数,T代表矩阵的转置,x代表矩阵乘。
第三步,构建一个评估向量,评估向量为一维的向量,向量长度不应过长,增加网络计算量,也不应过短,无法包含足够的关于人脸关键点坐标位置的先验信息,取值范围应在128至512之间。评估向量的具体值由网络训练确定。
第四步,如图1所示,构建融合了卷积和自注意力变换机制的深度神经网络模型。网络模型包括第一卷积层,第一批归一化层和第一激活层、多次重复堆叠的卷积模块,评估向量,第一自注意力变换模块,第二自注意力变换模块和第三自注意力变换模块,输出全连接层。
将人脸图像输入网络模型后,利用卷积模块提取包含人脸关键点位置信息的特征图。同时,利用评估向量,通过多个注意力变换,融合特征图中的信息,最后从输出全连接层中输出人脸关键特征点的坐标。
为了验证本方法的可行性和良好的性能,本实施例通过私有的人脸关键特征点检测数据集进行实验。数据集中包含有各类常见各类姿态的人脸图像共4289张,其中670张用于测试集。其余作为训练集用于网络的训练。
在本实验中,实验组为采用本实施例构建的神经网络。对照组参照实验中,移除实验组中的评估向量和所有自注意力变换模块而构成的卷积神经网络。两组网络均需要预测包含眼角,眉毛,鼻子,嘴角等17个关键点的坐标。网络的输入均采用长宽为128像素的人脸图像。评价标准为NME(%),即归一化的平均误差,该值越小越好,以及NME<5%的检测准确率,该值越大越好。
表1
如表1所示,本实施例用于人脸关键点检测,对比常见的卷积神经网络,能够大幅提升准确率。本发明中的单向多头注意力计算模块,其运算量也很小,有利于网络的部署和应用。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (9)
1.一种人脸关键特征点检测装置,其特征在于,包括数据获取模块、检测模块;所述数据获取模块用于获取人脸图像,所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标;所述网络模型包括第一模块和第二模块,所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成;所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成;所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接,且中部的卷积模块与第二模块中部的自注意力变换模块连接;
所述人脸图像作为第一模块的输入,所述卷积模块用于提取包含人脸关键点位置信息的特征图,并输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;所述输出全连接层输出人脸关键特征点的坐标;
所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成;所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成,用于调整新的评估向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致;所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成,用于使评估向量内部信息实现交流。
2.根据权利要求1所述的一种人脸关键特征点检测装置,其特征在于,将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入,对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。
3.根据权利要求2所述的一种人脸关键特征点检测装置,其特征在于,当预测的关键点数量小于等于10时,所述单向多头注意力计算模块的头的数量为1;当预测的关键点数量大于10且小于等于20时,所述单向多头注意力计算模块的头的数量为2;当预测的关键点数量大于20且小于等于70时,所述单向多头注意力计算模块的头的数量为4;当预测的关键点数量大于70时,所述单向多头注意力计算模块的头的数量为8。
4.根据权利要求1所述的一种人脸关键特征点检测装置,其特征在于,所述评估向量为一维的向量,且评估向量的向量长度范围为128-512。
5.根据权利要求1所述的一种人脸关键特征点检测装置,其特征在于,所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍。
6.根据权利要求1-5任一项所述的一种人脸关键特征点检测装置,其特征在于,所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层;若卷积模块不进行下采样,则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出;若卷积模块进行下采样,则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。
7.一种人脸关键特征点检测方法,采用权利要求1-6任一项所述的检测装置进行,其特征在于,包括以下步骤:
步骤S100:获取人脸图像,并通过卷积模块提取得到包含人脸关键点位置信息的特征图;
步骤S200:将包含人脸关键点位置信息的特征图输入自注意力变换模块,评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;在自注意力变换模块中,首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块,计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;然后将新的评估向量输入投影模块,使得新评估向量的维度与原始评估向量的维度保持一致;最后通过多层前传模块使评估向量内部信息实现交流;
步骤S300:最后通过输出全连接层输出人脸关键特征点的坐标,完成检测。
8.根据权利要求7所述的一种人脸关键特征点检测方法,其特征在于,所述步骤S200包括以下步骤:
步骤S201:对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,
步骤S202:然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;
步骤S203:最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。
9.一种计算机可读存储介质,存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求7或8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398226.1A CN112801069B (zh) | 2021-04-14 | 2021-04-14 | 一种人脸关键特征点检测装置、方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398226.1A CN112801069B (zh) | 2021-04-14 | 2021-04-14 | 一种人脸关键特征点检测装置、方法和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801069A CN112801069A (zh) | 2021-05-14 |
CN112801069B true CN112801069B (zh) | 2021-06-29 |
Family
ID=75811353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110398226.1A Active CN112801069B (zh) | 2021-04-14 | 2021-04-14 | 一种人脸关键特征点检测装置、方法和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801069B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113243886B (zh) * | 2021-06-11 | 2021-11-09 | 四川翼飞视科技有限公司 | 一种基于深度学习的视力检测***、方法和存储介质 |
CN114360032B (zh) * | 2022-03-17 | 2022-07-12 | 北京启醒科技有限公司 | 一种多态不变性人脸识别方法及*** |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018009345A1 (de) * | 2018-11-29 | 2020-06-18 | Cellmatiq Gmbh | Verfahren und vorrichtung zum trainieren eines neuronalen netzwerks zum spezifizieren von landmarken auf 2d- und 3d-bildern |
CN110111365B (zh) * | 2019-05-06 | 2022-04-15 | 深圳大学 | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别***及方法 |
CN110458133A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 基于生成式对抗网络的轻量级人脸检测方法 |
CN111242078A (zh) * | 2020-01-20 | 2020-06-05 | 重庆邮电大学 | 一种基于自注意力机制的人脸正脸化生成方法 |
CN111325161B (zh) * | 2020-02-25 | 2023-04-18 | 四川翼飞视科技有限公司 | 一种基于注意力机制的人脸检测神经网络的构建方法 |
CN111310705A (zh) * | 2020-02-28 | 2020-06-19 | 深圳壹账通智能科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
CN111444913B (zh) * | 2020-03-22 | 2023-08-22 | 华南理工大学 | 一种基于边缘引导稀疏注意力机制的车牌实时检测方法 |
CN111639594B (zh) * | 2020-05-29 | 2023-09-22 | 苏州遐迩信息技术有限公司 | 图像描述模型的训练方法及装置 |
CN111721535B (zh) * | 2020-06-23 | 2021-11-30 | 中国人民解放军战略支援部队航天工程大学 | 一种基于卷积多头自注意力机制的轴承故障检测方法 |
CN112016454A (zh) * | 2020-08-27 | 2020-12-01 | 云南翼飞视科技有限公司 | 一种人脸对齐的检测方法 |
CN112418074B (zh) * | 2020-11-20 | 2022-08-23 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
CN112418095B (zh) * | 2020-11-24 | 2023-06-30 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及*** |
CN112507996B (zh) * | 2021-02-05 | 2021-04-20 | 成都东方天呈智能科技有限公司 | 一种主样本注意力机制的人脸检测方法 |
-
2021
- 2021-04-14 CN CN202110398226.1A patent/CN112801069B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112801069A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801069B (zh) | 一种人脸关键特征点检测装置、方法和存储介质 | |
CN110069985B (zh) | 基于图像的目标点位置检测方法、装置、电子设备 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及*** | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN112766229B (zh) | 基于注意力机制的人脸点云图像智能识别***及方法 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN111401151B (zh) | 一种精确的三维手部姿态估计方法 | |
CN113191243B (zh) | 基于相机距离的人手三维姿态估计模型建立方法及其应用 | |
CN114170410A (zh) | 基于PointNet的图卷积与KNN搜索的点云零件级分割方法 | |
CN110245621A (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN114550305B (zh) | 一种基于Transformer的人体姿态估计方法及*** | |
CN111709268A (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
Choi et al. | Combining deep convolutional neural networks with stochastic ensemble weight optimization for facial expression recognition in the wild | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及*** | |
CN113298052B (zh) | 一种基于高斯注意力的人脸检测装置、方法和存储介质 | |
CN113887536B (zh) | 一种基于高层语义引导的多阶段高效人群密度估计方法 | |
CN115908497A (zh) | 一种基于人体拓扑感知网络的三维人体姿态估计方法及*** | |
CN115908697A (zh) | 基于点云概率分布学习的生成模型及其方法 | |
CN115862095A (zh) | 一种自适应视线估计方法、***、电子设备及存储介质 | |
CN115862108A (zh) | 一种适用于人脸识别的ViT模型优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |