CN110287846A - 一种基于注意力机制的人脸关键点检测方法 - Google Patents
一种基于注意力机制的人脸关键点检测方法 Download PDFInfo
- Publication number
- CN110287846A CN110287846A CN201910531637.6A CN201910531637A CN110287846A CN 110287846 A CN110287846 A CN 110287846A CN 201910531637 A CN201910531637 A CN 201910531637A CN 110287846 A CN110287846 A CN 110287846A
- Authority
- CN
- China
- Prior art keywords
- key point
- feature
- attention
- network
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000036544 posture Effects 0.000 description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 210000004709 eyebrow Anatomy 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的人脸关键点检测方法,该方法包括以下步骤:建立面向多分辨率输入的多通道特征提取网络结构;设计一个注意力模块,利用具有沙漏结构的特征融合网络,引入注意力机制,选择与任务相关的关键特征;将注意力模块输出的特征图经过残差模块,输出关键点位置信息。本发明所涉及的面向多分辨率输入的多通道特征提取网络,通过引入中继监督在降低网络深度的同时保证检测精度;本发明所涉及的注意力模块,通过引入注意力机制将特征不断聚焦到感兴趣区域,提高遮挡、大姿态下的人脸关键点检测精度。实验表明该发明可以有效克服大姿态、遮挡给精度带来的影响,解决网络深度与检测速度均衡难题。
Description
技术领域
本发明涉及一种基于注意力机制的人脸关键点检测方法,属于图像处理技术领域。
背景技术
人脸关键点检测也称为人脸关键点定位或者人脸对齐,是指根据给定的人脸图像,标定出人脸的眉毛、眼睛、鼻子、嘴巴以及轮廓区域,在科学研究及实际应用中都受到广泛关注。例如,人脸姿态矫正、姿态识别、表情识别、疲劳监测、嘴型识别、人脸美妆等。现有的公开的常用人脸数据集有很多,例如WFLW(98点)、Helen(194点)、300W(68点)、IBUG(68点)、LFPW(29点),AFLW(21点)等,可以直接用于人脸关键点检测算法的研究。
考虑到卷积神经网络具有强烈的特征表达能力,目前基于卷积神经网络的人脸关键点检测成为研究热点。基于卷积神经网络的人脸关键点检测任务可解释为一个非线性回归问题,用于学习原图与人脸关键点坐标之间的映射:输入一张RGB三通道的人脸图片,本质是输入一个大小为[W,H,3]的矩阵(其中W,H分别为人脸图片尺寸的宽和高),输出一个维数为2L的向量[x1,x2,...,xL,y1,y2,...,yL]T,其中L为关键点总数,(xi,yi),i∈{1,…L}为第i个关键点的坐标。人脸关键点的真实值由人工标注,主观性强,当关键点较为稠密时,相邻坐标点的数据将十分接近,直接增加了关键点的定位难度。针对上述困难,目前基于神经网络的关键点检测算法将关键点坐标转化为热力图形式,输出每个关键点的似然区域特征图。上述算法可提高检测精度,但是会相应提高网络的复杂度,影响检测算法的速度。另外,现有算法在遮挡,大姿态人脸关键点检测方面表现不佳。
因此,目前在这些数据集上的人脸特征点检测领域仍然存在以下问题:1)无法有效解决大姿态、遮挡、低分辨率下的人脸关键点检测;2)人脸关键点检测精度与速度不能兼顾。
发明内容
针对上述问题,本发明提供一种基于注意力机制的人脸关键点检测方法,是一种基于卷积神经网络的人脸关键点检测方法,一定程度上克服原始图像遮挡、姿态、低分辨率等问题给精度带来的影响,同时保持算法的实时性要求。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于注意力机制的人脸关键点检测方法,包括如下步骤:
步骤(1):针对一张原始图片,使用数据集提供的人脸检测框对原始图片中的人脸区域进行剪裁,并归一化为256×256×3px,再对归一化后的图像进行数据增强,得到训练样本;
步骤(2):针对高分辨率通道,使用ResNet18的conv1_x至conv3_x对训练样本进行特征提取,输出一个大小为128×32×32的特征图F;
步骤(3):针对低分辨率通道,先将训练样本降采样为64×64×3px,再使用ResNet50的conv1_x至conv3_x对降采样后的训练样本进行特征提取,输出一个低精度的关键点热力图M,大小为L×32×32,其中L为关键点的个数;
步骤(4):将特征图F与低精度的关键点热力图M一同输入到注意力模块中,该模块包含一个具有沙漏结构的特征融合网络,注意力模块的输出H经过一个残差层BottleNeck模块和一个3×3的卷积模块,获得高精度的关键点热力图;
步骤(5):采用坐标变换,将高精度的关键点热力图转化为关键点坐标,并将提取到的关键点坐标映射回原始图片,完成关键点的检测。
作为本发明的进一步技术方案,步骤(1)中的增强方式包括随机旋转、水平翻转、高斯模糊、调整亮度以及调整对比度。
作为本发明的进一步技术方案,所述步骤(4)的具有沙漏结构的特征融合网络的融合机制为:
其中,为矩阵连接操作,为对应元素相乘操作;为特征融合网络输入到输出的映射;经过特征映射后,得到特征值范围为-1~1的权重特征图W;在特征融合网络输出层引入tanh激活函数,tanh激活函数即双曲正切函数;H为注意力模块输出的特征图。
作为本发明的进一步技术方案,所述步骤(5)的关键点热力图转化为关键点坐标的步骤为:
其中,Δ=0.25,为热力图中最大值所在位置坐标,为次最大值的坐标位置;
根据下式将映射回原始图片,得到最终坐标
其中(x1,y1)和(x2,y2)分别为人脸检测框在原始图片上的左上角和右下角的坐标值。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、提出面向多分辨率输入的多通道特征提取网络,提高网络的宽度,解决网络深度与检测速度均衡难题:采用多通道并行的方式,同时引入中继监督,对每个通道进行监督训练,防止输出层误差经过多层反向传播的梯度消失。基于这种设计思路,网络的层数不需要很复杂就可以实现高精度的关键点检测,可以降低模型的参数量,保持检测速度;中继监督的结构可以保证底层参数正常更新;
2、提出面向注意力机制的特征融合结构,有效提取特征图中的关键点区域,解决遮挡、姿态等困难样本的训练问题:设计的特征融合网络是一个对称的沙漏结构,可以有效保持高层语义信息和底层特征(纹理、颜色、形状等),同时通过在输出层引入tanh激活函数,输出一个特征值范围为-1~1的权重特征图,利用注意力机制对关键点似然区域进行提取,一定程度克服图像遮挡、姿态等带来的影响,保证检测的精度;
3、本发明提供了一种精确度高,检测速度快的人脸关键点检测模型,有效提高大姿态、遮挡、低分辨率下的人脸关键点检测精度,超过了目前相关领域绝大部分主流算法的精度和速度。
附图说明
图1是本发明的人脸关键点检测算法流程图;
图2是本发明的神经网络训练及测试流程图;
图3是本发明面向关键点检测的神经网络整体框架;
图4是本发明使用的残差模块结构图,其中,(A)是Basic Block,(B)是BottleNeck;
图5是本发明的低分辨率通道热力图预测的神经网络结构图;
图6是本发明的神经网络训练策略示意图;
图7是本发明的注意力模块;
图8是本发明的沙漏结构特征融合网络结构图;
图9是本发明的激活函数Tanh的示意图;
图10是本发明的神经网络中间过程可视化示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1~图10所示,本发明给出一种基于注意力机制的人脸关键点检测方法,包括如下具体步骤:
步骤(1):如图1所示,根据步骤S101~S102,根据数据集中给出的人脸检测框,对原始图像进行裁剪,并将剪裁后的图片归一化为256×256×3px,并进行数据增强,得到训练样本。其中,增强方式主要包括随机旋转(-30°~30°)、水平翻转(50%的概率)、高斯模糊、调整亮度、调整对比度。
步骤(2):本发明的主网络均使用残差网络(ResNet),并使用官方提供的预训练模型进行初始化,因此更容易优化。残差网络的结构解决了增加深度带来的副作用(退化问题)。
如图3所示,针对低分辨率通道,根据步骤S104,对训练样本进行降采样,降采样的操作为对256×256×3px的样本进行两次maxpool,卷积核大小为3×3,步长为2,输出降采样后的样本,尺寸为64×64×3px;使用ResNet50的conv1_x至conv3_x对降采样样本进行训练,共计21层,并设计一个损失函数用来监督特征图的训练。
具体的网络参数配置如表1所示:
表1网络参数配置
其中,对conv1_x,卷积操作的参数分别表示卷积核的大小(7×7),通道数(64)以及步长(stride=2);对conv2_x,第一层maxpool为池化层,卷积核的大小为3×3,步长为2;第二层为三个残差模块(BottleNeck,如图4-(B)所示),每个残差模块中,卷积核的大小分别为1×1,3×3,1×1,通道数分别为64,64,256;对conv3_x,包含四个残差模块(BottleNeck,如图4-(B)所示),每个残差模块中,卷积核的大小为分别为1×1,3×3,1×1,通道数分别为128,128,512。另外,每个卷积操作之后都会经过一个ReLU激活函数以及Batch Normalization正则化层。最终,conv2_x将输出一个大小为256×16×16的特征图,conv3_x将输出一个大小为512×8×8的特征图,将两个特征图输入如图5所示的神经网络结构,对热力图进行估计。设计中继监督,采用L2loss对网络结构进行监督训练。设计损失函数为L2函数,假设特征点的个数为L,Xi为预测值,为真实值,具体数学表达式为:
训练过程中,采用Adam算法即自适应时刻估计方法(Adaptive MomentEstimation)进行梯度下降,训练策略如图5所示。最终输出的热力图的大小为L×32×32。
步骤(3):如图3所示,针对高分辨率通道,根据步骤S103,使用ResNet18的conv1_x至conv3_x对样本进行特征提取,共9层,具体的网络参数配置如表2所示:
表2网络参数配置
其中,对conv1_x,卷积操作的参数分别表示卷积核的大小(7×7),通道数(64)以及步长(stride=2);对conv2_x,第一层maxpool为池化层,卷积核的大小为3×3,步长为2;第二层为两个残差模块(Basic Block,如图4-(A)所示),每个残差模块中,卷积核的大小为3×3,通道数为64;对conv3_x,包含两个残差模块(Basic Block,如图4-(A)所示),每个残差模块中,卷积核的大小为3×3,通道数为128。另外,每个卷积操作之后都会经过一个ReLU激活函数以及Batch Normalization正则化层。最终,将输出一个大小为128×32×32的特征图。
步骤(4):如图7所示,根据步骤S105,将高分辨率通道与低分辨率通道的输出作为注意力模块的输入,其中高分辨率通道的输出为大小为128×32×32的特征图F,低分辨率通道的输出为L×32×32的低精度热力图M。通过连接操作,将F与M一同输入到如图8所示的具有沙漏结构的特征融合网络,网络参数设计如表3所示,其中,每个卷积操作之后都会经过一个ReLU激活函数以及Batch Normalization正则化层。
表3网络参数设计
由图7可知,本结构设计主要借助于注意力机制的思想,利用低分辨率通道的输出的M提高F中对应位置的权值,使得网络的学习更加集中于关键点的似然区域。
具有沙漏结构的特征融合网络的融合机制为:
其中,为矩阵连接操作,为对应元素相乘操作;为特征融合网络的输入到输出的映射,该特征融合网络拥有对称结构,可以有效保持浅层特征与高层语义信息。为实现以零为中心的非线性映射在特征融合网络输出层引入tanh激活函数。经过特征映射后,得到特征值范围为-1~1的权重特征图W。tanh激活函数即双曲正切函数,表达式为:
该函数的绘制如图9所示,该函数是一个奇函数,其函数图像为过原点并且穿越Ⅰ、III象限的严格单调递增曲线,其图像被限制在两水平渐近线y=1和y=-1之间。因此,在经过tanh激活函数之后,针对原始的特征图F,融合注意力机制,权重特征图W将对应位置的权重进行增强或削弱,筛选出与任务相关的图像特征,并与F进行连接,以保证原图中其他有效信息不丢失,获得注意力模块的输出H,将H经过一个残差层BottleNeck模块和一个3×3的卷积模块,获得最终的热力图。
步骤(5):特征融合的过程可视化示意图如图10所示,图10-(A)为原图经过低分辨率通道降采样,并使用ResNet50对关键点进行粗略预测所生成的低精度关键点热力图,可以看出,由于输入样本的参数量小(64×64×3px),对关键点的预测并不是十分精确,但是这个粗略的关键点热力图可以有效提取出关键点似然区域;图10-(B)为原图经过高分辨率通道的ResNet18进行特征提取得到的特征图,由于原图的眼睛和眉毛区域被墨镜所遮挡,特征图无法正确反映眼睛与眉毛的轮廓。然而,经过将10-(B)中的特征图与10-(A)中低分辨率通道的低精度热力图融合,特征图中眉毛与眼睛似然区域的权重提高(如图10-(C)所示),有效辅助了网络对困难样本的关键点检测。
如图2所示,针对网络的最终输出的特征图,设计损失函数为L2函数,假设特征点的个数为L,Xi为预测值,为真实值,具体数学表达式为:
训练过程中,采用Adam算法即自适应时刻估计方法(Adaptive MomentEstimation)进行梯度下降,训练策略如图5所示。最终输出的热力图的大小为L×32×32。
测试阶段流程如图2所示,根据步骤S106,将最终生成的关键点热力图(如图10-(D)所示)转化为关键点坐标,由于最终生成的热力图大小为L×32×32,转化的原则为提取每张热力图(大小为32×32)中最大值所在位置为关键点的坐标位置,共L张;由于网络输入的样本是根据人脸框剪裁之后的人脸图片,需要将提取到的关键点坐标映射回原图片。
当输入大小为256×256时,热力图的大小为32×32,即为原图大小的1/8时,提取坐标值的步骤如下:
步骤5-1:对网络输出的热力图进行高斯模糊;
步骤5-2:在热力图中提取最大值所在位置坐标和次最大值的坐标位置
步骤5-3:设置超参数Δ=0.25,根据下式计算得到热力图中的坐标
步骤5-4:根据热力图中的坐标根据下式将映射回原始图片,得到最终坐标
其中(x1,y1)和(x2,y2)分别为人脸框在原始图片上的左上角和右下角的坐标值。
本发明利用公开数据集300W进行训练,并验证设计方法的可行性。300W数据集的使用协议为:训练集使用AFW全体数据集,HELEN训练集以及LFPW训练集,共计3148张;测试集为HELEN测试集,LFPW测试集以及IBUG数据集,共计689张,其中HELEN测试集与LFPW测试集被称为简单测试集,共计554张,IBUG数据集被称为困难测试集。300W的每个样本包含68个特征点,其中包括轮廓点17个,左右眉毛各5个点共计10个点,左右眼睛各6个点共计12个点,鼻子9个点以及嘴巴20个点,该数据集的人脸特征点较为稠密,可以利用特征点对人脸图像进行美颜、换脸、姿态矫正等操作。
步骤(6):在300W测试集上进行测试,测试集全集(Full)主要构成为HELEN测试集,LFPW测试集以及IBUG数据集,共计689张,其中HELEN测试集与LFPW测试集被称为简单测试集(Common),共计554张,IBUG数据集被称为困难测试集,共计135张(Challenge)。测试协议使用外眼角距离(inter-ocular)为归一化标准,定义测试集的误差率为:
其中,样本数为N,特征点的个数为L,Xi为预测值,为真实值,disti为第i个样本的外眼角距离。最终本发明的测试误差如表4所示(单位:×10-2):
表4测试误差
使用一张GPU(型号为NVIDIA Tesla V100 PCI-E),测试速度约为每秒100帧。一般的视频为24~30帧,因此本发明的测试速度完全可以应用于实时的视频关键点检测中。
综上所述,本发明提供了一种精确度高,检测速度快的人脸关键点检测模型,有效提高大姿态、遮挡、低分辨率下的人脸关键点检测精度,超过了目前相关领域绝大部分主流算法的精度和速度。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种基于注意力机制的人脸关键点检测方法,其特征在于,包括如下步骤:
步骤(1):针对一张原始图片,使用数据集提供的人脸检测框对原始图片中的人脸区域进行剪裁,并归一化为256×256×3px,再对归一化后的图像进行数据增强,得到训练样本;
步骤(2):针对高分辨率通道,使用ResNet18的conv1_x至conv3_x对训练样本进行特征提取,输出一个大小为128×32×32的特征图F;
步骤(3):针对低分辨率通道,先将训练样本降采样为64×64×3px,再使用ResNet50的conv1_x至conv3_x对降采样后的训练样本进行特征提取,输出一个低精度的关键点热力图M,大小为L×32×32,其中L为关键点的个数;
步骤(4):将特征图F与低精度的关键点热力图M一同输入到注意力模块中,该模块包含一个具有沙漏结构的特征融合网络,注意力模块的输出H经过一个残差层BottleNeck模块和一个3×3的卷积模块,获得高精度的关键点热力图;
步骤(5):采用坐标变换,将高精度的关键点热力图转化为关键点坐标,并将提取到的关键点坐标映射回原始图片,完成关键点的检测。
2.如权利要求1所述的一种基于注意力机制的人脸关键点检测方法,其特征在于,步骤(1)中的增强方式包括随机旋转、水平翻转、高斯模糊、调整亮度以及调整对比度。
3.如权利要求1所述的一种基于注意力机制的人脸关键点检测方法,其特征在于,所述步骤(4)的具有沙漏结构的特征融合网络的融合机制为:
其中,为矩阵连接操作,为对应元素相乘操作;为特征融合网络输入到输出的映射;经过特征映射后,得到特征值范围为-1~1的权重特征图W;在特征融合网络输出层引入tanh激活函数,tanh激活函数即双曲正切函数;H为注意力模块输出的特征图。
4.如权利要求1所述的一种基于注意力机制的人脸关键点检测方法,其特征在于,所述步骤(5)的关键点热力图转化为关键点坐标的步骤为:
其中,Δ=0.25,为热力图中最大值所在位置坐标,为次最大值的坐标位置;
根据下式将映射回原始图片,得到最终坐标
其中(x1,y1)和(x2,y2)分别为人脸检测框在原始图片上的左上角和右下角的坐标值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910531637.6A CN110287846B (zh) | 2019-06-19 | 2019-06-19 | 一种基于注意力机制的人脸关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910531637.6A CN110287846B (zh) | 2019-06-19 | 2019-06-19 | 一种基于注意力机制的人脸关键点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287846A true CN110287846A (zh) | 2019-09-27 |
CN110287846B CN110287846B (zh) | 2023-08-04 |
Family
ID=68005234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910531637.6A Active CN110287846B (zh) | 2019-06-19 | 2019-06-19 | 一种基于注意力机制的人脸关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287846B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738654A (zh) * | 2019-10-18 | 2020-01-31 | 中国科学技术大学 | 髋关节影像中的关键点提取及骨龄预测方法 |
CN110781845A (zh) * | 2019-10-29 | 2020-02-11 | 北京迈格威科技有限公司 | 基于图像统计目标对象的方法、装置和电子*** |
CN110895809A (zh) * | 2019-10-18 | 2020-03-20 | 中国科学技术大学 | 准确提取髋关节影像中关键点的方法 |
CN110929638A (zh) * | 2019-11-20 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111310850A (zh) * | 2020-03-02 | 2020-06-19 | 杭州雄迈集成电路技术股份有限公司 | 车牌检测模型的构建方法及***、车牌检测方法及*** |
CN111476727A (zh) * | 2020-03-26 | 2020-07-31 | 南京信息工程大学 | 一种面向换脸视频检测的视频运动增强方法 |
CN111523480A (zh) * | 2020-04-24 | 2020-08-11 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN111639596A (zh) * | 2020-05-29 | 2020-09-08 | 上海锘科智能科技有限公司 | 基于注意力机制和残差网络的抗眼镜遮挡人脸识别方法 |
CN111768342A (zh) * | 2020-09-03 | 2020-10-13 | 之江实验室 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
CN111767774A (zh) * | 2019-12-04 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 目标图像的生成方法、装置和计算机可读存储介质 |
CN111881746A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于信息融合的人脸特征点定位方法及*** |
CN111881743A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于语义分割的人脸特征点定位方法 |
CN112052843A (zh) * | 2020-10-14 | 2020-12-08 | 福建天晴在线互动科技有限公司 | 一种从粗到精的人脸关键点检测方法 |
CN112084911A (zh) * | 2020-08-28 | 2020-12-15 | 安徽清新互联信息科技有限公司 | 一种基于全局注意力的人脸特征点定位方法及*** |
CN112101191A (zh) * | 2020-09-11 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 基于边框注意力网络的表情识别方法、装置、设备及介质 |
CN112329598A (zh) * | 2020-11-02 | 2021-02-05 | 杭州格像科技有限公司 | 人脸关键点定位的方法、***、电子装置和存储介质 |
CN112347896A (zh) * | 2020-11-02 | 2021-02-09 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的头部数据处理方法及装置 |
CN112417991A (zh) * | 2020-11-02 | 2021-02-26 | 武汉大学 | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
CN112417947A (zh) * | 2020-09-17 | 2021-02-26 | 重庆紫光华山智安科技有限公司 | 关键点检测模型的优化及面部关键点的检测方法及装置 |
CN112464809A (zh) * | 2020-11-26 | 2021-03-09 | 北京奇艺世纪科技有限公司 | 一种人脸关键点检测方法、装置、电子设备及存储介质 |
CN112580721A (zh) * | 2020-12-19 | 2021-03-30 | 北京联合大学 | 一种基于多分辨率特征融合的目标关键点检测方法 |
CN112699847A (zh) * | 2021-01-15 | 2021-04-23 | 苏州大学 | 基于深度学习的人脸特征点检测方法 |
CN112883941A (zh) * | 2021-04-16 | 2021-06-01 | 哈尔滨理工大学 | 一种基于并行神经网络的人脸表情识别方法 |
CN113255700A (zh) * | 2021-06-10 | 2021-08-13 | 展讯通信(上海)有限公司 | 图像的特征图的处理方法及装置、存储介质、终端 |
CN113255530A (zh) * | 2021-05-31 | 2021-08-13 | 合肥工业大学 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
CN113449681A (zh) * | 2021-07-15 | 2021-09-28 | 东南大学 | 一种联合注意力机制的3d人体姿态识别双分支网络模型 |
CN113688664A (zh) * | 2021-07-08 | 2021-11-23 | 三星(中国)半导体有限公司 | 人脸关键点检测方法和人脸关键点检测装置 |
CN113870215A (zh) * | 2021-09-26 | 2021-12-31 | 推想医疗科技股份有限公司 | 中线提取方法及装置 |
CN114005169A (zh) * | 2021-12-31 | 2022-02-01 | 中科视语(北京)科技有限公司 | 人脸关键点检测方法、装置、电子设备及存储介质 |
CN114067359A (zh) * | 2021-11-03 | 2022-02-18 | 天津理工大学 | 融合人体关键点与可见部位注意力特征的行人检测方法 |
WO2022089360A1 (zh) * | 2020-10-28 | 2022-05-05 | 广州虎牙科技有限公司 | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140003709A1 (en) * | 2012-06-28 | 2014-01-02 | Honda Motor Co., Ltd. | Road marking detection and recognition |
WO2018153322A1 (zh) * | 2017-02-23 | 2018-08-30 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN109447053A (zh) * | 2019-01-09 | 2019-03-08 | 江苏星云网格信息技术有限公司 | 一种基于双重限制注意力神经网络模型的人脸识别方法 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109508654A (zh) * | 2018-10-26 | 2019-03-22 | 中国地质大学(武汉) | 融合多任务和多尺度卷积神经网络的人脸分析方法及*** |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
CN109726659A (zh) * | 2018-12-21 | 2019-05-07 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 |
CN109886121A (zh) * | 2019-01-23 | 2019-06-14 | 浙江大学 | 一种遮挡鲁棒的人脸关键点定位方法 |
-
2019
- 2019-06-19 CN CN201910531637.6A patent/CN110287846B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140003709A1 (en) * | 2012-06-28 | 2014-01-02 | Honda Motor Co., Ltd. | Road marking detection and recognition |
WO2018153322A1 (zh) * | 2017-02-23 | 2018-08-30 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN109508654A (zh) * | 2018-10-26 | 2019-03-22 | 中国地质大学(武汉) | 融合多任务和多尺度卷积神经网络的人脸分析方法及*** |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
CN109726659A (zh) * | 2018-12-21 | 2019-05-07 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 |
CN109447053A (zh) * | 2019-01-09 | 2019-03-08 | 江苏星云网格信息技术有限公司 | 一种基于双重限制注意力神经网络模型的人脸识别方法 |
CN109886121A (zh) * | 2019-01-23 | 2019-06-14 | 浙江大学 | 一种遮挡鲁棒的人脸关键点定位方法 |
Non-Patent Citations (2)
Title |
---|
DEBIAO ZHANG 等: "Diabetic Retinopathy Classification using Deeply Supervised ResNet", 《2017 IEEE SMARTWORLD, UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTED, SCALABLE COMPUTING & COMMUNICATIONS, CLOUD & BIG DATA COMPUTING, INTERNET OF PEOPLE AND SMART CITY INNOVATION 》 * |
陈聪 等: "一种改进的卷积神经网络行人识别方法", 《应用科技》 * |
Cited By (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738654B (zh) * | 2019-10-18 | 2022-07-15 | 中国科学技术大学 | 髋关节影像中的关键点提取及骨龄预测方法 |
CN110895809A (zh) * | 2019-10-18 | 2020-03-20 | 中国科学技术大学 | 准确提取髋关节影像中关键点的方法 |
CN110738654A (zh) * | 2019-10-18 | 2020-01-31 | 中国科学技术大学 | 髋关节影像中的关键点提取及骨龄预测方法 |
CN110895809B (zh) * | 2019-10-18 | 2022-07-15 | 中国科学技术大学 | 准确提取髋关节影像中关键点的方法 |
CN110781845A (zh) * | 2019-10-29 | 2020-02-11 | 北京迈格威科技有限公司 | 基于图像统计目标对象的方法、装置和电子*** |
CN110781845B (zh) * | 2019-10-29 | 2023-04-07 | 北京迈格威科技有限公司 | 基于图像统计目标对象的方法、装置和电子*** |
CN110929638B (zh) * | 2019-11-20 | 2023-03-07 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN110929638A (zh) * | 2019-11-20 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111767774A (zh) * | 2019-12-04 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 目标图像的生成方法、装置和计算机可读存储介质 |
CN111310850B (zh) * | 2020-03-02 | 2023-06-16 | 杭州雄迈集成电路技术股份有限公司 | 车牌检测模型的构建方法及***、车牌检测方法及*** |
CN111310850A (zh) * | 2020-03-02 | 2020-06-19 | 杭州雄迈集成电路技术股份有限公司 | 车牌检测模型的构建方法及***、车牌检测方法及*** |
CN111476727A (zh) * | 2020-03-26 | 2020-07-31 | 南京信息工程大学 | 一种面向换脸视频检测的视频运动增强方法 |
CN111523480A (zh) * | 2020-04-24 | 2020-08-11 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN111523480B (zh) * | 2020-04-24 | 2021-06-18 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN111639596A (zh) * | 2020-05-29 | 2020-09-08 | 上海锘科智能科技有限公司 | 基于注意力机制和残差网络的抗眼镜遮挡人脸识别方法 |
CN111639596B (zh) * | 2020-05-29 | 2023-04-28 | 上海锘科智能科技有限公司 | 基于注意力机制和残差网络的抗眼镜遮挡人脸识别方法 |
CN111881746A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于信息融合的人脸特征点定位方法及*** |
CN111881746B (zh) * | 2020-06-23 | 2024-04-02 | 安徽清新互联信息科技有限公司 | 一种基于信息融合的人脸特征点定位方法及*** |
CN111881743B (zh) * | 2020-06-23 | 2024-06-07 | 安徽清新互联信息科技有限公司 | 一种基于语义分割的人脸特征点定位方法 |
CN111881743A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于语义分割的人脸特征点定位方法 |
CN112084911A (zh) * | 2020-08-28 | 2020-12-15 | 安徽清新互联信息科技有限公司 | 一种基于全局注意力的人脸特征点定位方法及*** |
CN112084911B (zh) * | 2020-08-28 | 2023-03-07 | 安徽清新互联信息科技有限公司 | 一种基于全局注意力的人脸特征点定位方法及*** |
CN111768342A (zh) * | 2020-09-03 | 2020-10-13 | 之江实验室 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
CN112101191A (zh) * | 2020-09-11 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 基于边框注意力网络的表情识别方法、装置、设备及介质 |
CN112417947B (zh) * | 2020-09-17 | 2021-10-26 | 重庆紫光华山智安科技有限公司 | 关键点检测模型的优化及面部关键点的检测方法及装置 |
CN112417947A (zh) * | 2020-09-17 | 2021-02-26 | 重庆紫光华山智安科技有限公司 | 关键点检测模型的优化及面部关键点的检测方法及装置 |
CN112052843A (zh) * | 2020-10-14 | 2020-12-08 | 福建天晴在线互动科技有限公司 | 一种从粗到精的人脸关键点检测方法 |
CN112052843B (zh) * | 2020-10-14 | 2023-06-06 | 福建天晴在线互动科技有限公司 | 一种从粗到精的人脸关键点检测方法 |
WO2022089360A1 (zh) * | 2020-10-28 | 2022-05-05 | 广州虎牙科技有限公司 | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 |
CN112347896A (zh) * | 2020-11-02 | 2021-02-09 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的头部数据处理方法及装置 |
CN112329598B (zh) * | 2020-11-02 | 2024-05-31 | 杭州格像科技有限公司 | 人脸关键点定位的方法、***、电子装置和存储介质 |
CN112417991A (zh) * | 2020-11-02 | 2021-02-26 | 武汉大学 | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
CN112329598A (zh) * | 2020-11-02 | 2021-02-05 | 杭州格像科技有限公司 | 人脸关键点定位的方法、***、电子装置和存储介质 |
CN112417991B (zh) * | 2020-11-02 | 2022-04-29 | 武汉大学 | 基于沙漏胶囊网络的双注意力人脸对齐方法 |
CN112464809A (zh) * | 2020-11-26 | 2021-03-09 | 北京奇艺世纪科技有限公司 | 一种人脸关键点检测方法、装置、电子设备及存储介质 |
CN112464809B (zh) * | 2020-11-26 | 2023-06-06 | 北京奇艺世纪科技有限公司 | 一种人脸关键点检测方法、装置、电子设备及存储介质 |
CN112580721A (zh) * | 2020-12-19 | 2021-03-30 | 北京联合大学 | 一种基于多分辨率特征融合的目标关键点检测方法 |
CN112580721B (zh) * | 2020-12-19 | 2023-10-24 | 北京联合大学 | 一种基于多分辨率特征融合的目标关键点检测方法 |
WO2022151535A1 (zh) * | 2021-01-15 | 2022-07-21 | 苏州大学 | 基于深度学习的人脸特征点检测方法 |
CN112699847A (zh) * | 2021-01-15 | 2021-04-23 | 苏州大学 | 基于深度学习的人脸特征点检测方法 |
CN112699847B (zh) * | 2021-01-15 | 2021-12-07 | 苏州大学 | 基于深度学习的人脸特征点检测方法 |
CN112883941A (zh) * | 2021-04-16 | 2021-06-01 | 哈尔滨理工大学 | 一种基于并行神经网络的人脸表情识别方法 |
CN113255530B (zh) * | 2021-05-31 | 2024-03-29 | 合肥工业大学 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
CN113255530A (zh) * | 2021-05-31 | 2021-08-13 | 合肥工业大学 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
CN113255700A (zh) * | 2021-06-10 | 2021-08-13 | 展讯通信(上海)有限公司 | 图像的特征图的处理方法及装置、存储介质、终端 |
CN113688664B (zh) * | 2021-07-08 | 2024-04-26 | 三星(中国)半导体有限公司 | 人脸关键点检测方法和人脸关键点检测装置 |
CN113688664A (zh) * | 2021-07-08 | 2021-11-23 | 三星(中国)半导体有限公司 | 人脸关键点检测方法和人脸关键点检测装置 |
CN113449681B (zh) * | 2021-07-15 | 2022-11-18 | 东南大学 | 一种联合注意力机制的3d人体姿态识别双分支网络模型 |
CN113449681A (zh) * | 2021-07-15 | 2021-09-28 | 东南大学 | 一种联合注意力机制的3d人体姿态识别双分支网络模型 |
CN113870215A (zh) * | 2021-09-26 | 2021-12-31 | 推想医疗科技股份有限公司 | 中线提取方法及装置 |
CN114067359A (zh) * | 2021-11-03 | 2022-02-18 | 天津理工大学 | 融合人体关键点与可见部位注意力特征的行人检测方法 |
CN114067359B (zh) * | 2021-11-03 | 2024-05-07 | 天津理工大学 | 融合人体关键点与可见部位注意力特征的行人检测方法 |
CN114005169A (zh) * | 2021-12-31 | 2022-02-01 | 中科视语(北京)科技有限公司 | 人脸关键点检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110287846B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287846A (zh) | 一种基于注意力机制的人脸关键点检测方法 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
Chen et al. | Progressive semantic-aware style transformation for blind face restoration | |
TWI728465B (zh) | 圖像處理方法和裝置、電子設備及儲存介質 | |
CN109949255B (zh) | 图像重建方法及设备 | |
CN109101914B (zh) | 一种基于多尺度的行人检测方法和装置 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
KR20220066945A (ko) | 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 | |
CN108898043A (zh) | 图像处理方法、图像处理装置以及存储介质 | |
CN107465911B (zh) | 一种深度信息提取方法及装置 | |
CN109819321A (zh) | 一种视频超分辨率增强方法 | |
CN104036481B (zh) | 一种基于深度信息提取的多聚焦图像融合方法 | |
CN112307826A (zh) | 行人检测方法、装置、计算机可读存储介质和芯片 | |
CN110610526A (zh) | 一种基于wnet对单目人像进行分割和景深渲染的方法 | |
CN110111316A (zh) | 基于眼部图像识别弱视的方法及*** | |
CN111814603B (zh) | 一种人脸识别方法、介质及电子设备 | |
CN112581370A (zh) | 人脸图像的超分辨率重建模型的训练及重建方法 | |
CN111815665A (zh) | 基于深度信息与尺度感知信息的单张图像人群计数方法 | |
CN112149563A (zh) | 一种注意力机制人体图像关键点姿态估计方法及*** | |
CN109961397B (zh) | 图像重建方法及设备 | |
CN113095470A (zh) | 神经网络的训练方法、图像处理方法及装置、存储介质 | |
CN113298742A (zh) | 基于图像配准的多模态视网膜图像融合方法及*** | |
CN115239581A (zh) | 一种图像处理方法及相关装置 | |
CN113076884A (zh) | 一种从近红外光到可见光的跨模态眼睛状态识别方法 | |
CN114170290A (zh) | 图像的处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |