CN112115783A - 基于深度知识迁移的人脸特征点检测方法、装置及设备 - Google Patents

基于深度知识迁移的人脸特征点检测方法、装置及设备 Download PDF

Info

Publication number
CN112115783A
CN112115783A CN202010809064.1A CN202010809064A CN112115783A CN 112115783 A CN112115783 A CN 112115783A CN 202010809064 A CN202010809064 A CN 202010809064A CN 112115783 A CN112115783 A CN 112115783A
Authority
CN
China
Prior art keywords
face
network
training
feature
student
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010809064.1A
Other languages
English (en)
Other versions
CN112115783B (zh
Inventor
吕科
高鹏程
薛健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN202010809064.1A priority Critical patent/CN112115783B/zh
Publication of CN112115783A publication Critical patent/CN112115783A/zh
Application granted granted Critical
Publication of CN112115783B publication Critical patent/CN112115783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例公开了基于深度知识迁移的人脸特征点检测方法、装置及设备,该方法包括:提供人脸数据集,根据人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集;将测试样本和训练样本输入到初始人脸对齐网络框架中;利用Pytorch训练初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型;冻结教师网络的模型参数,提取教师网络学习的深层暗知识传递给学生网络生成最终人脸对齐网络模型;将自然场景下的RGB人脸图像输入至最终人脸对齐网络模型中,输出人脸特征点检测结果。本发明人脸特征点检测精度稿,模型参数量和计算复杂度低。

Description

基于深度知识迁移的人脸特征点检测方法、装置及设备
技术领域
本发明实施例涉及计算机视觉和数字图像处理领域,具体涉及基于深度知识迁移的人脸特征点检测方法、装置及设备。
背景技术
现有对人脸特征点检测的方法,对于自然场景下的人脸特征点定位不能有效的解决,复杂的方法模型参数量庞大,计算复杂度较高,无法满足运行速度的需求。简单的方法无法应对自然场景下极端姿态、多变光照、严重遮挡等因素的干扰,精度无法达到应用要求。
发明内容
本发明实施例的目的在于提供基于深度知识迁移的人脸特征点检测方法、装置及设备,用以解决现有人脸特征点检测计算复杂度较高、运行速度慢和精度低的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种基于深度知识迁移的人脸特征点检测方法,包括:
S1:提供包含人脸特征点标注的人脸数据集,根据所述人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集;
S2:从所述训练集中获取训练样本,并从所述测试集中获取测试样本,将所述测试样本和所述训练样本输入到初始人脸对齐网络框架中;
S3:设置卷积神经网络的参数,利用Pytorch训练所述初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型;
S4:冻结教师网络的模型参数,提取所述教师网络学习的深层暗知识,将所述深层暗知识传递给所述学生网络,监督所述学生网络的训练过程生成最终人脸对齐网络模型;
S5:将自然场景下的RGB人脸图像输入至所述最终人脸对齐网络模型中,输出人脸特征点检测结果。
在本发明一个实施例中,步骤S1包括:
S1-1:提供WFLW数据集,所述WFLW数据集包括N张训练图片和M张测试图片,每张图片具有图片标签,所述图片信息包括人脸框信息、人脸特征点位置信息和多个属性信息,N和M均为大于零的正整数;
S1-2:根据所述人脸数据集提供的人脸检测框对人脸图像进行裁剪,同时对所述人脸检测框进行扰动,对所述人脸图像施加随机旋转、尺寸缩放和翻转,以进行数据增强得到所述训练集、所述验证集和所述测试集。
在本发明一个实施例中,通过以下方式生成所述初始人脸对齐网络框架:
采用编码器-解码器的网络结构生成所述教师网格,教师网格编码器包括三个上采样层与卷积层,所述教师网格编码器用于对输入图像进行特征提取和编码,保留原始网络的特征提取信息,移除最后的平均池化层、用来分类的全连接层和最后一个升维的1×1卷积层;
在所述编码器后添加所述解码器,对所述编码器提取的图像特征进行空间上采样得到特征图,将所述特征图的通道维数转换为人脸特征点的数量,使用空间softargmax运算在变换后的每张特征图上计算期望得到对应的人脸特征点坐标;
提供EfficientFAN结构的学生网络,学生网络编码器包括三个上采样层与卷积层,所述学生网络用于最终的人脸特征点检测,使用EfficientNet-B0作为所述学生网络编码器的主干部分,移除EfficientNet-B0最后的平均池化层、用来分类的全连接层和最后一个升维的1×1卷积层;
在所述学生网格编码器之后添加了一个1×1的卷积层,将所述学生网格编码器上采样得到特征图的通道数转换为人脸特征点的数目,使用空间softargmax运算在转换后的特征图上计算人脸特征点的坐标。
在本发明一个实施例中,步骤S3包括:
单独地训练所述教师网络和所述学生网络,使用特征点损失函数LP对网络参数进行优化,特征点损失函数LP通过Wingloss损失函数计算,Wingloss损失函数如下表示:
Figure BDA0002630256640000031
Figure BDA0002630256640000032
其中,P∈R1×2N是预测的人脸特征点坐标向量,G∈R1×2N是真实的人脸特征点坐标向量,N是人脸特征点的数目,ω、∈是f(x)的预设参数。
在本发明一个实施例中,在步骤S4中,提取所述教师网络学习的深层暗知识,包括:
基于特征对齐的知识蒸馏方法提取特征图上的像素分布信息,对齐所述教师网络和所述学生网络特征图的像素分布,特征对齐的知识蒸馏损失函数为:
Figure BDA0002630256640000033
其中A和B分别是所述教师网络和所述学生网络在同一阶段的特征图,
Figure BDA0002630256640000034
是一个1×1的卷积层用于对齐A和B两个特征图的通道维度。
在本发明一个实施例中,在步骤S4中,将所述深层暗知识传递给所述学生网络,包括:
基于块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息,将人脸图像的结构化信息由所述教师网络传递给所述学生网络。
第二方面,本发明实施例还提供一种基于深度知识迁移的人脸特征点检测装置,包括:
提供模块,用于提供包含人脸特征点标注的人脸数据集,根据所述人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集;
输出模块;
控制处理模块,用于从所述训练集中获取训练样本,并从所述测试集中获取测试样本,将所述测试样本和所述训练样本输入到初始人脸对齐网络框架中;所述控制处理模块还用于设置卷积神经网络的参数,利用Pytorch训练所述初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型;所述控制处理模块还用于冻结教师网络的模型参数,提取所述教师网络学习的深层暗知识,将所述深层暗知识传递给所述学生网络,监督所述学生网络的训练过程生成最终人脸对齐网络模型;所述控制处理模块还用于将自然场景下的RGB人脸图像输入至所述最终人脸对齐网络模型中,通过所述输出模块输出人脸特征点检测结果。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的基于深度知识迁移的人脸特征点检测方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的基于深度知识迁移的人脸特征点检测方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例提供的基于深度知识迁移的人脸特征点检测方法、装置及设备,采用EfficientFAN作为简单有效的轻量化模型,基于上采样与深度可分离卷积的解码器结构快速实现了特征图的上采样恢复过程,有效地保存了特征图的空间信息。
本发明与当前先进的大型复杂模型相比,可以达到可比的人脸特征点检测精度,但模型参数量和计算复杂度明显降低。
本发明使用知识蒸馏方法和知识迁移模块提高学生网络EfficientFAN人脸特征点定位的准确性,提出了块相似性知识蒸馏方法学习人脸多尺度的结构信息,结合特征对齐知识蒸馏学习特征图上的像素分布信息,共同监督和指导EfficientFAN的训练过程。在不改变网络结构和不增加模型参数的前提下,EfficientFAN通过知识迁移方法获得了更准确地人脸特征点检测结果。在公开数据集上的实验结果表明EfficientFAN是一个简单有效的人脸特征点检测网络,知识蒸馏方法有效地提升了人脸特征点检测的精度。二者结合之下,EfficientFAN具有相当优越的性能,精度与速度兼具。
附图说明
图1为本发明的基于深度知识迁移的人脸特征点检测方法的流程图。
图2为本发明的基于深度知识迁移的人脸特征点检测装置的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”和“连接”应做广义理解,例如可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明的基于深度知识迁移的人脸特征点检测方法的流程图。如图1所示,本发明的基于深度知识迁移的人脸特征点检测方法,包括:
S1:提供包含人脸特征点标注的人脸数据集,根据人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集。
具体地,步骤S1包括:
S1-1:提供WFLW数据集。该数据集开源于IEEE Conference on Computer Visionand Pattern Recognition 2018,共包含10000张图片(7500张训练图片和2500张测试图片)。每个图片标签提供了人脸框信息、98个人脸特征点位置信息以及6种属性信息(姿态、表情、光照、化妆、遮挡、模糊),并且根据图像属性信息将整个数据集划分为6类子集。
S1-2:根据人脸数据集提供的人脸检测框对人脸图像进行裁剪,同时对人脸检测框进行扰动,对人脸图像施加随机旋转、尺寸缩放和翻转,以进行数据增强得到训练集、验证集和测试集。
S2:从训练集中获取训练样本,并从测试集中获取测试样本,将测试样本和训练样本输入到初始人脸对齐网络框架中。
具体地,教师网络采用编码器-解码器网络结构,使用EfficientNet-B7作为其编码器的主干部分。编码器用于对输入图像进行特征提取和编码,仅保留原始网络的特征提取部分,移除了最后的平均池化层以及用来分类的全连接层,还移除了最后一个升维的1×1卷积层并且从最后一个反向残差模块处提取特征。这一操作使得教师网络提取得到的特征图的通道数相比于经过1×1卷积层之后的特征图拥有更小的通道数(640vs.2048),维持了更加原始的特征信息,不会因升维而丢失信息,低维的特征图也更适合解码器解析。
紧接在EfficientNet-B7的最后一个反向残差模块后添加解码器,对编码器提取的图像特征进行空间上采样,使用更自然的上采样方法提升特征图的空间维度,即利用上采样层与卷积层的组合替代反卷积,先使用一般的上采样方法对特征图进行空间上采样,之后在上采样的特征图基础上进行卷积运算丰富特征图的变换。
本发明使用三个上采样层与卷积层的组合作为人脸对齐网络的解码器,添加在编码器之后。网络模型中使用深度可分离卷积替代传统卷积运算,减少上采样过程中的计算量。
具体而言,上采样层的比例因子设定为2,即每个上采样得到的特征图长宽扩大为输入特征图的两倍,基于最近邻插值算法实现特征图的上采样。在解码器之后使用1×1的卷积层生成空间热力图,并将特征图的通道维数转换为人脸特征点的数量。使用空间softargmax运算在变换后的每张特征图上计算期望得到对应的人脸特征点坐标。
空间softargmax运算可以分为两步,第一步在输出特征图上使用softmax运算进行归一化,可表示为:
Figure BDA0002630256640000071
其中x,y是像素索引,exp表示指数函数,得到的M是归一化后的特征图。第二步,特征点l的坐标P最终可以表示为:
Figure BDA0002630256640000072
一个小型轻量化的学生网络,称为Efficient Face Alignment Network(EfficientFAN),具有与教师网络相似的网络结构,将用于最终的人脸特征点检测。使用EfficientNet-B0作为学生网络EfficientFAN编码器的主干部分。与教师网络相同,学生网络的编码器也删除了EfficientNet-B0中最后的平均池化层和用于分类的全连接层,以及最后一个升维的1×1卷积层。
同样地,使用三个上采样层与卷积层的组合作为学生网络的解码器,添加在编码器之后。每个上采样层的比例因子为2,每个卷积层的输出通道数目为128。在学生网络的解码器之后添加了一个1×1的卷积层,将解码器上采样得到特征图的通道数从128转换为人脸特征点的数目。
最后使用空间softargmax运算在转换后的特征图上计算人脸特征点的坐标。
Figure BDA0002630256640000081
Figure BDA0002630256640000091
表1学生网络
学生网络的具体结构如表1所示,其中MBConv表示Efficient使用的手机端反向残差模块(Mobile Inverted Bottleneck),DSConv表示深度可分离卷积,k代表卷积核的尺寸。
位于上方的教师网络和位于下方的学生网络通过知识迁移(KnowledgeTransfer)模块有机地联系在一起。
基于深度知识迁移的高效人脸对齐网络使用了两种知识蒸馏方法,以此将不同类型的暗知识由教师网络迁移给学生网络EfficientFAN。
特征对齐的知识蒸馏方法提取特征图上的像素分布信息,对齐教师网络和学生网络特征图的像素分布,使得学生网络的特征图分布向教师网络的分布靠近。
相应地,块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息,将人脸图像的结构化信息由教师网络传递给学生网络,使得简单的学生网络也能够学习到当前图像的人脸结构信息。
特征对齐蒸馏在教师网络和学生网络的同一阶段处对齐特征图的的通道维度,并直接比较教师网络特征图和对齐后的学生网络特征图之间的差异作为学生网络训练过程中的监督信息。
S3:设置卷积神经网络的参数,利用Pytorch训练初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型。
具体地,单独地训练教师网络和学生网络,仅使用特征点损失函数LP对网络参数进行优化。特征点损失函数LP通过Wing loss损失函数计算,Wing loss损失函数可以如下表示:
Figure BDA0002630256640000092
Figure BDA0002630256640000101
其中P∈R1×2N是预测的人脸特征点坐标向量,G∈R1×2N是真实的人脸特征点坐标向量,N是人脸特征点的数目。f(x)是一个特殊设计的损失函数,对于较小的误差,其表现为具有偏移量的对数损失函数;对于较大的误差,其表现为L1损失函数,ω、∈是f(x)的预设参数,
Figure BDA0002630256640000102
是一个常量。
S4:冻结教师网络的模型参数,提取教师网络学习的深层暗知识,将深层暗知识传递给学生网络,监督学生网络的训练过程生成最终人脸对齐网络模型。
具体地,特征对齐的知识蒸馏方法提取特征图上的像素分布信息,对齐教师网络和学生网络特征图的像素分布,使得学生网络的特征图分布向教师网络的分布靠近。特征对齐的知识蒸馏损失函数可以定义如下:
Figure BDA0002630256640000103
其中,A和B分别是教师网络和学生网络在同一阶段的特征图,
Figure BDA0002630256640000104
是一个1×1的卷积层用于对齐A和B两个特征图的通道维度。
块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息,将人脸图像的结构化信息由教师网络传递给学生网络,使得简单的学生网络也能够学习到当前图像的人脸结构信息。
为输入特征图构建不同尺度的关系图,并基于构建的关系图计算相似度矩阵。对于一个尺寸为H×W的特征图而言,可以按照不同尺寸的局部块对特征图区域进行划分。通常特征图的尺寸满足H=W=2n,以整幅特征图为连通域,基于不同尺寸的局部块为节点构建关系图,关系图中的节点可以设置为2k×2k,k=0,1,…,k-1大小的局部块。一幅2n×2n的特征图构建的节点尺寸为2k×2k的关系图包含2n-k×2n-k个局部块或者关系节点。简单起见,使用平均池化操作将2k×2k的局部块聚合为1×1的关系图节点。对于一个通道数为的特征图,构建的关系图中第个节点向量化可以表示为fi∈RC。使用向量的余弦相似度计算关系图中节点之间的相似关系,第i个节点向量fi和第j个节点向量fj之间的相似度aij计算如下所示。
Figure BDA0002630256640000111
特别地,教师网络和学生网络在相同阶段的中间特征图具有相同的分辨率和不同的通道数。假设教师网络的特征图为A∈RC×H×W,学生网络的特征图为B∈RC′×H×W,在此特征图上以2k×2k大小的局部块为节点构建的亲和图中,节点数目为4n-k,节点俩俩之间计算相似度关系可以得到一个4n-k×4n-k大小的相似度矩阵。令
Figure BDA0002630256640000112
表示教师网络特征图上以2k×2k大小的局部块为节点构建而成的关系图中第i个节点和第j个节点得到的余弦相似度,
Figure BDA0002630256640000113
表示学生网络对应的特征图上同样以2k×2k大小的局部块构建而成的关系图中第i个节点和第j个节点得到的余弦相似度,块相似性知识蒸馏方法的损失函数可以归纳如下,其中特征图的尺寸满足H=W=2n
Figure BDA0002630256640000114
结合特征对齐知识蒸馏方法和块相似性知识蒸馏方法,引入知识迁移损失函数LKT作为网络训练损失函数的一部分,监督学生网络的训练过程。学生网络不仅学***衡两个损失函数的影响,
Figure BDA0002630256640000115
Figure BDA0002630256640000116
分别是解码器第d阶段的块相似性知识蒸馏损失函数和特征对齐知识蒸馏损失函数。
Figure BDA0002630256640000117
S5:将自然场景下的RGB人脸图像输入至最终人脸对齐网络模型中,输出人脸特征点检测结果。
本发明实施例提供的基于深度知识迁移的人脸特征点检测方法,采用EfficientFAN作为简单有效的轻量化模型,基于上采样与深度可分离卷积的解码器结构快速实现了特征图的上采样恢复过程,有效地保存了特征图的空间信息。
本发明与当前先进的大型复杂模型相比,可以达到可比的人脸特征点检测精度,但模型参数量和计算复杂度明显降低。
本发明使用知识蒸馏方法和知识迁移模块提高学生网络EfficientFAN人脸特征点定位的准确性,提出了块相似性知识蒸馏方法学习人脸多尺度的结构信息,结合特征对齐知识蒸馏学习特征图上的像素分布信息,共同监督和指导EfficientFAN的训练过程。在不改变网络结构和不增加模型参数的前提下,EfficientFAN通过知识迁移方法获得了更准确地人脸特征点检测结果。在公开数据集上的实验结果表明EfficientFAN是一个简单有效的人脸特征点检测网络,知识蒸馏方法有效地提升了人脸特征点检测的精度。二者结合之下,EfficientFAN具有相当优越的性能,精度与速度兼具。
图2为本发明的基于深度知识迁移的人脸特征点检测装置的结构框图。如图2所示,本发明的基于深度知识迁移的人脸特征点检测装置包括:提供模块100、输出模块200和控制处理模块300。
其中,提供模块100用于提供包含人脸特征点标注的人脸数据集,根据人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集。控制处理模块300用于从训练集中获取训练样本,并从测试集中获取测试样本,将测试样本和训练样本输入到初始人脸对齐网络框架中。控制处理模块300还用于设置卷积神经网络的参数,利用Pytorch训练初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型。控制处理模块300还用于冻结教师网络的模型参数,提取教师网络学习的深层暗知识,将深层暗知识传递给学生网络,监督学生网络的训练过程生成最终人脸对齐网络模型。控制处理模块300还用于将自然场景下的RGB人脸图像输入至最终人脸对齐网络模型中,通过输出模块输出人脸特征点检测结果。
需要说明的是,本发明实施例的基于深度知识迁移的人脸特征点检测装置的具体实施方式与本发明实施例的基于深度知识迁移的人脸特征点检测方法的具体实施方式类似,具体参见基于深度知识迁移的人脸特征点检测方法部分的描述,为了减少冗余,不做赘述。
另外,本发明实施例的基于深度知识迁移的人脸特征点检测装置的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的基于深度知识迁移的人脸特征点检测方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的基于深度知识迁移的人脸特征点检测方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (9)

1.一种基于深度知识迁移的人脸特征点检测方法,其特征在于,包括:
S1:提供包含人脸特征点标注的人脸数据集,根据所述人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集;
S2:从所述训练集中获取训练样本,并从所述测试集中获取测试样本,将所述测试样本和所述训练样本输入到初始人脸对齐网络框架中;
S3:设置卷积神经网络的参数,利用Pytorch训练所述初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型;
S4:冻结教师网络的模型参数,提取所述教师网络学习的深层暗知识,将所述深层暗知识传递给所述学生网络,监督所述学生网络的训练过程生成最终人脸对齐网络模型;
S5:将自然场景下的RGB人脸图像输入至所述最终人脸对齐网络模型中,输出人脸特征点检测结果。
2.根据权利要求1所述的基于深度知识迁移的人脸特征点检测方法,其特征在于,步骤S1包括:
S1-1:提供WFLW数据集,所述WFLW数据集包括N张训练图片和M张测试图片,每张图片具有图片标签,所述图片信息包括人脸框信息、人脸特征点位置信息和多个属性信息,N和M均为大于零的正整数;
S1-2:根据所述人脸数据集提供的人脸检测框对人脸图像进行裁剪,同时对所述人脸检测框进行扰动,对所述人脸图像施加随机旋转、尺寸缩放和翻转,以进行数据增强得到所述训练集、所述验证集和所述测试集。
3.根据权利要求1所述的基于深度知识迁移的人脸特征点检测方法,其特征在于,通过以下方式生成所述初始人脸对齐网络框架:
采用编码器-解码器的网络结构生成所述教师网格,教师网格编码器包括三个上采样层与卷积层,所述教师网格编码器用于对输入图像进行特征提取和编码,保留原始网络的特征提取信息,移除最后的平均池化层、用来分类的全连接层和最后一个升维的1×1卷积层;
在所述编码器后添加所述解码器,对所述编码器提取的图像特征进行空间上采样得到特征图,将所述特征图的通道维数转换为人脸特征点的数量,使用空间softargmax运算在变换后的每张特征图上计算期望得到对应的人脸特征点坐标;
提供EfficientFAN结构的学生网络,学生网络编码器包括三个上采样层与卷积层,所述学生网络用于最终的人脸特征点检测,使用EfficientNet-B0作为所述学生网络编码器的主干部分,移除EfficientNet-B0最后的平均池化层、用来分类的全连接层和最后一个升维的1×1卷积层;
在所述学生网格编码器之后添加了一个1×1的卷积层,将所述学生网格编码器上采样得到特征图的通道数转换为人脸特征点的数目,使用空间softargmax运算在转换后的特征图上计算人脸特征点的坐标。
4.根据权利要求3所述的基于深度知识迁移的人脸特征点检测方法,其特征在于,步骤S3包括:
单独地训练所述教师网络和所述学生网络,使用特征点损失函数LP对网络参数进行优化,特征点损失函数LP通过Wing loss损失函数计算,Wing loss损失函数如下表示:
Figure FDA0002630256630000021
Figure FDA0002630256630000022
其中,P∈R1×2N是预测的人脸特征点坐标向量,G∈R1×2N是真实的人脸特征点坐标向量,N是人脸特征点的数目,ω、∈是f(x)的预设参数。
5.根据权利要求4所述的基于深度知识迁移的人脸特征点检测方法,其特征在于,在步骤S4中,提取所述教师网络学习的深层暗知识,包括:
基于特征对齐的知识蒸馏方法提取特征图上的像素分布信息,对齐所述教师网络和所述学生网络特征图的像素分布,特征对齐的知识蒸馏损失函数为:
Figure FDA0002630256630000031
其中A和B分别是所述教师网络和所述学生网络在同一阶段的特征图,
Figure FDA0002630256630000032
是一个1×1的卷积层用于对齐A和B两个特征图的通道维度。
6.根据权利要求5所述的基于深度知识迁移的人脸特征点检测方法,其特征在于,在步骤S4中,将所述深层暗知识传递给所述学生网络,包括:
基于块相似性的知识蒸馏方法提取不同尺度下的人脸结构信息,将人脸图像的结构化信息由所述教师网络传递给所述学生网络。
7.一种基于深度知识迁移的人脸特征点检测装置,其特征在于,包括:
提供模块,用于提供包含人脸特征点标注的人脸数据集,根据所述人脸数据集提供的人脸检测框或者人脸特征点的包围框对人脸图像进行裁剪得到训练集、验证集和测试集;
输出模块;
控制处理模块,用于从所述训练集中获取训练样本,并从所述测试集中获取测试样本,将所述测试样本和所述训练样本输入到初始人脸对齐网络框架中;所述控制处理模块还用于设置卷积神经网络的参数,利用Pytorch训练所述初始人脸对齐网络框架中的教师网络和学生网络,直至损失函数和最大迭代次数满足预定条件时生成训练模型;所述控制处理模块还用于冻结教师网络的模型参数,提取所述教师网络学习的深层暗知识,将所述深层暗知识传递给所述学生网络,监督所述学生网络的训练过程生成最终人脸对齐网络模型;所述控制处理模块还用于将自然场景下的RGB人脸图像输入至所述最终人脸对齐网络模型中,通过所述输出模块输出人脸特征点检测结果。
8.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-6任一项所述的基于深度知识迁移的人脸特征点检测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-6任一项所述的基于深度知识迁移的人脸特征点检测方法。
CN202010809064.1A 2020-08-12 2020-08-12 基于深度知识迁移的人脸特征点检测方法、装置及设备 Active CN112115783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010809064.1A CN112115783B (zh) 2020-08-12 2020-08-12 基于深度知识迁移的人脸特征点检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010809064.1A CN112115783B (zh) 2020-08-12 2020-08-12 基于深度知识迁移的人脸特征点检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112115783A true CN112115783A (zh) 2020-12-22
CN112115783B CN112115783B (zh) 2023-11-14

Family

ID=73805270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010809064.1A Active CN112115783B (zh) 2020-08-12 2020-08-12 基于深度知识迁移的人脸特征点检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112115783B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418195A (zh) * 2021-01-22 2021-02-26 电子科技大学中山学院 一种人脸关键点检测方法、装置、电子设备及存储介质
CN112633406A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于知识蒸馏的少样本目标检测方法
CN112634441A (zh) * 2020-12-28 2021-04-09 深圳市人工智能与机器人研究院 一种3d人体模型生成方法、***及相关设备
CN112734632A (zh) * 2021-01-05 2021-04-30 百果园技术(新加坡)有限公司 图像处理方法、装置、电子设备和可读存储介质
CN112767320A (zh) * 2020-12-31 2021-05-07 平安科技(深圳)有限公司 图像检测方法、装置、电子设备及存储介质
CN113052144A (zh) * 2021-04-30 2021-06-29 平安科技(深圳)有限公司 活体人脸检测模型的训练方法、装置、设备及存储介质
CN113343898A (zh) * 2021-06-25 2021-09-03 江苏大学 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN113343979A (zh) * 2021-05-31 2021-09-03 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN113470099A (zh) * 2021-07-09 2021-10-01 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN113487614A (zh) * 2021-09-08 2021-10-08 四川大学 胎儿超声标准切面图像识别网络模型的训练方法和装置
CN113628635A (zh) * 2021-07-19 2021-11-09 武汉理工大学 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113705317A (zh) * 2021-04-14 2021-11-26 腾讯科技(深圳)有限公司 图像处理模型训练方法、图像处理方法及相关设备
CN113947801A (zh) * 2021-12-21 2022-01-18 中科视语(北京)科技有限公司 人脸识别方法、装置和电子设备
US20220156596A1 (en) * 2020-11-17 2022-05-19 A.I.MATICS Inc. Neural architecture search method based on knowledge distillation
WO2022156331A1 (zh) * 2021-01-22 2022-07-28 北京市商汤科技开发有限公司 知识蒸馏和图像处理方法、装置、电子设备和存储介质
CN114821654A (zh) * 2022-05-09 2022-07-29 福州大学 一种融合局部与深度的时空图网络的人手检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363962A (zh) * 2018-01-25 2018-08-03 南京邮电大学 一种基于多层次特征深度学习的人脸检测方法及***
WO2019128646A1 (zh) * 2017-12-28 2019-07-04 深圳励飞科技有限公司 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN110414400A (zh) * 2019-07-22 2019-11-05 中国电建集团成都勘测设计研究院有限公司 一种施工现场安全帽穿戴自动检测方法及***
CN110674714A (zh) * 2019-09-13 2020-01-10 东南大学 基于迁移学习的人脸和人脸关键点联合检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128646A1 (zh) * 2017-12-28 2019-07-04 深圳励飞科技有限公司 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN108363962A (zh) * 2018-01-25 2018-08-03 南京邮电大学 一种基于多层次特征深度学习的人脸检测方法及***
CN110414400A (zh) * 2019-07-22 2019-11-05 中国电建集团成都勘测设计研究院有限公司 一种施工现场安全帽穿戴自动检测方法及***
CN110674714A (zh) * 2019-09-13 2020-01-10 东南大学 基于迁移学习的人脸和人脸关键点联合检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘伦豪杰;王晨辉;卢慧;王家豪;: "基于迁移卷积神经网络的人脸表情识别", 电脑知识与技术, no. 07 *
张延安;王宏玉;徐方;: "基于深度卷积神经网络与中心损失的人脸识别", 科学技术与工程, no. 35 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156596A1 (en) * 2020-11-17 2022-05-19 A.I.MATICS Inc. Neural architecture search method based on knowledge distillation
CN112634441A (zh) * 2020-12-28 2021-04-09 深圳市人工智能与机器人研究院 一种3d人体模型生成方法、***及相关设备
CN112634441B (zh) * 2020-12-28 2023-08-22 深圳市人工智能与机器人研究院 一种3d人体模型生成方法、***及相关设备
CN112633406A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于知识蒸馏的少样本目标检测方法
CN112767320A (zh) * 2020-12-31 2021-05-07 平安科技(深圳)有限公司 图像检测方法、装置、电子设备及存储介质
WO2022141859A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 图像检测方法、装置、电子设备及存储介质
CN112734632A (zh) * 2021-01-05 2021-04-30 百果园技术(新加坡)有限公司 图像处理方法、装置、电子设备和可读存储介质
CN112734632B (zh) * 2021-01-05 2024-02-27 百果园技术(新加坡)有限公司 图像处理方法、装置、电子设备和可读存储介质
CN112418195A (zh) * 2021-01-22 2021-02-26 电子科技大学中山学院 一种人脸关键点检测方法、装置、电子设备及存储介质
WO2022156331A1 (zh) * 2021-01-22 2022-07-28 北京市商汤科技开发有限公司 知识蒸馏和图像处理方法、装置、电子设备和存储介质
CN113705317A (zh) * 2021-04-14 2021-11-26 腾讯科技(深圳)有限公司 图像处理模型训练方法、图像处理方法及相关设备
CN113705317B (zh) * 2021-04-14 2024-04-26 腾讯科技(深圳)有限公司 图像处理模型训练方法、图像处理方法及相关设备
CN113052144A (zh) * 2021-04-30 2021-06-29 平安科技(深圳)有限公司 活体人脸检测模型的训练方法、装置、设备及存储介质
CN113052144B (zh) * 2021-04-30 2023-02-28 平安科技(深圳)有限公司 活体人脸检测模型的训练方法、装置、设备及存储介质
CN113343979A (zh) * 2021-05-31 2021-09-03 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN113343898A (zh) * 2021-06-25 2021-09-03 江苏大学 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN113470099B (zh) * 2021-07-09 2022-03-25 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN113470099A (zh) * 2021-07-09 2021-10-01 北京的卢深视科技有限公司 深度成像的方法、电子设备及存储介质
CN113628635B (zh) * 2021-07-19 2023-09-15 武汉理工大学 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN113628635A (zh) * 2021-07-19 2021-11-09 武汉理工大学 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113487614A (zh) * 2021-09-08 2021-10-08 四川大学 胎儿超声标准切面图像识别网络模型的训练方法和装置
CN113947801B (zh) * 2021-12-21 2022-07-26 中科视语(北京)科技有限公司 人脸识别方法、装置和电子设备
CN113947801A (zh) * 2021-12-21 2022-01-18 中科视语(北京)科技有限公司 人脸识别方法、装置和电子设备
CN114821654A (zh) * 2022-05-09 2022-07-29 福州大学 一种融合局部与深度的时空图网络的人手检测方法

Also Published As

Publication number Publication date
CN112115783B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN112115783B (zh) 基于深度知识迁移的人脸特征点检测方法、装置及设备
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
Chen et al. Convolutional neural network based dem super resolution
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN114782752B (zh) 基于自训练的小样本图像集成分类方法及装置
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
Alshehri A content-based image retrieval method using neural network-based prediction technique
CN116503398B (zh) 绝缘子污闪检测方法、装置、电子设备及存储介质
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN116343034A (zh) 一种遥感图像的变化检测方法、***、电子设备及介质
CN116452900A (zh) 一种基于轻量级神经网络的目标检测方法
CN114913382A (zh) 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
Wang et al. Insulator defect detection based on improved you-only-look-once v4 in complex scenarios
CN117058437B (zh) 一种基于知识蒸馏的花卉分类方法、***、设备及介质
Wang et al. FrameNet: Tabular Image Preprocessing Based on UNet and Adaptive Correction
Shi et al. Knowledge Transfer via Leveraging Teacher-Student Network with Visual Attention to Enhance Atmospheric Sand Image Restoration
Han et al. MeterSSD: Scale and rotate invariance lightweight detector
CN113822132A (zh) 文本检测方法及文本检测网络训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant