CN110427867B - 基于残差注意力机制的面部表情识别方法及*** - Google Patents

基于残差注意力机制的面部表情识别方法及*** Download PDF

Info

Publication number
CN110427867B
CN110427867B CN201910694449.5A CN201910694449A CN110427867B CN 110427867 B CN110427867 B CN 110427867B CN 201910694449 A CN201910694449 A CN 201910694449A CN 110427867 B CN110427867 B CN 110427867B
Authority
CN
China
Prior art keywords
feature map
facial expression
residual
expression recognition
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910694449.5A
Other languages
English (en)
Other versions
CN110427867A (zh
Inventor
凌贺飞
王丹
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910694449.5A priority Critical patent/CN110427867B/zh
Publication of CN110427867A publication Critical patent/CN110427867A/zh
Application granted granted Critical
Publication of CN110427867B publication Critical patent/CN110427867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于残差注意力机制的面部表情识别方法及***,属于计算机视觉领域,包括:提取包含人脸区域的目标框并进行特征归一化处理,之后利用面部表情识别模型进行面部表情识别;面部表情识别模型包括:一个降采样特征提取结构,用于通过小卷积块对目标框进行特征提取;多个级联的残差注意力结构,分别用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,并将得到的特征图点乘后与精细特征图叠加为残差特征图;以及一个融合损失层,用于获取最后一个残差特征图的损失值,从而预测面部表情类别。本发明能够提高面部表情识别的识别精度和识别速度。

Description

基于残差注意力机制的面部表情识别方法及***
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于残差注意力机制的面部表情识别方法及***。
背景技术
面部表情在人类交流中起着非常重要的作用,尤其是在非语言交流中,人类认知情绪通常是通过识别面部表情来进行的。如果计算机能够通过用户的面部表情来感知和理解用户的意图,那么***就可以根据感知到的情况提供建议和意见来帮助用户,因此,面部表情识别在计算机视觉领域和人工智能领域获得了广泛的关注。
虽然人类几乎可以不费任何力气或延迟就能识别面部表情,但机器对表情的可靠识别仍然是一个挑战。为了使计算机像人类那样具有理解和表达情感的能力,从而让机器能更好地服务人类日常生活,如何高计算机对表情识别的准确度,是表情识别***中需要解决的关键问题。
随着大数据时代的到来,在并行计算领域,与以前使用的CPU相比,GPU使得计算性得到了极大的提升。当前GPU的计算性能已经超CPU 50倍并且在未来极有可能更高。计算机的运算能力极大地增强,侧面反映了利用大规模图像数据训练复杂深度网络的需求在快速增长。在相对较小的面部表情数据集上直接训练深度网络很容易导致过拟合,为了缓解这个问题,许多面部表情识别方法会在大数据集上先预训练网络,或者在已经训练好的网络,如AlexNet,VGG,VGG-face或GoogleNet等网络上进行微调。预训练模型一般采用分类网络或人脸识别网络,然后固定某些层训练其它层直接进行微调训练或者不同层采用不同的数据集对网络进行微调。微调训练网络对表情类别特征的分辨度是不够的,一定程度上限制了最后的识别精度,而且这些微调训练网络在训练好之后,所包含的参数可能多达数百兆,对需要实时运行的任务会带来相当大的压力。此外,现有的面部表情识别网络大多专注于单一任务,只学习对表达敏感的特征,并不考虑其他潜在因素(如头部姿势、光照、面部形态等)之间的相互作用,导致了这些面部表情识别方法的泛化能力较弱。有些卷积网络(如MSCNN网络)引入了多任务学习机制,可以从其他任务中学习额外的信息,这样能够提高面部表情识别网络的泛化能力,但是由于采用多层卷积提取特征,增加了最后得到的表情识别检测器的内存消耗和计算用时,也无法满足实时性的要求。总的来说,现有的面部表情识别方法的识别精度和识别速度仍然需要进一步提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于残差注意力机制的面部表情识别方法及***,其目的在于,提高面部表情识别的识别精度和识别速度。
为实现上述目的,按照本发明的第一方面,提供了一种基于残差注意力机制的面部表情识别方法,包括:
(1)从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2。
本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,利用小卷积块对包含人脸区域的目标框进行特征提取,能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的;在面部表情识别模型的残差注意力结构中,一方面利用深度可分离卷积结构做进一步的面部表情特征提取,能够对卷积神经网络(CNN)进行压缩,从而降低模型大小,提高面部表情识别的识别速度;另一方面通过残差注意力机制,获取到了能够进行分类的表情关键信息,从而提高了面部表情识别的识别精度。总的来说,本发明所提供的基于残差注意力机制的面部表情识别方法,能够提高面部表情识别的识别精度和识别速度。
进一步地,降采样特征提取结构包括:一个或多个依次连接的小卷积块,以及一个全局最大池化层;
小卷积块用于进行特征提取,全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度,以得到粗糙特征图。
进一步地,残差注意力结构包括:主干分支、掩膜分支以及特征融合层;
主干分支包括:一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层;深度可分离卷积结构用于对输入的特征图进行特征提取,最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度,从而得到精细特征图;
掩膜分支包括:一个小卷积块、一个SE结构以及两个相连的全连接层;小卷积块用于对输入的特征图进行降采样,SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征,全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
特征融合层用于将主干分支所提取的精细特征图与掩膜分支所提取的关键特征图点乘后,与精细特征图叠加,从而得到残差特征图。
进一步地,深度可分离卷积结构为Xception。
进一步地,融合损失层所获取的损失值融合了L2-SVM损失与Center损失,其计算方式为:
L=LL2-SVM+λLCenter
其中,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子。
本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,通过融合L2-SVM损失和Center损失计算损失值,能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点,使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合,提高模型的泛化能力。
进一步地,本发明第一方面提供的基于残差注意力机制的面部表情识别方法,还包括:
对于待处理的视频,在实时获取到每一帧图像后,将其作为待识别的目标图像,并执行步骤(1)~(2),以实时识别待处理的视频中各帧图像的面部表情类别。
由于本发明所使用的神经网络模型相对于其他面部表情识别网络得到了压缩,并且面部表情识别的识别速度得到了提高,因此,本发明能够对实时性要求较高的视频进行处理,实时识别出其中各帧图像的面部表情类别。
进一步地,面部表情识别模型的离线训练方法包括:
(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置;
(T2)根据双眼关键点的位置对所提取的人脸区域进行校正,以得到相应的正脸图像,由所有的正脸图像构成基础数据集;
(T3)对基础数据集进行数据集增强,以得到训练数据集;
(T4)建立面部表情识别模型,并利用训练数据集对面部表情识别模型进行训练,以得到训练好的面部表情识别模型;
其中,数据集增强包括旋转操作。
本发明所提供的基于残差注意力机制的面部表情识别方法,本发明在进行面部表情识别模型进行训练时,会先通过人脸区域校正以得到正脸图像,由此能够保证训练得到的模型具有较高的识别精度;在进行人脸区域校正后,通过旋转操作等进行数据集增强,保证了所得到的训练数据集中包含有不同头部姿势的人脸图像,从而能够提高训练得到的面部表情识别模型的泛化能力。
进一步地,步骤(T1)通过MTCNN算法在提取到人脸区域的同时,获取到双眼关键点的位置;使用MTCNN算法能够同时提取到人脸区域并获取到双眼关键点的位置,从而加快数据集的预处理过程。
按照本发明的第二方面,提供了一种基于残差注意力机制的面部表情识别***,包括:目标框提取模块和面部表情识别模块;
目标框提取模块,用于从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
面部表情识别模块,用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2。
按照本发明的第三方面,还提供了一种***,包括处理器和计算机可读存储介质;计算机可读存储介质存储有可执行程序代码;
处理器用于调用计算机可读存储介质中存储的可执行程序代码,执行本发明第一方面提供的基于残差注意力机制的面部表情识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,利用小卷积块对包含人脸区域的目标框进行特征提取,能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的;在面部表情识别模型的残差注意力结构中,一方面利用深度可分离卷积结构做进一步的面部表情特征提取,能够对卷积神经网络(CNN)进行压缩,从而降低模型大小,提高面部表情识别的识别速度;另一方面通过残差注意力机制,获取到了能够进行分类的表情关键信息,从而提高了面部表情识别的识别精度。总的来说,本发明所提供的基于残差注意力机制的面部表情识别方法,能够提高面部表情识别的识别精度和识别速度。
(2)本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,通过融合L2-SVM损失和Center损失计算损失值,能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点,使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合,提高模型的泛化能力。
(3)本发明所提供的基于残差注意力机制的面部表情识别方法,本发明在进行面部表情识别模型进行训练时,会先通过人脸区域校正以得到正脸图像,由此能够保证训练得到的模型具有较高的识别精度;在进行人脸区域校正后,通过旋转操作等进行数据集增强,保证了所得到的训练数据集中包含有不同头部姿势的人脸图像,从而能够提高训练得到的面部表情识别模型的泛化能力。
(4)本发明所提供的基于残差注意力机制的面部表情识别方法,面部表情识别的识别速度得到了极大的提高,能够满足实时性任务的要求,因此,本发明能够对实时性要求较高的视频进行处理,实时识别出其中各帧图像的面部表情类别。
附图说明
图1为本发明实施例提供的基于残差注意力机制的面部表情识别方法示意图;
图2为本发明实施例提供的面部表情识别模型结构示意图;
图3为本发明实施例提供的降采样特征提取结构示意图;
图4为本发明实施例提供的残差注意力结构示意图;
图5为本发明实施例提供的利用训练数据集训练面部表情识别模型的流程图;
图6为本发明实施例提供的不同面部表情识别方法的识别结果对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于残差注意力机制的面部表情识别方法,如图1所示,包括:
(1)从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
在一个可选的实施方式中,可利用MTCNN算法从目标图像中提取包含人脸区域的目标框;
(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层,具体如图2所示;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2。
上述基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,利用小卷积块对包含人脸区域的目标框进行特征提取,能够充分利用图像中每个像素点的信息并且能够达到快速提取出人脸表情特征的目的;在面部表情识别模型的残差注意力结构中,一方面利用深度可分离卷积结构做进一步的面部表情特征提取,能够对卷积神经网络(CNN)进行压缩,从而降低模型大小,提高面部表情识别的识别速度;另一方面通过残差注意力机制,获取到了能够进行分类的表情关键信息,从而提高了面部表情识别的识别精度。总的来说,上述基于残差注意力机制的面部表情识别方法,能够提高面部表情识别的识别精度和识别速度。
在一个可选的实施方式中,如图1所示,降采样特征提取结构包括:一个或多个依次连接的小卷积块,以及一个全局最大池化层;
小卷积块用于进行特征提取,全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度,以得到粗糙特征图;
在本实施例中,降采样特征提取结构如图3所示,具体包括3个卷积块,第一个小卷积块由16个卷积层构成,各卷积层的卷积核大小均为3×3,步长为1;第二个小卷积块由32个卷积层构成,各卷积层的卷积核大小均为3×3,步长为1;第三个小卷积块由64个卷积层构成,各卷积层的卷积核大小均为3×3,步长为1;全局最大池化层(Max Pooling)具体为2×2最大池化层,步长为2;
应当理解的是,图3所示的具体结构仅为一种示例性的说明,不应理解为对本发明的唯一限定。
在一个可选的实施方式中,如图1所示,残差注意力结构包括:主干分支、掩膜分支以及特征融合层;
主干分支包括:一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层;深度可分离卷积结构用于对输入的特征图进行特征提取,最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度,从而得到精细特征图;作为优选地,可采用Xception作为主干分支中的深度可分离卷积结构;
掩膜分支包括:一个小卷积块、一个SE结构以及两个相连的全连接层(FC1和FC2);小卷积块用于对输入的特征图进行降采样,SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征,全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
特征融合层用于将主干分支所提取的精细特征图与掩膜分支所提取的关键特征图点乘后,与精细特征图叠加,从而得到残差特征图;
在本实施例中,如图4所示,主干分支包括两个Xception和一个全局最大池化层;掩膜分支对输入的特征图X进行一次前向卷积降采样操作,将s×s窗口内的矩阵图像变为一个像素,使得维数很大的特征图矩阵通过一个隐层映射到一个维数较小的特征图X′,之后使用SE(squeeze and excitation)结构块在通道域上提取特征图的感兴趣信息,并利用全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
应当理解的是,图4所示的具体结构仅为一种示例性的说明,不应理解为对本发明的唯一限定。
在一个可选的实施方式中,融合损失层所获取的损失值融合了L2-SVM损失与Center损失,其计算方式为:
L=LL2-SVM+λLCenter
其中,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子,λ越大则区分度越大;
其中,
Figure BDA0002148928060000111
i表示训练数据集中的训练样本序号,N表示训练样本总数,xi表示人脸图像,yi表示对应的面部表情的真实类别标签;(xi,yi)为给出的训练数据与真实标签对;C0>0用来调节错分样本的错误比重;yi[wxi+b]>1-ξii≥0,ξi为松弛因子,代表错分样本的错误程度;W0表示超平面法向量的集合,w为最优超平面法向量;b为最优超平面阈值;cyi表示第i个样本对应的类别yi所属类中心。
本发明所提供的基于残差注意力机制的面部表情识别方法,在面部表情识别模型的降采样特征提取结构中,通过融合L2-SVM损失和Center损失计算损失值,能够综合L2_SVM提高泛化能力的特点与Center损失的聚拢类内距离的特点,使得模型学习到的特征差异最大化从而能更好地区分表情并能够防止网络过拟合,提高模型的泛化能力。
由于模型得到了压缩,上述基于残差注意力机制的面部表情识别方法,为一种轻量级的方法,识别速度大为提高,可满足实时性任务的要求;在实时处理视频时,上述基于残差注意力机制的面部表情识别方法,还包括:
对于待处理的视频,在实时获取到每一帧图像后,将其作为待识别的目标图像,并执行步骤(1)~(2),以实时识别待处理的视频中各帧图像的面部表情类别。
由于本发明所使用的神经网络模型相对于其他面部表情识别网络得到了压缩,并且面部表情识别的识别速度得到了提高,因此,本发明能够对实时性要求较高的视频进行处理,实时识别出其中各帧图像的面部表情类别。
如图1所示,在一个可选的实施方式中,面部表情识别模型的离线训练方法包括:
(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置;
在本实施例中,所选用的面部表情数据集为FER2013,该数据集图像来源网络爬虫爬取网上有语义的图片,具体由35886张人脸表情图片组成,图像格式均为JPG;在该数据集中,具体的表情类别标签包括:生气(angry)、厌恶(disgust)、害怕(fear)、高兴(happy)、伤心(sad)、惊讶(surprise)以及自然(neutral);
作为优选地,步骤(T1)可通过MTCNN算法在提取到人脸区域的同时,获取到双眼关键点的位置,从而加快数据集的预处理过程;
(T2)根据双眼关键点的位置对所提取的人脸区域进行校正,以得到相应的正脸图像,由所有的正脸图像构成基础数据集;
在一个可选的实施方式中,步骤(2)具体包括:
对于任意一个样本
Figure BDA0002148928060000121
获得人脸左眼中心位置(xl_i,yl_i)和右眼中心位置(xr_i,yr_i),使用反正切函数
Figure BDA0002148928060000122
计算图片的倾斜度θ;以双眼的位置中心为中心对图片进行仿射变换,从而完成面部区域校正,得到对应的正脸图像;仿射变换公式如下所示:
Figure BDA0002148928060000123
Figure BDA0002148928060000124
其中,
Figure BDA0002148928060000131
Figure BDA0002148928060000132
分别表示仿射变换前、后的样本,
Figure BDA0002148928060000133
表示偏移量,T表示与倾斜度θ有关的仿射矩阵;
通过人脸区域校正以得到正脸图像,由此能够保证训练得到的模型具有较高的识别精度;
(T3)对基础数据集进行数据集增强,以得到训练数据集;
其中,数据集增强包括旋转操作;
通过旋转操作等进行数据集增强,保证了所得到的训练数据集中包含有不同头部姿势的人脸图像,从而能够提高训练得到的面部表情识别模型的泛化能力;
(T4)建立面部表情识别模型,并利用训练数据集对面部表情识别模型进行训练,以得到训练好的面部表情识别模型;
在一个可选的实施方式中,如图5所示,利用训练数据集对面部表情识别模型进行训练,具体包括:
(T41)将训练数据集进一步划分为多组小样本集;
(T42)每次选择一组小样本集用来训练,设置基础学习率为1e-2并且训练过程中每25组小样本集损失函数不再提升则衰减为原来的0.1倍,训练的最大迭代次数为300;
(T43)将样本输入面部表情识别模型,前向传播计算面部表情识别模型各层的值,通过设计的融合损失函数得到网络的损失值;
(T44)若未达到预定的总迭代数300次,则继续步骤(T45),否则训练结束;
(T45)反向逐层采用梯度下降算法更新面部表情识别模型各层,根据如下公式计算融合损失函数的导数:
Figure BDA0002148928060000134
其中,
Figure BDA0002148928060000141
当yi=j时,δ(yi=j)为1,否则为0。
本发明还提供了一种基于残差注意力机制的面部表情识别***,包括:目标框提取模块和面部表情识别模块;
目标框提取模块,用于从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
面部表情识别模块,用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出目标图像中人脸的面部表情类别;
面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,小卷积块中各卷积层的卷积核不大于3×3,m≥2;
在本发明实施例中,各模块的具体实施方式可参考上述方法实施例中的描述,在此将不作复述。
按照本发明的第三方面,还提供了一种***,包括处理器和计算机可读存储介质;计算机可读存储介质存储有可执行程序代码;
处理器用于调用计算机可读存储介质中存储的可执行程序代码,执行上述基于残差注意力机制的面部表情识别方法。
分别采用三种现有的面部表情识别方法(Multi-task convnet方法、TDNN方法、DNNRL方法)以及上述基于残差注意力机制的面部表情识别方法的对比FER2013数据集进行对比实验,数据集划分为训练集和测试集,其中训练集样本32297张,测试集样本3589张。相关的实验平台为:CPU Intel(R)CoreTM[email protected],内存32G DDR4 2400MHz,GPUGeForce GTX 1080Ti,显存12G;操作***Ubuntu 16.04LTS 64位,实验平台Keras、Visualstudio Code。
对于测试的结果,使用两种评价方式:
(1)准确率:用来度量分类器正确分类的性能。准确率的计算方式为:
Figure BDA0002148928060000151
其中,N表示测试数据集样本总数;当
Figure BDA0002148928060000152
时,
Figure BDA0002148928060000153
为1,否则为0。
(2)混淆矩阵(confusion matrix):每一列代表预测类别,每一列的总数表示为预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。
各方法的准确率如表1所示。其中,各表情均以相应英文名称的前两个字母代替;需要说明的是,由于在FER2013数据集中,厌恶类别所对应的样本数过少,因此,在利用本发明所提供的基于残差注意机制的面部表情识别方法进行识别时,将厌恶类别合并到了生气类别中。根据表1所示的测试结果,对比分析可知,本发明提出的表情识别方法既达到了本文所提出的轻量级的目的,又提高了一定得准确度。
表1各面部表情识别方法的识别准确度
Figure BDA0002148928060000161
各方法生成的混淆矩阵如图6所示,从图中可以看出,对于高兴、惊讶和自然这三种表情的识别准确率比较高,尤其是对高兴的表情识别准确度基本都有90%以上。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于残差注意力机制的面部表情识别方法,其特征在于,包括:
(1)从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
(2)利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出所述目标图像中人脸的面部表情类别;
所述面部表情识别模型包括一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;所述降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;所述残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为所述降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;所述融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,所述小卷积块中各卷积层的卷积核不大于3×3,m≥2;所述融合损失层所获取的损失值为:L=LL2-SVM+λLCenter,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子。
2.如权利要求1所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述降采样特征提取结构包括:一个或多个依次连接的小卷积块,以及一个全局最大池化层;
小卷积块用于进行特征提取,全局最大池化层用于调整最后一个小卷积块提取得到的特征图的维度,以得到所述粗糙特征图。
3.如权利要求1所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述残差注意力结构包括:主干分支、掩膜分支以及特征融合层;
所述主干分支包括:一个或多个依次连接的深度可分离卷积结构以及一个全局最大池化层;深度可分离卷积结构用于对输入的特征图进行特征提取,最大池化层用于调整最后一个深度可分离卷积结构提取得到的特征图的维度,从而得到精细特征图;
所述掩膜分支包括:一个小卷积块、一个SE结构以及两个相连的全连接层;小卷积块用于对输入的特征图进行降采样,SE结构用于在通道域上提取降采样之后的特征图的感兴趣特征,全连接层用于调整感兴趣特征的通道数,从而得到关键特征图;
所述特征融合层用于将所述主干分支所提取的精细特征图与所述掩膜分支所提取的关键特征图点乘后,与精细特征图叠加,从而得到残差特征图。
4.如权利要求3所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述深度可分离卷积结构为Xception。
5.如权利要求1所述的基于残差注意力机制的面部表情识别方法,其特征在于,还包括:
对于待处理的视频,在实时获取到每一帧图像后,将其作为待识别的目标图像,并执行步骤(1)~(2),以实时识别所述待处理的视频中各帧图像的面部表情类别。
6.如权利要求1-5任一项所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述面部表情识别模型的离线训练方法包括:
(T1)对面部表情数据集中的各图像进行人脸区域提取并获取双眼关键点的位置;
(T2)根据双眼关键点的位置对所提取的人脸区域进行校正,以得到相应的正脸图像,由所有的正脸图像构成基础数据集;
(T3)对所述基础数据集进行数据集增强,以得到训练数据集;
(T4)建立所述面部表情识别模型,并利用所述训练数据集对所述面部表情识别模型进行训练,以得到训练好的面部表情识别模型;
其中,所述数据集增强包括旋转操作。
7.如权利要求6所述的基于残差注意力机制的面部表情识别方法,其特征在于,所述步骤(T1)通过MTCNN算法在提取到人脸区域的同时,获取到双眼关键点的位置。
8.一种基于残差注意力机制的面部表情识别***,其特征在于,包括:目标框提取模块和面部表情识别模块;
所述目标框提取模块,用于从待识别的目标图像中提取包含人脸区域的目标框,并对所提取的目标框进行特征归一化处理;
所述面部表情识别模块,用于利用已离线训练好的面部表情识别模型对特征归一化之后的目标框进行面部表情识别,从而识别出所述目标图像中人脸的面部表情类别;
所述面部表情识别模型包括降一个降采样特征提取结构、m个级联的残差注意力结构以及一个融合损失层;所述降采样特征提取结构用于通过小卷积块对目标框中的人脸图像进行特征提取,以得到粗糙特征图;所述残差注意力结构用于通过深度可分离卷积结构对输入的特征图进行特征提取,以得到精细特征图,并在通道域上对输入的特征图提取感兴趣特征,以得到关键特征图,以及将所得到的精细特征图与关键特征图点乘后与精细特征图叠加,从而得到残差特征图;第一个残差注意力结构输入的特征图为所述降采样特征提取结构输出的粗糙特征图,第2~m个残差注意力结构输入的特征图为前一残差注意力结构输出的残差特征图;所述融合损失层用于获取第m个残差注意力结构输出的残差特征图的损失值,以根据该损失值预测面部表情类别;
其中,所述小卷积块中各卷积层的卷积核不大于3×3,m≥2;所述融合损失层所获取的损失值为:L=LL2-SVM+λLCenter,L表示第m个残差注意力结构输出的残差特征图的损失值,LL2-SVM和LCenter分别表示L2-SVM损失和Center损失,λ为用于平衡L2-SVM损失与Center损失的平衡因子。
9.一种***,包括处理器和计算机可读存储介质;其特征在于,所述计算机可读存储介质存储有可执行程序代码;
所述处理器用于调用所述计算机可读存储介质中存储的所述可执行程序代码,执行权利要求1-7任一项所述的基于残差注意力机制的面部表情识别方法。
CN201910694449.5A 2019-07-30 2019-07-30 基于残差注意力机制的面部表情识别方法及*** Active CN110427867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910694449.5A CN110427867B (zh) 2019-07-30 2019-07-30 基于残差注意力机制的面部表情识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910694449.5A CN110427867B (zh) 2019-07-30 2019-07-30 基于残差注意力机制的面部表情识别方法及***

Publications (2)

Publication Number Publication Date
CN110427867A CN110427867A (zh) 2019-11-08
CN110427867B true CN110427867B (zh) 2021-11-19

Family

ID=68413141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910694449.5A Active CN110427867B (zh) 2019-07-30 2019-07-30 基于残差注意力机制的面部表情识别方法及***

Country Status (1)

Country Link
CN (1) CN110427867B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291670B (zh) * 2020-01-23 2023-04-07 天津大学 基于注意力机制和网络集成的小目标人脸表情识别方法
CN111339832B (zh) * 2020-02-03 2023-09-12 中国人民解放军国防科技大学 人脸合成图像的检测方法及装置
CN111461959B (zh) * 2020-02-17 2023-04-25 浙江大学 人脸情绪合成方法及装置
CN111582044B (zh) * 2020-04-15 2023-06-20 华南理工大学 基于卷积神经网络和注意力模型的人脸识别方法
CN111639537A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 人脸动作单元识别方法、装置、电子设备及存储介质
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN111787323B (zh) * 2020-05-23 2021-09-03 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
CN111652171B (zh) * 2020-06-09 2022-08-05 电子科技大学 一种基于双分支网络的面部表情识别模型的构建方法
CN111881746B (zh) * 2020-06-23 2024-04-02 安徽清新互联信息科技有限公司 一种基于信息融合的人脸特征点定位方法及***
CN111783622A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人脸表情识别的方法、装置、设备和计算机可读存储介质
CN111783681A (zh) * 2020-07-02 2020-10-16 深圳市万睿智能科技有限公司 大规模人脸库识别方法、***、计算机设备及存储介质
CN111950362B (zh) * 2020-07-07 2024-04-16 西北大学 一种金丝猴面部图像识别方法、装置、设备及存储介质
CN112084911B (zh) * 2020-08-28 2023-03-07 安徽清新互联信息科技有限公司 一种基于全局注意力的人脸特征点定位方法及***
CN112101241A (zh) * 2020-09-17 2020-12-18 西南科技大学 一种基于深度学习的轻量级表情识别方法
CN112149619B (zh) * 2020-10-14 2024-03-15 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112418095B (zh) 2020-11-24 2023-06-30 华中师范大学 一种结合注意力机制的面部表情识别方法及***
CN112580458B (zh) * 2020-12-10 2023-06-20 中国地质大学(武汉) 人脸表情识别方法、装置、设备及存储介质
CN112668486A (zh) * 2020-12-30 2021-04-16 长春理工大学 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体
CN112733672B (zh) * 2020-12-31 2024-06-18 深圳一清创新科技有限公司 基于单目相机的三维目标检测方法、装置和计算机设备
CN112613479B (zh) * 2021-01-04 2022-07-08 福州大学 基于轻量流式网络和注意力机制的表情识别方法
CN113128369B (zh) * 2021-04-01 2022-07-01 重庆邮电大学 一种融合均衡损失的轻量级网络人脸表情识别方法
CN113343773B (zh) * 2021-05-12 2022-11-08 上海大学 基于浅层卷积神经网络的人脸表情识别***
CN113205510B (zh) * 2021-05-25 2023-02-03 石家庄铁道大学 铁路侵限异物检测方法、装置及终端
CN114038037B (zh) * 2021-11-09 2024-02-13 合肥工业大学 基于可分离残差注意力网络的表情标签修正和识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049018B2 (en) * 2017-06-23 2021-06-29 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning
MX2020007686A (es) * 2018-01-19 2020-11-12 Univ Texas Sistemas y métodos para evaluar la emoción de compromiso y atención individual, grupal y de una multitud.
CN108388890A (zh) * 2018-03-26 2018-08-10 南京邮电大学 一种基于面部表情识别的新生儿疼痛程度评估方法及***
CN108985317B (zh) * 2018-05-25 2022-03-01 西安电子科技大学 一种基于可分离卷积和注意力机制的图像分类方法
CN109002766B (zh) * 2018-06-22 2021-07-09 北京邮电大学 一种表情识别方法及装置
CN109754015B (zh) * 2019-01-02 2021-01-26 京东方科技集团股份有限公司 用于画作多标签识别的神经网络及相关方法、介质和设备
CN109829409A (zh) * 2019-01-23 2019-05-31 深兰科技(上海)有限公司 驾驶员情绪状态检测方法及***
CN109858419A (zh) * 2019-01-23 2019-06-07 广州智慧城市发展研究院 一种自下而上-自上而下的行为识别***
CN109871777B (zh) * 2019-01-23 2021-10-01 广州智慧城市发展研究院 一种基于注意力机制的行为识别***
CN109886946B (zh) * 2019-02-18 2023-05-23 广州视源电子科技股份有限公司 基于深度学习的早期老年性黄斑病变弱监督分类方法

Also Published As

Publication number Publication date
CN110427867A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及***
CN108830237B (zh) 一种人脸表情的识别方法
Dandıl et al. Real-time facial emotion classification using deep learning
Ali et al. Facial emotion detection using neural network
WO2021190433A1 (zh) 更新物体识别模型的方法和装置
Nguyen et al. Towards real-time smile detection based on faster region convolutional neural network
Salmam et al. Fusing multi-stream deep neural networks for facial expression recognition
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Chen et al. A multi-scale fusion convolutional neural network for face detection
Abbassi et al. A deep learning facial emotion classification system: a VGGNet-19 based approach
CN113221680B (zh) 基于文本动态引导视觉特征提炼的文本行人检索方法
Baffour et al. A survey on deep learning algorithms in facial Emotion Detection and Recognition
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
Liu et al. Lightweight ViT model for micro-expression recognition enhanced by transfer learning
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Wasi et al. Arbex: Attentive feature extraction with reliability balancing for robust facial expression learning
Zhang et al. Multi-scale image recognition strategy based on convolutional neural network
Kumar et al. Facial emotion recognition and detection using cnn
CN111242114B (zh) 文字识别方法及装置
CN116645694A (zh) 基于动态自进化信息抽取和对齐的文本-目标检索方法
Cai et al. Performance analysis of distance teaching classroom based on machine learning and virtual reality
Luqin A survey of facial expression recognition based on convolutional neural network
Zhang et al. Static hand gesture recognition method based on the Vision Transformer
Aghera et al. MnasNet based lightweight CNN for facial expression recognition
Li et al. Group-level emotion recognition based on faces, scenes, skeletons features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant