CN117636436A - 基于注意力机制的多人实时面部表情识别方法和*** - Google Patents

基于注意力机制的多人实时面部表情识别方法和*** Download PDF

Info

Publication number
CN117636436A
CN117636436A CN202311675176.2A CN202311675176A CN117636436A CN 117636436 A CN117636436 A CN 117636436A CN 202311675176 A CN202311675176 A CN 202311675176A CN 117636436 A CN117636436 A CN 117636436A
Authority
CN
China
Prior art keywords
face
attention
feature
fusion
expression recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311675176.2A
Other languages
English (en)
Inventor
王瑞
赵佳辉
冯晓祥
曹文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202311675176.2A priority Critical patent/CN117636436A/zh
Publication of CN117636436A publication Critical patent/CN117636436A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制的多人实时面部表情识别方法和***。该方法实时获取人脸视频流后,基于视频流的每一帧,利用DLIB算法检测每个人脸,获取面部关键点坐标和ROI,并基于面部关键点坐标进行仿射变换,预处理面部区域图像,将预处理后的图像输入基于注意力机制的卷积神经网络进行特征提取、注意力权重标定和特征融合,获取融合特征图,并对图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情,其中,卷积神经网络为ShuffleNetV2网络结构。与现有技术相比,本发明具有显著减少模型的参数量、有效提高多人实时面部表情识别的效率和准确率,便于将模型部署至存储空间和计算资源有限的智能终端等优点。

Description

基于注意力机制的多人实时面部表情识别方法和***
技术领域
本发明涉及表情识别技术领域,尤其是涉及一种基于注意力机制的多人实时面部表情识别方法和***。
背景技术
面部表情是人类交流中最重要的情感意图感知线索之一,是情感交流的基础。随着计算机视觉的发展,面部表情识别已成为计算机视觉和人工智能领域的热门研究方向,其目标是通过对个体面部特征和动态变化的分析识别出他们的情绪状态。面部表情识别已经在实际生活中的许多领域得到广泛应用,如智慧医疗、智能驾驶座舱、人机交互等。
传统的面部表情识别主要使用传统图像处理和机器学习的方法进行人为特征提取,在设计特征提取的过程中容易受到研究人员主观意识及应用环境的影响,而且提取的表情特征浅显,提取过程复杂,具有一定的局限性。随着计算机视觉和深度学习的发展,卷积神经网络逐渐被应用于面部表情识别。卷积神经网络通过卷积核扫描输入图像信息,同时对输入图像的局部区域进行操作,提取图像中的深层语义信息。利用卷积神经网络强大的学习能力可从大量数据中自动提取面部表情特征,并利用分类器进行表情分类,对外部干扰具有很强的鲁棒性,已成为表情识别领域的主流模型。
然而,为提取更加充分的特征信息,实现最佳的识别性能,往往通过不断堆叠卷积层、设计更复杂的网络结构来实现,这些神经网络参数十分冗余、占用相当大的内存、耗费大量计算资源,因此,如何在存储空间和计算资源有限的智能终端部署,以实现多人实时面部表情识别,成为本领域需要解决的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的面部表情识别模型结构复杂、参数冗余、占用较大内存于计算资源,难以在智能终端部署,无法同时识别多人表情的缺陷而提供一种基于注意力机制的多人实时面部表情识别方法和***。
本发明的目的可以通过以下技术方案来实现:
基于本发明的第一方面,提供一种基于注意力机制的多人实时面部表情识别方法,包括以下步骤:
数据获取步骤,实时获取人脸视频流;
面部检测与预处理步骤,基于所述人脸视频流的每一帧,利用DLIB算法检测人脸,获取面部关键点坐标和ROI,并基于所述面部关键点坐标进行仿射变换,预处理面部区域图像,所述人脸为多个;
特征提取与融合步骤,基于预处理后的面部区域图像,利用基于注意力机制的卷积神经网络进行特征提取、注意力权重标定和特征融合,获取融合特征图,所述卷积神经网络为ShuffleNetV2网络结构;
表情识别与标注步骤,对所述融合特征图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情。
作为优选的技术方案,所述ShuffleNetV2网络结构包括依次连接的第一卷积层、最大池化层、第一阶段层、第二阶段层、第三阶段层、第二卷积层、注意力机制层和全连接层。
作为优选的技术方案,所述第一阶段层、所述第二阶段层和所述第三阶段层包括基本块和下采样块。
作为优选的技术方案,所述获取融合特征图的过程,具体包括:
基于预处理后的面部图像,通过特征提取获取原始特征图;
基于所述原始特征图,通过注意力权重标定获取通道注意力特征图;
基于所述通道注意力特征图,再次通过注意力权重标定获取空间注意力特征图;
基于所述原始特征图、所述通道注意力特征图和所述空间注意力特征图,通过逐元素相乘进行特征融合,获取所述融合特征图。
作为优选的技术方案,所述对所述融合特征图中的特征向量分类,得到面部表情识别结果的过程,具体包括:利用Softmax分类器计算所述融合特征图中特征向量的每个类别的概率,选取最高概率值对应的类别作为所述面部表情识别结果。
作为优选的技术方案,所述基于所述面部关键点坐标进行仿射变换,预处理面部区域图像的过程包括,根据左右两眼中心点坐标,以及两点坐标连线与水平方向的夹角,利用仿射变换矩阵顺时针将坐标旋转所述夹角的角度,将所述面部区域图像对齐并归一化处理后,对所述面部区域图像进行裁剪和数据增强。
作为优选的技术方案,所述利用仿射变换矩阵顺时针将坐标旋转所述夹角的角度的过程,具体表示为:
其中,x和y为仿射变换前的横纵坐标,x'和y'为仿射变换后的横纵坐标;θ为左右两眼中心点坐标连线与水平方向的夹角;s为缩放因子,表示在x和y方向上的缩放比例;tx和ty表示在x和y方向上的平移距离;Hs为仿射矩阵;R为旋转矩阵;t表示平移量;
所述归一化处理过程中使用的归一化函数为:
其中,xf表示面部区域图像像素点值,min(x)和max(x)分别表示面部区域图像的最小像素值与最大像素值。
作为优选的技术方案,所述数据增强的过程包括随机翻转、水平或垂直投影,以及随机比例缩放。
作为优选的技术方案,所述面部关键点包括68个,分别分布于面部的颚部区域、左右眉部区域、鼻子区域、左右眼区域、口角区域和嘴唇区域。
根据本发明的第二方面,提供一种基于注意力机制的多人实时面部表情识别***,包括依次信号连接的数据获取模块、面部检测与预处理模块、特征提取与融合模块以及表情识别与标注模块,
所述数据获取模块用于实时获取人脸视频流并发送至所述面部检测与预处理模块;
所述面部检测与预处理模块接收所述人脸视频流后,基于所述人脸视频流的每一帧,利用DLIB算法检测人脸,获取面部关键点坐标和ROI,并基于所述面部关键点坐标进行仿射变换,预处理面部区域图像后发送至所述特征提取与融合模块,所述人脸为多个;
所述特征提取与融合模块接收预处理后的面部区域图像后,利用基于注意力机制的卷积神经网络进行特征提取、注意力权重标定和特征融合,获取融合特征图并发送至所述表情识别与标注模块,所述卷积神经网络为ShuffleNetV2网络结构;
所述表情识别与标注模块接收所述融合特征图后,对所述融合特征图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供的面部表情识别方法将ShuffleNetV2网络结构作为卷积神经网络模型,显著减少模型的参数量,降低模型结构的复杂度,能够有效提高多人实时面部表情识别的效率,实现神经网络的轻量化,便于将该神经网络模型部署至存储空间和计算资源有限的智能终端;
2、本发明将注意力机制引入卷积神经网络,增大面部关键区域的权重,使神经网络运行时重点关注与表情强相关的面部区域,提升神经网络性能,能够有效提高多人实时面部表情识别的准确率;
3、本发明利用DLIB算法进行人脸检测,能够保证多人人脸识别的实时性。
附图说明
图1为本发明方法的流程示意图;
图2为本发明实施例中基于注意力机制的卷积神经网络的结构示意图;
图3为本发明实施例中注意力机制层的结构示意图;
图4为本发明实施例中***的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例提供一种基于注意力机制的多人实时面部表情识别方法,包括以下步骤:
(1)数据获取步骤
实际中,可以通过摄像头实时获取人脸视频流。
(2)面部检测与预处理步骤
基于人脸视频流的每一帧,利用DLIB算法检测每个人脸。对每个人脸,标定68个面部关键点,获取面部关键点坐标和ROI(Region of Interest,即感兴趣区域),并基于面部关键点坐标进行仿射变换,预处理面部区域图像,将面部区域图像对齐、归一化后,对面部区域图像进行裁剪、数据增强。
具体地,使用DLIB算法中的get_frontal_face_detector对采集到的视频帧中人脸的眼镜、嘴巴、鼻子等关键特征进行定位。检测出人脸后,利用DLIB算法中的shape_predictor_68_face_landmarks提取人脸68个面部关键点,并进行关键点和ROI标定。其中,68个面部关键点分别分布在颚部区域、左右眉部区域、鼻子区域、左右眼区域、口角区域、嘴唇区域。在得到面部关键点坐标后,根据坐标进行仿射变换,包括根据左右两眼中心点坐标,以及两点坐标连线与水平方向的夹角,角度为θ,利用仿射变换矩阵顺时针将坐标旋转θ,实现人脸对齐。仿射变换的具体过程可用下式表示:
其中,x和y为仿射变换前的横纵坐标,x'和y'为仿射变换后的横纵坐标;θ为左右两眼中心点坐标连线与水平方向的夹角;s为缩放因子,表示在x和y方向上的缩放比例;tx和ty表示在x和y方向上的平移距离;Hs为仿射矩阵;R为旋转矩阵;t表示平移量。
此外,归一化处理过程中使用的归一化函数可表示为:
其中,xf表示面部区域图像像素点值,min(x)和max(x)分别表示面部区域图像的最小像素值与最大像素值。
在将面部区域图像对齐并归一化后,对面部区域图像进行裁剪具体为将当前的面部区域图像统一调整为48×48,对面部区域图像进行数据增强包括随机翻转、水平或垂直投影,以及随机比例缩放。
(3)特征提取与融合步骤
将预处理后的面部区域图像输入基于注意力机制的卷积神经网络,进行特征提取、注意力权重标定和特征融合,获取融合特征图,卷积神经网络为ShuffleNetV2网络结构。
图2示出了基于注意力机制的卷积神经网络的结构。其中,ShuffleNetV2网络结构包括依次连接的第一卷积层(3*3卷积层)、最大池化层、第一阶段层(阶段2)、第二阶段层(阶段3)、第三阶段层(阶段4)、第二卷积层(卷积层5)、注意力机制层和全连接层,第一阶段层、第二阶段层、第三阶段层均包括基本块和下采样块。具体地,ShuffleNetV2基本块首先进行通道切分操作,然后分为左右两个分支,右侧分支依次为1×1卷积、卷积步幅为1的3×3深度可分离卷积、1×1卷积,左侧分支为通道切分后的特征图,最后将左右两分支进行拼接操作后进行通道混洗。ShuffleNetV2下采样块首先进行通道切分操作,然后分为左右两个分支,右侧分支依次为1×1卷积、卷积步幅为2的3×3深度可分离卷积、1×1卷积,左侧分支为卷积步幅为2的3×3深度可分离卷积、1×1卷积,最后将左右两分支进行拼接操作后进行通道混洗。
如图3所示,注意力机制层包括通道注意力模块和空间注意力模块。将预处理后的面部区域图像输入神经网络后,在第二卷积层(卷积层5)中通过特征提取可以获取原始特征图。
通道注意力模块首先接收第二卷积层(卷积层5)输出的原始特征图作为输入,然后对原始特征图在高度和宽度维度上执行最大池化和平均池化操作,生成形状为(B,N)的张量,通过多层感知器进行转换,使用求和操作将各个通道加权特征汇总成单一特征,然后经过Sigmoid激活函数生成包含各个通道权重的权重矩阵,最后将权重矩阵应用于原始特征图得到通道注意力特征图。
空间注意力模块,接收通道注意力特征图作为输入,然后对输入的通道注意力特征图的每个位置进行最大池化、平均池化及卷积操作,计算各个位置的注意力分数,然后使用Sigmoid激活函数将各个位置的注意力分数进行归一化,并将每个特征与其对应的注意力分数相乘,得到空间注意力特征图。
经过通道注意力模块和空间注意力模块处理后,注意力机制层将空间注意力特征图与通道注意力特征图融合,具体为将原始特征图与通道注意力模块进行逐元素相乘,再与空间注意力模块进行逐元素相乘,获取融合特征图。
(4)表情识别与标注步骤
获取融合特征图后,对融合特征图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情。具体为,将经过注意力机制层的融合特征图输入到全连接层,并利用Softmax分类器计算融合特征图中特征向量的每个类别的概率,选取最高概率值对应的类别作为面部表情识别结果。对于每个人脸,都会有自己对应的最高概率类别,根据运算结果在每个人脸的ROI内标注相应的面部表情。
进一步地,如图4所示,本实施例还提供一种基于注意力机制的多人实时面部表情识别***,用于实现前述的方法。该***包括依次信号连接的数据获取模块1、面部检测与预处理模块2、特征提取与融合模块3以及表情识别与标注模块4。
其中,数据获取模块1使用MicroSoft HD摄像头实时获取人脸视频流作为***输入数据,并发送至面部检测与预处理模块2;面部检测与预处理模块2接收人脸视频流后,基于人脸视频流的每一帧,利用DLIB算法检测每个人脸、标定每个人脸的68个面部关键点,获取面部关键点坐标和ROI,并基于面部关键点坐标进行仿射变换,预处理面部区域图像后发送至特征提取与融合模块3;特征提取与融合模块3接收预处理后的面部区域图像后,利用基于注意力机制的卷积神经网络进行特征提取、注意力权重标定和特征融合,获取融合特征图并发送至表情识别与标注模块4,卷积神经网络为ShuffleNetV2网络结构;表情识别与标注模块4接收融合特征图后,对融合特征图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,各模块的具体工作过程,可以参考前述方法的对应过程,在此不再赘述。
前述方法和***中运用的基于注意力机制的卷积神经网络模型采用了ShuffleNetV2网络结构,实现模型轻量化,能够部署于存储空间和计算资源有限的智能终端,并基于输入的人脸视频流,实现多人实时面部表情的高效准确识别。为验证该卷积神经网络模型的有效性,利用RAF-DB训练样本集对其进行训练。模型训练数据和参数如下:
使用Pytorch深度学***台为4块NVIDIA 1080Ti GPU。使用RAF-DB中的训练集进行训练,使用RAF-DB中的测试集进行验证。RAF-DB数据集包含30000张面部图像,该数据集由40名经验丰富的标签标注人员进行单一和复合表情的标注,本实施例仅选用数据集中的单一表情图像,包含7种基本情绪:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。该数据集中12271张图像为训练集,3068张图像为测试集。
训练过程中,使用交叉熵损失函数,采用SGD优化损失,超参数设置如下:权重衰减为1e-4,动量为0.9,dropout为0.5,初始学习率为0.01,采用ReduceLROnPlateau来调整学习率。根据损失变化动态调整学习率。如果3个epoch后损失没有减少,学习率将降低10倍。总的训练epoch设为150,Batch Size大小为64。
将上述训练好的最优模型部署至Jeston TX2智能终端,搭建多人实时面部表情识别***。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于注意力机制的多人实时面部表情识别方法,其特征在于,包括以下步骤:
数据获取步骤,实时获取人脸视频流;
面部检测与预处理步骤,基于所述人脸视频流的每一帧,利用DLIB算法检测人脸,获取面部关键点坐标和ROI,并基于所述面部关键点坐标进行仿射变换,预处理面部区域图像,所述人脸为多个;
特征提取与融合步骤,基于预处理后的面部区域图像,利用基于注意力机制的卷积神经网络进行特征提取、注意力权重标定和特征融合,获取融合特征图,所述卷积神经网络为ShuffleNetV2网络结构;
表情识别与标注步骤,对所述融合特征图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情。
2.根据权利要求1所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述ShuffleNetV2网络结构包括依次连接的第一卷积层、最大池化层、第一阶段层、第二阶段层、第三阶段层、第二卷积层、注意力机制层和全连接层。
3.根据权利要求2所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述第一阶段层、所述第二阶段层和所述第三阶段层包括基本块和下采样块。
4.根据权利要求1所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述获取融合特征图的过程,具体包括:
基于预处理后的面部图像,通过特征提取获取原始特征图;
基于所述原始特征图,通过注意力权重标定获取通道注意力特征图;
基于所述通道注意力特征图,再次通过注意力权重标定获取空间注意力特征图;
基于所述原始特征图、所述通道注意力特征图和所述空间注意力特征图,通过逐元素相乘进行特征融合,获取所述融合特征图。
5.根据权利要求1所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述对所述融合特征图中的特征向量分类,得到面部表情识别结果的过程,具体包括:利用Softmax分类器计算所述融合特征图中特征向量的每个类别的概率,选取最高概率值对应的类别作为所述面部表情识别结果。
6.根据权利要求1所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述基于所述面部关键点坐标进行仿射变换,预处理面部区域图像的过程包括,根据左右两眼中心点坐标,以及两点坐标连线与水平方向的夹角,利用仿射变换矩阵顺时针将坐标旋转所述夹角的角度,将所述面部区域图像对齐并归一化处理后,对所述面部区域图像进行裁剪和数据增强。
7.根据权利要求6所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述利用仿射变换矩阵顺时针将坐标旋转所述夹角的角度的过程,具体表示为:
其中,x和y为仿射变换前的横纵坐标,x'和y'为仿射变换后的横纵坐标;θ为左右两眼中心点坐标连线与水平方向的夹角;s为缩放因子,表示在x和y方向上的缩放比例;tx和ty表示在x和y方向上的平移距离;Hs为仿射矩阵;R为旋转矩阵;t表示平移量;
所述归一化处理过程中使用的归一化函数为:
其中,xf表示面部区域图像像素点值,min(x)和max(x)分别表示面部区域图像的最小像素值与最大像素值。
8.根据权利要求6所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述数据增强的过程包括随机翻转、水平或垂直投影,以及随机比例缩放。
9.根据权利要求1所述的基于注意力机制的多人实时面部表情识别方法,其特征在于,所述面部关键点包括68个,分别分布于面部的颚部区域、左右眉部区域、鼻子区域、左右眼区域、口角区域和嘴唇区域。
10.一种基于注意力机制的多人实时面部表情识别***,其特征在于,包括依次信号连接的数据获取模块、面部检测与预处理模块、特征提取与融合模块以及表情识别与标注模块,
所述数据获取模块用于实时获取人脸视频流并发送至所述面部检测与预处理模块;
所述面部检测与预处理模块接收所述人脸视频流后,基于所述人脸视频流的每一帧,利用DLIB算法检测人脸,获取面部关键点坐标和ROI,并基于所述面部关键点坐标进行仿射变换,预处理面部区域图像后发送至所述特征提取与融合模块,所述人脸为多个;
所述特征提取与融合模块接收预处理后的面部区域图像后,利用基于注意力机制的卷积神经网络进行特征提取、注意力权重标定和特征融合,获取融合特征图并发送至所述表情识别与标注模块,所述卷积神经网络为ShuffleNetV2网络结构;
所述表情识别与标注模块接收所述融合特征图后,对所述融合特征图中的特征向量分类,得到面部表情识别结果,并在每个人脸的ROI内标注相应的面部表情。
CN202311675176.2A 2023-12-08 2023-12-08 基于注意力机制的多人实时面部表情识别方法和*** Pending CN117636436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311675176.2A CN117636436A (zh) 2023-12-08 2023-12-08 基于注意力机制的多人实时面部表情识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311675176.2A CN117636436A (zh) 2023-12-08 2023-12-08 基于注意力机制的多人实时面部表情识别方法和***

Publications (1)

Publication Number Publication Date
CN117636436A true CN117636436A (zh) 2024-03-01

Family

ID=90037462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311675176.2A Pending CN117636436A (zh) 2023-12-08 2023-12-08 基于注意力机制的多人实时面部表情识别方法和***

Country Status (1)

Country Link
CN (1) CN117636436A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135642A (zh) * 2024-05-07 2024-06-04 珠海谷田科技有限公司 一种面部表情分析方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135642A (zh) * 2024-05-07 2024-06-04 珠海谷田科技有限公司 一种面部表情分析方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109344693B (zh) 一种基于深度学习的人脸多区域融合表情识别方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及***
CN106960202B (zh) 一种基于可见光与红外图像融合的笑脸识别方法
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
WO2020114118A1 (zh) 面部属性识别方法、装置、存储介质及处理器
Shahriar et al. Real-time american sign language recognition using skin segmentation and image category classification with convolutional neural network and deep learning
CN108268859A (zh) 一种基于深度学习的人脸表情识别方法
CN112766159A (zh) 一种基于多特征融合的跨数据库微表情识别方法
Barros et al. Real-time gesture recognition using a humanoid robot with a deep neural architecture
CN111126240B (zh) 一种三通道特征融合人脸识别方法
Hebbale et al. Real time COVID-19 facemask detection using deep learning
CN111666845B (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN117636436A (zh) 基于注意力机制的多人实时面部表情识别方法和***
Campadelli et al. Precise eye and mouth localization
Xia et al. Face occlusion detection using deep convolutional neural networks
Diyasa et al. Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN
CN114550270A (zh) 一种基于双注意力机制的微表情识别方法
Gürel Development of a face recognition system
Soni et al. A Review of Recent Advances Methodologies for Face Detection
CN111950452A (zh) 一种人脸识别方法
Curran et al. The use of neural networks in real-time face detection
Jaison et al. A review on facial emotion recognition and classification analysis with deep learning
CN114998966A (zh) 基于特征融合的人脸表情识别方法
CN111553202B (zh) 进行活体检测的神经网络的训练方法、检测方法及装置
Thomas et al. Real Time Face Mask Detection and Recognition using Python

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination