CN117576753A - 基于面部关键点的注意力特征融合的微表情识别方法 - Google Patents
基于面部关键点的注意力特征融合的微表情识别方法 Download PDFInfo
- Publication number
- CN117576753A CN117576753A CN202311579931.7A CN202311579931A CN117576753A CN 117576753 A CN117576753 A CN 117576753A CN 202311579931 A CN202311579931 A CN 202311579931A CN 117576753 A CN117576753 A CN 117576753A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- micro
- key points
- facial
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 230000003287 optical effect Effects 0.000 claims abstract description 88
- 238000010586 diagram Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000033001 locomotion Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 5
- 210000000887 face Anatomy 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 210000001331 nose Anatomy 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- OUXCBPLFCPMLQZ-WOPPDYDQSA-N 4-amino-1-[(2r,3s,4s,5r)-4-hydroxy-5-(hydroxymethyl)-3-methyloxolan-2-yl]-5-iodopyrimidin-2-one Chemical compound C[C@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)N=C(N)C(I)=C1 OUXCBPLFCPMLQZ-WOPPDYDQSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于面部关键点的注意力特征融合的微表情识别方法,该方法首先进行人脸面部关键点定位,获取浅层光流特征以及面部结构图。其次基于光流特征以及面部结构图,通过神经网络提取深层光流特征和面部结构特征。最后基于深层光流特征和面部结构特征,通过结合注意力机制的多尺度特征融合,得到微表情识别结果。本发明精确地关注重要的特征和上下文信息,提高模型的泛化能力和对于不同样本的个性化处理能力,提高微表情识别任务的准确率和鲁棒性。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于面部关键点的注意力特征融合的微表情识别方法。
背景技术
微表情是一种短暂的不容易察觉的面部表情变化,微表情的发生不受自我的控制,通常在人们试图掩饰自己真实的情绪时出现,因此可以看作为人类真实情感的泄露,能够反映一个人潜在的情感。因此,微表情的检测和识别在刑侦、临床医学、商业谈判、公共安全等场景下的微表情分析技术具有重要研究和应用价值。
目前微表情的识别方法主要分为两类:传统手工提取特征方法和基于深度学习的识别方法。传统的微表情识别方法通常采用手工提取特征的方式,根据采用算法的不同又可以划分为基于纹理的特征和基于几何变换的特征。基于纹理的特征使用表观的纹理特征作为微表情特征。基于几何变换的特征使用光流和基于面部关键点信息来提取具有区分度的微表情特征,相对于基于纹理提取特征的方法更有可能获得较高的识别率。近年来,随着深度学习技术的不断发展,深度卷积神经网络因其强大的特征提取能力和复杂问题表达能力,在计算机视觉领域如目标检测、语义分割、图像处理等取得了显著的成效。深度学习背景下提取的特征可以分为基于卷积神经网络提取的特征、基于长短期记忆网络(LongShort-TermMemory,LSTM)网络架构提取的特征、基于图卷积神经网络提取的特征,以及基于卷积神经网络和注意力机制架构提取的特征,这些特征通常都随着模型强大的特征学习能力而表现出更好的性能。
虽然基于深度学习技术的微表情识别方法优于基于传统的基于手工提取特征技术的方法,但是由于微表情识别工作中微表情本身的运动存在着工作幅度小、持续时间短、出现的面部位置具有局部性等问题,使得微表情难以被捕捉分析,这也给微表情检测和识别的工作增加了一定程度的难度。数据集样本存在明显的分布差异,少数样本分类的特征无法得到充分的表征,导致模型对少数类的鲁棒性更差,分类能力弱,对数据集产生过拟合的问题,从而缺乏了实用性。此外微表情识别的研究人员大多都聚焦于得到更加优化的表情特征,在模型中不断加深网络深度,增加其复杂性,造成了网络的不稳定性和特征的过度冗余,以及对硬件设备的要求也逐渐提高,增加了成本。
发明内容
针对现有技术的不足,本发明提出了一种基于面部关键点的注意力特征融合的微表情识别方法,通过人体面部关键点定位微表情运动发生的位置,结合光流和面部结构关键点双模态特征进行特征提取,并使用注意力机制对两个模态进行自适应权重分配,最终完成多尺度的特征融合,克服了微表情本身运动局部性以及数据集样本之间细微差异性的影响,提高微表情识别工作的准确性和高效性。
一种基于面部关键点的注意力特征融合的微表情识别方法,具体包括以下步骤:
步骤1、进行人脸面部关键点定位,获取浅层光流特征以及面部结构图。
步骤1-1、人脸裁剪与面部关键点定位
人脸检测是微表情自动分析的第一步,为了去除背景噪声带来的影响,截取到只包含人脸的部分。通过开源的Dlib库中的人脸检测算法进行人脸检测,可以得到人脸的68个关键点的信息,人脸裁剪过程是根据68个关键点的求解出最大和最小的横纵坐标,从而确定裁剪范围。针对数据集中每一个微表***样本,将每一帧都应用上述方法进行裁剪生成微表情图片序列。有研究标明人脸外轮廓处的部分关键点在不同微表情状态下变化并不明显,根据微表情运动发生的位置,选取嘴巴、眉毛和鼻子周围的n个最具有代表性的关键点构成人脸面部结构的拓扑图,进而捕获面部微表情运动的细微变化。通过这些关键点之间的面部相关性以邻接矩阵的形式量化这些关系,并在之后的特征提取步骤中发挥作用。
步骤1-2、基于TV-L1光流模型的浅层光流特征
对微表情图片序列中的起始帧、峰值帧使用TV-L1光流模型提取水平与垂直方向上的光流信息,进一步计算光学应变光流特征。光学应变光流特征可以表征面部变形的程度,不易受光照条件、面部遮挡条件的影响,然后将两个方向上的光流信息与光学应变光流特征叠加,形成浅层光流特征,有效表征面部微表情发生时的局部运动。为了减少整个面部噪声运动带来的负面影响,基于步骤1-1中的构建的面部结构图来获得更加高效的特征,以每一个选取的关键点为中心坐标向外扩展为m×m的三维度光流矩阵,这个大小既能捕获细微且有效的微表情运动特征又可以防止关键点周围的有效信息丢失。
步骤1-3、基于人脸关键点序列的面部结构图构建
在微表情图片序列中的起始帧、峰值帧、结束帧代表了微表情发生时面部肌肉运动的关键过程,这三帧包含了丰富的运动信息,也去除了整个视频中大量的冗余帧。当微表情运动出现时面部肌肉会移动,这就导致关键点的移动,因此面部关键点坐标数据包含了微表情的运动信息。在每一帧的基础上结合步骤1-1中提出的面部关键点信息,构建单帧关键点间的空间关系以及相邻帧关键点间的运动关系,这是识别微表情运动的关键,因此基于起始帧、峰值帧和结束帧构建面向微表情状态变化的面部结构图。
步骤2、基于光流特征以及面部结构图,通过神经网络提取深层光流特征和面部结构特征。
步骤2-1、提取基于关键点的深层光流特征
根据步骤1-2,每个数据集样本被转换为了n块m×m×3的浅层光流图特征,选择浅层三流网络模型(Shallow Triple Stream Three-dimensional Net,STSTNet)作为基准模型对每一块光流图进行分析计算,将浅层光流特征转换为具有深层含义的高级特征,得到深层的特征向量表示,即深层光流特征。
为了利用图卷积网络提取数据集样本中各个关键点的特征信息,根据步骤1-1中提出的面部图结构,每个关键点作为图中的顶点,每个关键点对应的光流图所提取到的浅层光流特征作为图中顶点的节点特征,通过人脸关键点之间的自然连接关系作为邻接矩阵,最后使用GCN聚合并提取光流特征中蕴含的具有判别性信息的深层时空特征,得到深层光流特征。
步骤2-2、提取基于关键点的面部结构特征
在步骤1-3基于人脸关键点形成的空间关系以及运动关系,通过轻量级的Shift图卷积网络提取时空图中的特征信息,得到面部结构特征。Shift图卷积网络包括空间移位图卷积模块和时间移位图卷积模块,不仅可以融合时空图中同帧节点间的信息,还可以融合帧间关键点的信息。ShiftGCN是在传统GCN的基础上,用Shift卷积算子替换传统卷积算子提出的,不但可以用更少的参数量和计算量达到更好的效果,还可以通过全局Shift图卷积自适应的学习不同面部关键点之间的关系,通过引入可学习性邻接矩阵提高了模型学习的灵活性,解决了预定义邻接矩阵中节点关系固定的局限性问题。
步骤3、基于深层光流特征和面部结构特征,通过结合注意力机制的多尺度特征融合,得到微表情识别结果。
特征融合策略在处理多模态或多学习方法中起着至关重要的作用,目前注意力机制已经成功的用于细化适用于不同模式的融合权重。根据步骤2中得到的深层光流特征和面部结构特征,分别输入编码器学习嵌入式的特征,然后使用softmax激活函数对不同的模态生成软注意学习权重α,并将权重值与原始的特征相乘来计算来得到新特征。为了保持原有的特征,采用1+α加权得分来作为自学习之后的新权值,将两个模态经过注意力加权后的特征进行连接操作作为特征融合模块的输出,并通过全连接层得到具有确定性的深层特征向量,最后由分类器做出最终的分类决策,输出微表情识别结果。
本发明具有以下有益效果:
1、提出了基于面部关键点的端到端多通道网络模型,让模型可以更加关注人脸中微表情运动信息量较大的部分,以克服微表情运动的局部性和细微性问题。网络模型由基于人脸关键点提取的光流特征和面部结构特征两个通道组成,从异构数据中提取时间与空间特征,有助于增加数据集样本特征的丰富性和提高网络模型识别的性能。
2、基于ShiftGCN的轻量级网络具有参数少、计算量小,以及推理时间更短等特点,能够更好的适应于微表情识别工作中数据集样本量较少的缺陷,从而减弱网络模型训练对数据样本量的依赖性。在保证训练速度的同时,ShiftGCN通过引入全局空间移位图卷积模块让模型可以自适应地学习面部关键点之间的关系,从而克服了预定义面部结构图中固定连接的局限性问题,通过引入时间移位图卷积模块可以更好的捕捉到面部序列的帧间运动信息,有助于模型提取到具有判别性的高级特征并得到样本深层的特征向量表示。
3、注意力特征融合模块通过编码器自适应的学习不同特征的权重值,使用模型可以根据不同模态的数据动态的分配注意力,更加精确地关注重要的特征和上下文信息,有助于提高模型的泛化能力和对于不同样本的个性化处理能力,从而提高微表情识别任务的准确率和鲁棒性。
附图说明
图1为本发明的整体流程图;
图2光流法提取的水平、垂直光流,和后续计算出的应变光流叠加后的光流图;
图3微表情图像序列中由起始帧、峰值帧和结束帧构建成的基于关键点的面部结构图。
具体实施方式
以下结合附图对本发明作进一步的解释说明。
如图1所示,一种基于面部关键点的注意力特征融合的微表情识别方法分为三个部分。第一部分:基于面部关键点进行光流特征和面部结构特征预处理;第二部分:通过基于面部关键点的端到端的双通道网络进行深层的特征提取;第三部分:根据注意力特征融合模块为多个通道自适应的分配权重系数,并通过分类器得到最终结果。具体步骤如下:
步骤1、进行人脸面部关键点定位,获取浅层光流特征以及面部结构图。
步骤1-1、人脸关键点定位
为了去除背景噪声带来的影响,首先对微表情序列进行人脸检测,这样有助于微表情特征信息的提取,也减少了输入到模型中图像数据的尺寸大小。通过开源的基于卷积神经网络的Dlib算法进行人脸检测,输入微表情图像序列,使用模型进行人脸检测,可以得到68个面部关键点信息,然后根据这些关键点求解出最大和最小的横纵坐标确定裁剪范围进行人脸裁剪的工作。通过分析微表情运动发生的位置,选取了具有代表性的12个关键点来构成人脸结构图,其中包含6个眉毛、2个鼻子和4个嘴巴位置的关键点坐标,这些位置在发生微表情状态变化时会蕴含大量的特征信息,相对于之前将整个面部图作为特征输入的研究,基于关键点的特征信息能够直接并精准的捕捉到微表情状态之间的差异,也消除了大量的冗余特征。通过这些关键点之间的面部相关性以邻接矩阵的形式量化这些关系,并在之后的特征提取步骤中发挥作用。
步骤1-2、浅层光流特征提取
基于关键点对数据集中的微表情数据进行光流特征提取。图1中Input输入的图像序列分别为起始帧、峰值帧和结束帧,起始帧为微表情运动未发生时的静止帧,峰值帧为微表情运动幅度到达峰值时的帧,结束帧为微表情运动发生之后恢复到正常状态的帧。通过TV-L1光流法可以提取到起始帧和峰值帧中面部微表情的局部运动信息,提取到的二维光流场可以表示两帧之间每个像素运动的大小和方向。应变模式用于衡量物体在外力作用下的形变程度,能够有效的反应面部发生的微表情运动的区域,对于足够小的面部像素运动,它可以表示面部肌肉组织的形变大小,在微表情识别任务中有较好的表现。通过给定二维光流向量,可以推导出光学应变这个特征来描述面部运动模式。将光学应变特征附加到光流场中,则每个微表情数据可以被表示为一个基于光流特征表示的三元组,三光流特征图叠加后如图2所示。根据步骤1-1中选取的人脸关键点,以每个关键点为中心坐标向外扩展为11×11大小的矩形,形成的光流块用来代表这个关键点周围的光流运动信息,所有的光流块最后也用来作为后续步骤中光流通道的输入特征。
步骤1-3、面部结构特征提取
人脸微表情是一种动态变化的过程,为了利用图卷积网络提取各帧图像中关键点的时间变化信息,根据关键点序列构建了一种时空图G=(V,E),其中V表示时空图中的节点集,由对连续的三帧表情序列进行关键点检测得到的集合构成,E表示时空图的边集,由序列中同帧的关键点的边集ES和由相邻帧关键点的边集ET组成。
对于序列中同一帧关键点之间的边集ES,不同的构造方法反映着人脸关键点之间的内在联系,也决定了同帧关键点间的信息流动方向,会严重影响网络模型的准确率。按照两种连接方式进行构建,第一种根据人脸器官几何结构将人脸的眉毛、嘴巴和鼻子进行几何连接,如图3所示,通过该方式可以刻画人脸各器官结构随着时间变化的信息,第二种采用全连接方式将各个关键点与剩余所有同帧间的关键点相连,因为在不同的微表情状态下,人脸各器官会存在着一定的相关性,比如当微表情类别为“积极”时,人的眼角会带动眉毛向下弯曲,嘴角也会跟着上扬,这些远距离的关键点之间就会存在着一定的相关性。同帧关键点的边可以用以下公式表示为:
其中N为序列中t时刻的关键点个数,G代表在不同构造方法下关键点编号对组成的集合,每个编号对表示这两个编号的关键点相连接,vt,ivt,j是一个二值化的变量,当关键点i和关键点j相连时,vt,ivt,j=1,反之vt,ivt,j=0。
时空图上的信息不仅在同帧关键点间进行连接,还需要在不同帧图像间的关键点进行传播,因此需要为相邻帧之间的关键点进行连接,通过将相邻帧间相同坐标的特征点进行相连,可以得到边集ET,可以用以下公式表示:
ET={vt,iv(t+1),j|i,j ∈ [1,N]} (2)
其中vt,iv(t+1),j也是一个二值化的变量,当关键点i=j时,vt,iv(t+1),j=1,反之vt, iv(t+1),j=0。
步骤2、基于光流特征以及面部结构图,通过神经网络提取深层光流特征和面部结构特征。
步骤2-1、提取基于关键点的面部光流块特征
根据步骤1-2每个数据集样本被转换为了12块11×11×3的浅层光流图特征,选择STSTNet模型作为基准模型对每一块光流图进行分析计算,将浅层光流特征转换为具有深层含义的高级特征,经过计算后每个光流块被转化为维度为64的深层特征向量,作为下一阶段图卷积网络中的节点特征。
标准卷积是在欧几里德结构数据中的局部区域上进行的,其可以捕获图像中像素的最重要的信息,而图卷积是在非欧式数据中学习每个对象节点之间的关系,可以看作是通过不同的节点传递数据,其目标是学习一个函数f,可以逐层的更新每个节点的节点特征。图卷积的邻接矩阵A和节点特征X可以用以下公式表示:
A∈Rn×n,X∈Rd×n (3)
其中n表示节点个数,d表示每个节点特征的维度,R表示实数集。
图卷积运算中通过卷积传播函数f来更新每一层的的输入参数即节点特征,可以记作Hl,其中l表示当前所在的的卷积层数,第一层的输入参数为最原始的节点特征,即H0=X。一般来说,每个图卷积层可以被表示为:
Hl=f(Hl-1,A) (4)因为f是一个卷积传播函数,公式4可以进一步被扩展为:
Hl=σ(AHl-1Wl-1) (5)
其中,σ是非线性激活函数,Wl-1∈Rd×d′是第l个图卷积层中的权重矩阵,d和d′分别代表第l层的输入和输出维数。图形卷积操作也可以像标准卷积一样堆叠到多层,堆叠的GCN模型能够在几次迭代聚合操作后学习节点间的依赖关系。
为了利用图卷积网络提取数据集样本中各个关键点的特征信息,根据步骤1-1中构建的面部结构图构建空间图,每个关键点作为图中的顶点,每个关键点对应的光流图所提取到的特征向量作为图中顶点的节点特征X∈R64×12,通过人脸关键点之间的自然连接关系作为邻接矩阵A∈R12×12,并通过设置两层图卷积层来进行特征聚合操作,其中第一层的输入和输出维数被分别设置为64和32,第一层的输入和输出维数被分别设置为32和16,最后通过reshape操作将12×16的节点特征转化为192的具有判别性信息的深层光流特征,作为整个光流通道的输出。
步骤2-2、提取基于关键点的面部结构特征
在步骤1-3基于关键点形成的面部结构图的基础上,通过轻量级的Shift图卷积网络提取时空图中的特征信息。ShiftGCN是在时空图卷积网络(Spatial Temporal GraphConvolutional Networks,STGCN)的基础上,用Shift卷积算子替换其中的传统卷积算子提出的,通过对原先的空间图卷积和时间图卷积添加移位操作,可以有效地执行相邻节点之间的消息传递,以及用更少的参数量和计算量达到更好的效果。Shift图卷积网络包括空间移位图卷积模块和时间移位图卷积模块,不仅可以融合时空图中同帧节点间的信息,还可以融合帧间关键点的信息。
空间移位图卷积模块可以分为局部和全局移位图卷积两种类型。对于局部移动图卷积,其感知域由微表情数据集预定义的面部关键点物理结构构成,这种方式只考虑了关键点之间的固有连接,难以挖掘潜在的具有“超距”作用的关系。全局移位图卷积去除了物理固有连接的限制,将单帧的面部结构连接图变成了完全图,使每个关键点的感知域覆盖整个面部关键点空间图。全局移位图卷积中不同节点之间的连接强度是相同的,但是面部关键点之间的重要性却是不同的,因此引入一种自适应的全局转移机制,将移位后特征和可学习的掩膜进行元素乘积,用于挖掘面部关键点之间的重要连接信息,可以用以下公式表示:
FM=F·Mask=F·(tanh(M)+1) (6)
其中F是经过移位运算后的节点特征,M是掩膜信息,FM是经过自适应重要性加权后得到的特征信息。
基于ShiftGCN的轻量级网络主要由一个全局空间移位图卷积和一个时间移位图卷积模块组成。根据步骤1-3中构建的面部关键点全连接时空图,每个数据集样本的输入特征维度被定义为T×V×C,其中T为关键点帧序列的的数量,具体的被设定为3,用于表示微表情运动变化的时间维度,V为序列中同一帧关键点的顶点数量,具体的值被设定为12,C为每个关键点包含的特征维度,具体的值被设定为2,用来表示单个面部关键点的横纵坐标信息。为了保证与光流通道输出的特征向量维度相同,将网络模型中的全局空间移位图卷积的输出特征通道数设定为16,最后通过reshape操作将12×16的节点特征转化为192维的蕴含丰富时空信息的深层特征向量,作为面部结构特征通道的输出并应用于之后的步骤。
步骤3、基于深层光流特征和面部结构特征,通过结合注意力机制的多尺度特征融合,得到微表情识别结果。
简单地串联特征并不能揭示各个模态信息的实际重要性,特征融合策略在处理多模态或多学习方法中起着至关重要的作用。通过将注意力机制置于提取的模态特征之上,帮助***将注意力集中在信息模态上,可以直观地理解为在不同模态上给出一个加权得分来表示单个分支地重要性。根据步骤2中得到的深层光流特征Fflow和面部结构特征Flandmark,首先对每个模态的特征使用编码器来学习嵌入式的特征,其中编码器由两个输出特征通道数为64和1的全连接层组成,然后使用softmax激活函数对不同的模态生成软注意学习权重α,可以用以下公式表示为:
α=softmax(tanh(Wf[Fflow,Flandmark]+bf)) (7)
其中Wf和bf为可训练的融合注意参数,α为2维向量,分别代表光流和关键点时空图模态的软注意权重系数。为了保持原有的特征,采用1+α加权得分来作为自学习之后的新权值,将两个模态经过注意力加权后的特征进行连接操作作为特征融合模块的输出,并通过全连接层得到具有确定性的深层特征向量,最后由softmax分类器做出最终的分类决策。
分别在Full、SMIC、CASMEII、SAMM数据集上使用本方法与现有技术进行微表情识别,结果如表1所示,本方法与传统方法(Bi-WOOF)以及基于深度学习的方法(AlexNet、OFFApexNet、CapsuleNet、Dual-Inception、RCN-A、STSTNet)相比获得了最佳的性能。与单一的方法STSTNet相比,本方法在Full综合数据集上的UF1和UAR指标分别提高了4.51%、1.76%,同时在SMIC和SAMM数据集上也表现出了较好的结果,证明了本发明的优越性,能够有效提升微表情识别的准确度。
表1
Claims (5)
1.基于面部关键点的注意力特征融合的微表情识别方法,其特征在于,包括以下步骤:
步骤1、进行人脸面部关键点定位,获取浅层光流特征以及面部结构图;
步骤2、基于光流特征以及面部结构图,通过神经网络提取深层光流特征和面部结构特征;
步骤3、基于深层光流特征和面部结构特征,通过结合注意力机制的多尺度特征融合,得到微表情识别结果。
2.根据权利要求1所述的基于面部关键点的注意力特征融合的微表情识别方法,其特征在于,所述步骤1具体过程如下:
步骤1-1、人脸裁剪与面部关键点定位
通过开源Dlib库中的人脸检测算法进行人脸检测,得到人脸的关键点的信息,根据关键点求解出最大和最小的横纵坐标,确定裁剪范围;
针对数据集中每一个微表***样本,将每一帧都进行裁剪生成微表情图片序列,根据微表情运动发生的位置,选取n个最具有代表性的关键点构成人脸面部结构的拓扑图,捕获面部微表情运动的变化;通过关键点之间的面部相关性以邻接矩阵的形式量化;
步骤1-2、基于TV-L1光流模型的浅层光流特征提取
对微表情图片序列中的起始帧、峰值帧使用TV-L1光流模型提取水平与垂直方向上的光流信息,计算光学应变光流特征;
然后将两个方向上的光流信息与光学应变光流特征叠加,形成浅层光流特征,表征面部微表情发生时的局部运动;以每一个选取的关键点为中心坐标向外扩展为m×m的三维度光流矩阵;
步骤1-3、基于人脸关键点序列的面部结构图构建
在微表情图片序列中每一帧的基础上结合步骤1-1中提出的面部关键点信息,构建单帧关键点间的空间关系以及相邻帧关键点间的运动关系,基于起始帧、峰值帧和结束帧构建面向微表情状态变化的面部结构图。
3.根据权利要求2所述的基于面部关键点的注意力特征融合的微表情识别方法,其特征在于,步骤2具体过程如下:
步骤2-1、提取基于关键点的深层光流特征
根据步骤1-2,每个数据集样本被转换为了n块m×m×3的浅层光流图特征,选择浅层三流网络模型STSTNet作为基准模型,将浅层光流图特征转换为具有深层含义的高级特征,得到深层光流特征;
步骤2-2、提取基于关键点的面部结构特征
在步骤1-3基于人脸关键点形成的空间关系以及运动关系,通过轻量级的Shift图卷积网络提取时空图中的特征信息,得到面部结构特征。
4.根据权利要求3所述的基于面部关键点的注意力特征融合的微表情识别方法,其特征在于,步骤2-1具体过程为:根据步骤1-1中提出的面部图结构,每个关键点作为图中的顶点,每个关键点对应的光流图所提取到的浅层光流特征向量作为图中顶点的节点特征,通过人脸关键点之间的自然连接关系作为邻接矩阵,在STSTNet后使用GCN聚合并提取光流特征中蕴含的具有判别性信息的深层时空特征,得到深层光流特征。
5.根据权利要求4所述的基于面部关键点的注意力特征融合的微表情识别方法,其特征在于,步骤3具体过程如下:
根据步骤2中得到的深层光流特征和面部结构特征,分别输入编码器学习嵌入式的特征,然后使用softmax激活函数对不同的模态生成软注意学习权重α,采用1+α加权得分作为自学习之后的新权值,将两个模态经过注意力加权后的特征进行连接操作作为特征融合模块的输出,并通过全连接层得到具有确定性的深层特征向量,最后由分类器做出分类决策,输出微表情识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311579931.7A CN117576753A (zh) | 2023-11-24 | 2023-11-24 | 基于面部关键点的注意力特征融合的微表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311579931.7A CN117576753A (zh) | 2023-11-24 | 2023-11-24 | 基于面部关键点的注意力特征融合的微表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576753A true CN117576753A (zh) | 2024-02-20 |
Family
ID=89860408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311579931.7A Pending CN117576753A (zh) | 2023-11-24 | 2023-11-24 | 基于面部关键点的注意力特征融合的微表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576753A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974853A (zh) * | 2024-03-29 | 2024-05-03 | 成都工业学院 | 同源微表情图像自适应切换生成方法、***、终端及介质 |
-
2023
- 2023-11-24 CN CN202311579931.7A patent/CN117576753A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974853A (zh) * | 2024-03-29 | 2024-05-03 | 成都工业学院 | 同源微表情图像自适应切换生成方法、***、终端及介质 |
CN117974853B (zh) * | 2024-03-29 | 2024-06-11 | 成都工业学院 | 同源微表情图像自适应切换生成方法、***、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及*** | |
Storey et al. | 3DPalsyNet: A facial palsy grading and motion recognition framework using fully 3D convolutional neural networks | |
CN109360156A (zh) | 基于生成对抗网络的图像分块的单张图像去雨方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及*** | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112288627A (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN111046734A (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN117576753A (zh) | 基于面部关键点的注意力特征融合的微表情识别方法 | |
CN113486700A (zh) | 一种教学场景下基于注意力机制的面部表情分析方法 | |
CN113689382A (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及*** | |
Liu et al. | APSNet: Toward adaptive point sampling for efficient 3D action recognition | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN113989928A (zh) | 一种动作捕捉和重定向方法 | |
CN114120389A (zh) | 网络训练及视频帧处理的方法、装置、设备及存储介质 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
Chen et al. | Intra-and inter-reasoning graph convolutional network for saliency prediction on 360° images | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
CN112487926A (zh) | 一种基于时空图卷积网络的景区投喂行为识别方法 | |
Yaseen et al. | A novel approach based on multi-level bottleneck attention modules using self-guided dropblock for person re-identification | |
CN112069943A (zh) | 基于自顶向下框架的在线多人姿态估计与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |