CN117576753A

CN117576753A - 基于面部关键点的注意力特征融合的微表情识别方法

Info

Publication number: CN117576753A
Application number: CN202311579931.7A
Authority: CN
Inventors: 邵艳利; 郑万闯; 王兴起; 方景龙; 魏丹; 陈滨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-20

Abstract

本发明公开了基于面部关键点的注意力特征融合的微表情识别方法，该方法首先进行人脸面部关键点定位，获取浅层光流特征以及面部结构图。其次基于光流特征以及面部结构图，通过神经网络提取深层光流特征和面部结构特征。最后基于深层光流特征和面部结构特征，通过结合注意力机制的多尺度特征融合，得到微表情识别结果。本发明精确地关注重要的特征和上下文信息，提高模型的泛化能力和对于不同样本的个性化处理能力，提高微表情识别任务的准确率和鲁棒性。

Description

基于面部关键点的注意力特征融合的微表情识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于面部关键点的注意力特征融合的微表情识别方法。

背景技术

微表情是一种短暂的不容易察觉的面部表情变化，微表情的发生不受自我的控制，通常在人们试图掩饰自己真实的情绪时出现，因此可以看作为人类真实情感的泄露，能够反映一个人潜在的情感。因此，微表情的检测和识别在刑侦、临床医学、商业谈判、公共安全等场景下的微表情分析技术具有重要研究和应用价值。

目前微表情的识别方法主要分为两类：传统手工提取特征方法和基于深度学习的识别方法。传统的微表情识别方法通常采用手工提取特征的方式，根据采用算法的不同又可以划分为基于纹理的特征和基于几何变换的特征。基于纹理的特征使用表观的纹理特征作为微表情特征。基于几何变换的特征使用光流和基于面部关键点信息来提取具有区分度的微表情特征，相对于基于纹理提取特征的方法更有可能获得较高的识别率。近年来，随着深度学习技术的不断发展，深度卷积神经网络因其强大的特征提取能力和复杂问题表达能力，在计算机视觉领域如目标检测、语义分割、图像处理等取得了显著的成效。深度学习背景下提取的特征可以分为基于卷积神经网络提取的特征、基于长短期记忆网络(LongShort-TermMemory,LSTM)网络架构提取的特征、基于图卷积神经网络提取的特征，以及基于卷积神经网络和注意力机制架构提取的特征，这些特征通常都随着模型强大的特征学习能力而表现出更好的性能。

虽然基于深度学习技术的微表情识别方法优于基于传统的基于手工提取特征技术的方法，但是由于微表情识别工作中微表情本身的运动存在着工作幅度小、持续时间短、出现的面部位置具有局部性等问题，使得微表情难以被捕捉分析，这也给微表情检测和识别的工作增加了一定程度的难度。数据集样本存在明显的分布差异，少数样本分类的特征无法得到充分的表征，导致模型对少数类的鲁棒性更差，分类能力弱，对数据集产生过拟合的问题，从而缺乏了实用性。此外微表情识别的研究人员大多都聚焦于得到更加优化的表情特征，在模型中不断加深网络深度，增加其复杂性，造成了网络的不稳定性和特征的过度冗余，以及对硬件设备的要求也逐渐提高，增加了成本。

发明内容

针对现有技术的不足，本发明提出了一种基于面部关键点的注意力特征融合的微表情识别方法，通过人体面部关键点定位微表情运动发生的位置，结合光流和面部结构关键点双模态特征进行特征提取，并使用注意力机制对两个模态进行自适应权重分配，最终完成多尺度的特征融合，克服了微表情本身运动局部性以及数据集样本之间细微差异性的影响，提高微表情识别工作的准确性和高效性。

一种基于面部关键点的注意力特征融合的微表情识别方法，具体包括以下步骤：

步骤1、进行人脸面部关键点定位，获取浅层光流特征以及面部结构图。

步骤1-1、人脸裁剪与面部关键点定位

人脸检测是微表情自动分析的第一步，为了去除背景噪声带来的影响，截取到只包含人脸的部分。通过开源的Dlib库中的人脸检测算法进行人脸检测，可以得到人脸的68个关键点的信息，人脸裁剪过程是根据68个关键点的求解出最大和最小的横纵坐标，从而确定裁剪范围。针对数据集中每一个微表***样本，将每一帧都应用上述方法进行裁剪生成微表情图片序列。有研究标明人脸外轮廓处的部分关键点在不同微表情状态下变化并不明显，根据微表情运动发生的位置，选取嘴巴、眉毛和鼻子周围的n个最具有代表性的关键点构成人脸面部结构的拓扑图，进而捕获面部微表情运动的细微变化。通过这些关键点之间的面部相关性以邻接矩阵的形式量化这些关系，并在之后的特征提取步骤中发挥作用。

步骤1-2、基于TV-L1光流模型的浅层光流特征

对微表情图片序列中的起始帧、峰值帧使用TV-L1光流模型提取水平与垂直方向上的光流信息，进一步计算光学应变光流特征。光学应变光流特征可以表征面部变形的程度，不易受光照条件、面部遮挡条件的影响，然后将两个方向上的光流信息与光学应变光流特征叠加，形成浅层光流特征，有效表征面部微表情发生时的局部运动。为了减少整个面部噪声运动带来的负面影响，基于步骤1-1中的构建的面部结构图来获得更加高效的特征，以每一个选取的关键点为中心坐标向外扩展为m×m的三维度光流矩阵，这个大小既能捕获细微且有效的微表情运动特征又可以防止关键点周围的有效信息丢失。

步骤1-3、基于人脸关键点序列的面部结构图构建

在微表情图片序列中的起始帧、峰值帧、结束帧代表了微表情发生时面部肌肉运动的关键过程，这三帧包含了丰富的运动信息，也去除了整个视频中大量的冗余帧。当微表情运动出现时面部肌肉会移动，这就导致关键点的移动，因此面部关键点坐标数据包含了微表情的运动信息。在每一帧的基础上结合步骤1-1中提出的面部关键点信息，构建单帧关键点间的空间关系以及相邻帧关键点间的运动关系，这是识别微表情运动的关键，因此基于起始帧、峰值帧和结束帧构建面向微表情状态变化的面部结构图。

步骤2、基于光流特征以及面部结构图，通过神经网络提取深层光流特征和面部结构特征。

步骤2-1、提取基于关键点的深层光流特征

根据步骤1-2，每个数据集样本被转换为了n块m×m×3的浅层光流图特征，选择浅层三流网络模型(Shallow Triple Stream Three-dimensional Net，STSTNet)作为基准模型对每一块光流图进行分析计算，将浅层光流特征转换为具有深层含义的高级特征，得到深层的特征向量表示，即深层光流特征。

为了利用图卷积网络提取数据集样本中各个关键点的特征信息，根据步骤1-1中提出的面部图结构，每个关键点作为图中的顶点，每个关键点对应的光流图所提取到的浅层光流特征作为图中顶点的节点特征，通过人脸关键点之间的自然连接关系作为邻接矩阵，最后使用GCN聚合并提取光流特征中蕴含的具有判别性信息的深层时空特征，得到深层光流特征。

步骤2-2、提取基于关键点的面部结构特征

在步骤1-3基于人脸关键点形成的空间关系以及运动关系，通过轻量级的Shift图卷积网络提取时空图中的特征信息，得到面部结构特征。Shift图卷积网络包括空间移位图卷积模块和时间移位图卷积模块，不仅可以融合时空图中同帧节点间的信息，还可以融合帧间关键点的信息。ShiftGCN是在传统GCN的基础上，用Shift卷积算子替换传统卷积算子提出的，不但可以用更少的参数量和计算量达到更好的效果，还可以通过全局Shift图卷积自适应的学习不同面部关键点之间的关系，通过引入可学习性邻接矩阵提高了模型学习的灵活性，解决了预定义邻接矩阵中节点关系固定的局限性问题。

步骤3、基于深层光流特征和面部结构特征，通过结合注意力机制的多尺度特征融合，得到微表情识别结果。

特征融合策略在处理多模态或多学习方法中起着至关重要的作用，目前注意力机制已经成功的用于细化适用于不同模式的融合权重。根据步骤2中得到的深层光流特征和面部结构特征，分别输入编码器学习嵌入式的特征，然后使用softmax激活函数对不同的模态生成软注意学习权重α，并将权重值与原始的特征相乘来计算来得到新特征。为了保持原有的特征，采用1+α加权得分来作为自学习之后的新权值，将两个模态经过注意力加权后的特征进行连接操作作为特征融合模块的输出，并通过全连接层得到具有确定性的深层特征向量，最后由分类器做出最终的分类决策，输出微表情识别结果。

本发明具有以下有益效果：

1、提出了基于面部关键点的端到端多通道网络模型，让模型可以更加关注人脸中微表情运动信息量较大的部分，以克服微表情运动的局部性和细微性问题。网络模型由基于人脸关键点提取的光流特征和面部结构特征两个通道组成，从异构数据中提取时间与空间特征，有助于增加数据集样本特征的丰富性和提高网络模型识别的性能。

2、基于ShiftGCN的轻量级网络具有参数少、计算量小，以及推理时间更短等特点，能够更好的适应于微表情识别工作中数据集样本量较少的缺陷，从而减弱网络模型训练对数据样本量的依赖性。在保证训练速度的同时，ShiftGCN通过引入全局空间移位图卷积模块让模型可以自适应地学习面部关键点之间的关系，从而克服了预定义面部结构图中固定连接的局限性问题，通过引入时间移位图卷积模块可以更好的捕捉到面部序列的帧间运动信息，有助于模型提取到具有判别性的高级特征并得到样本深层的特征向量表示。

3、注意力特征融合模块通过编码器自适应的学习不同特征的权重值，使用模型可以根据不同模态的数据动态的分配注意力，更加精确地关注重要的特征和上下文信息，有助于提高模型的泛化能力和对于不同样本的个性化处理能力，从而提高微表情识别任务的准确率和鲁棒性。

附图说明

图1为本发明的整体流程图；

图2光流法提取的水平、垂直光流，和后续计算出的应变光流叠加后的光流图；

图3微表情图像序列中由起始帧、峰值帧和结束帧构建成的基于关键点的面部结构图。

具体实施方式

以下结合附图对本发明作进一步的解释说明。

如图1所示，一种基于面部关键点的注意力特征融合的微表情识别方法分为三个部分。第一部分：基于面部关键点进行光流特征和面部结构特征预处理；第二部分：通过基于面部关键点的端到端的双通道网络进行深层的特征提取；第三部分：根据注意力特征融合模块为多个通道自适应的分配权重系数，并通过分类器得到最终结果。具体步骤如下：

步骤1-1、人脸关键点定位

为了去除背景噪声带来的影响，首先对微表情序列进行人脸检测，这样有助于微表情特征信息的提取，也减少了输入到模型中图像数据的尺寸大小。通过开源的基于卷积神经网络的Dlib算法进行人脸检测，输入微表情图像序列，使用模型进行人脸检测，可以得到68个面部关键点信息，然后根据这些关键点求解出最大和最小的横纵坐标确定裁剪范围进行人脸裁剪的工作。通过分析微表情运动发生的位置，选取了具有代表性的12个关键点来构成人脸结构图，其中包含6个眉毛、2个鼻子和4个嘴巴位置的关键点坐标，这些位置在发生微表情状态变化时会蕴含大量的特征信息，相对于之前将整个面部图作为特征输入的研究，基于关键点的特征信息能够直接并精准的捕捉到微表情状态之间的差异，也消除了大量的冗余特征。通过这些关键点之间的面部相关性以邻接矩阵的形式量化这些关系，并在之后的特征提取步骤中发挥作用。

步骤1-2、浅层光流特征提取

基于关键点对数据集中的微表情数据进行光流特征提取。图1中Input输入的图像序列分别为起始帧、峰值帧和结束帧，起始帧为微表情运动未发生时的静止帧，峰值帧为微表情运动幅度到达峰值时的帧，结束帧为微表情运动发生之后恢复到正常状态的帧。通过TV-L1光流法可以提取到起始帧和峰值帧中面部微表情的局部运动信息，提取到的二维光流场可以表示两帧之间每个像素运动的大小和方向。应变模式用于衡量物体在外力作用下的形变程度，能够有效的反应面部发生的微表情运动的区域，对于足够小的面部像素运动，它可以表示面部肌肉组织的形变大小，在微表情识别任务中有较好的表现。通过给定二维光流向量，可以推导出光学应变这个特征来描述面部运动模式。将光学应变特征附加到光流场中，则每个微表情数据可以被表示为一个基于光流特征表示的三元组，三光流特征图叠加后如图2所示。根据步骤1-1中选取的人脸关键点，以每个关键点为中心坐标向外扩展为11×11大小的矩形，形成的光流块用来代表这个关键点周围的光流运动信息，所有的光流块最后也用来作为后续步骤中光流通道的输入特征。

步骤1-3、面部结构特征提取

人脸微表情是一种动态变化的过程，为了利用图卷积网络提取各帧图像中关键点的时间变化信息，根据关键点序列构建了一种时空图G＝(V，E)，其中V表示时空图中的节点集，由对连续的三帧表情序列进行关键点检测得到的集合构成，E表示时空图的边集，由序列中同帧的关键点的边集E_S和由相邻帧关键点的边集E_T组成。

对于序列中同一帧关键点之间的边集E_S，不同的构造方法反映着人脸关键点之间的内在联系，也决定了同帧关键点间的信息流动方向，会严重影响网络模型的准确率。按照两种连接方式进行构建，第一种根据人脸器官几何结构将人脸的眉毛、嘴巴和鼻子进行几何连接，如图3所示，通过该方式可以刻画人脸各器官结构随着时间变化的信息，第二种采用全连接方式将各个关键点与剩余所有同帧间的关键点相连，因为在不同的微表情状态下，人脸各器官会存在着一定的相关性，比如当微表情类别为“积极”时，人的眼角会带动眉毛向下弯曲，嘴角也会跟着上扬，这些远距离的关键点之间就会存在着一定的相关性。同帧关键点的边可以用以下公式表示为：

其中N为序列中t时刻的关键点个数，G代表在不同构造方法下关键点编号对组成的集合，每个编号对表示这两个编号的关键点相连接，v_t,iv_t,j是一个二值化的变量，当关键点i和关键点j相连时，v_t,iv_t,j＝1,反之v_t,iv_t,j＝0。

时空图上的信息不仅在同帧关键点间进行连接，还需要在不同帧图像间的关键点进行传播，因此需要为相邻帧之间的关键点进行连接，通过将相邻帧间相同坐标的特征点进行相连，可以得到边集E_T，可以用以下公式表示：

E_T＝{v_t,iv_(t+1),j|i,j ∈ [1,N]} (2)

其中v_t,iv_(t+1),j也是一个二值化的变量，当关键点i＝j时，v_t,iv_(t+1),j＝1,反之v_t, _iv_(t+1),j＝0。

步骤2-1、提取基于关键点的面部光流块特征

根据步骤1-2每个数据集样本被转换为了12块11×11×3的浅层光流图特征，选择STSTNet模型作为基准模型对每一块光流图进行分析计算，将浅层光流特征转换为具有深层含义的高级特征，经过计算后每个光流块被转化为维度为64的深层特征向量，作为下一阶段图卷积网络中的节点特征。

标准卷积是在欧几里德结构数据中的局部区域上进行的，其可以捕获图像中像素的最重要的信息，而图卷积是在非欧式数据中学习每个对象节点之间的关系，可以看作是通过不同的节点传递数据，其目标是学习一个函数f，可以逐层的更新每个节点的节点特征。图卷积的邻接矩阵A和节点特征X可以用以下公式表示：

A∈R^n×n，X∈R^d×n (3)

其中n表示节点个数，d表示每个节点特征的维度，R表示实数集。

图卷积运算中通过卷积传播函数f来更新每一层的的输入参数即节点特征，可以记作H^l，其中l表示当前所在的的卷积层数，第一层的输入参数为最原始的节点特征，即H⁰＝X。一般来说，每个图卷积层可以被表示为：

H^l＝f(H^l-1,A) (4)因为f是一个卷积传播函数，公式4可以进一步被扩展为：

H^l＝σ(AH^l-1W^l-1) (5)

其中，σ是非线性激活函数，W^l-1∈R^d×d′是第l个图卷积层中的权重矩阵，d和d′分别代表第l层的输入和输出维数。图形卷积操作也可以像标准卷积一样堆叠到多层，堆叠的GCN模型能够在几次迭代聚合操作后学习节点间的依赖关系。

为了利用图卷积网络提取数据集样本中各个关键点的特征信息，根据步骤1-1中构建的面部结构图构建空间图，每个关键点作为图中的顶点，每个关键点对应的光流图所提取到的特征向量作为图中顶点的节点特征X∈R^64×12，通过人脸关键点之间的自然连接关系作为邻接矩阵A∈R^12×12，并通过设置两层图卷积层来进行特征聚合操作，其中第一层的输入和输出维数被分别设置为64和32，第一层的输入和输出维数被分别设置为32和16，最后通过reshape操作将12×16的节点特征转化为192的具有判别性信息的深层光流特征，作为整个光流通道的输出。

步骤2-2、提取基于关键点的面部结构特征

在步骤1-3基于关键点形成的面部结构图的基础上，通过轻量级的Shift图卷积网络提取时空图中的特征信息。ShiftGCN是在时空图卷积网络(Spatial Temporal GraphConvolutional Networks，STGCN)的基础上，用Shift卷积算子替换其中的传统卷积算子提出的，通过对原先的空间图卷积和时间图卷积添加移位操作，可以有效地执行相邻节点之间的消息传递，以及用更少的参数量和计算量达到更好的效果。Shift图卷积网络包括空间移位图卷积模块和时间移位图卷积模块，不仅可以融合时空图中同帧节点间的信息，还可以融合帧间关键点的信息。

空间移位图卷积模块可以分为局部和全局移位图卷积两种类型。对于局部移动图卷积，其感知域由微表情数据集预定义的面部关键点物理结构构成，这种方式只考虑了关键点之间的固有连接，难以挖掘潜在的具有“超距”作用的关系。全局移位图卷积去除了物理固有连接的限制，将单帧的面部结构连接图变成了完全图，使每个关键点的感知域覆盖整个面部关键点空间图。全局移位图卷积中不同节点之间的连接强度是相同的，但是面部关键点之间的重要性却是不同的，因此引入一种自适应的全局转移机制，将移位后特征和可学习的掩膜进行元素乘积，用于挖掘面部关键点之间的重要连接信息，可以用以下公式表示：

F_M＝F·Mask＝F·(tanh(M)+1) (6)

其中F是经过移位运算后的节点特征，M是掩膜信息，F_M是经过自适应重要性加权后得到的特征信息。

基于ShiftGCN的轻量级网络主要由一个全局空间移位图卷积和一个时间移位图卷积模块组成。根据步骤1-3中构建的面部关键点全连接时空图，每个数据集样本的输入特征维度被定义为T×V×C，其中T为关键点帧序列的的数量，具体的被设定为3，用于表示微表情运动变化的时间维度，V为序列中同一帧关键点的顶点数量，具体的值被设定为12，C为每个关键点包含的特征维度，具体的值被设定为2，用来表示单个面部关键点的横纵坐标信息。为了保证与光流通道输出的特征向量维度相同，将网络模型中的全局空间移位图卷积的输出特征通道数设定为16，最后通过reshape操作将12×16的节点特征转化为192维的蕴含丰富时空信息的深层特征向量，作为面部结构特征通道的输出并应用于之后的步骤。

简单地串联特征并不能揭示各个模态信息的实际重要性，特征融合策略在处理多模态或多学习方法中起着至关重要的作用。通过将注意力机制置于提取的模态特征之上，帮助***将注意力集中在信息模态上，可以直观地理解为在不同模态上给出一个加权得分来表示单个分支地重要性。根据步骤2中得到的深层光流特征F_flow和面部结构特征F_landmark，首先对每个模态的特征使用编码器来学习嵌入式的特征，其中编码器由两个输出特征通道数为64和1的全连接层组成，然后使用softmax激活函数对不同的模态生成软注意学习权重α，可以用以下公式表示为：

α＝softmax(tanh(W_f[F_flow,F_landmark]+b_f)) (7)

其中W_f和b_f为可训练的融合注意参数，α为2维向量，分别代表光流和关键点时空图模态的软注意权重系数。为了保持原有的特征，采用1+α加权得分来作为自学习之后的新权值，将两个模态经过注意力加权后的特征进行连接操作作为特征融合模块的输出，并通过全连接层得到具有确定性的深层特征向量，最后由softmax分类器做出最终的分类决策。

分别在Full、SMIC、CASMEII、SAMM数据集上使用本方法与现有技术进行微表情识别，结果如表1所示，本方法与传统方法(Bi-WOOF)以及基于深度学习的方法(AlexNet、OFFApexNet、CapsuleNet、Dual-Inception、RCN-A、STSTNet)相比获得了最佳的性能。与单一的方法STSTNet相比，本方法在Full综合数据集上的UF1和UAR指标分别提高了4.51％、1.76％，同时在SMIC和SAMM数据集上也表现出了较好的结果，证明了本发明的优越性，能够有效提升微表情识别的准确度。

表1

Claims

1.基于面部关键点的注意力特征融合的微表情识别方法，其特征在于，包括以下步骤：

步骤1、进行人脸面部关键点定位，获取浅层光流特征以及面部结构图；

步骤2、基于光流特征以及面部结构图，通过神经网络提取深层光流特征和面部结构特征；

2.根据权利要求1所述的基于面部关键点的注意力特征融合的微表情识别方法，其特征在于，所述步骤1具体过程如下：

步骤1-1、人脸裁剪与面部关键点定位

通过开源Dlib库中的人脸检测算法进行人脸检测，得到人脸的关键点的信息，根据关键点求解出最大和最小的横纵坐标，确定裁剪范围；

针对数据集中每一个微表***样本，将每一帧都进行裁剪生成微表情图片序列，根据微表情运动发生的位置，选取n个最具有代表性的关键点构成人脸面部结构的拓扑图，捕获面部微表情运动的变化；通过关键点之间的面部相关性以邻接矩阵的形式量化；

步骤1-2、基于TV-L1光流模型的浅层光流特征提取

对微表情图片序列中的起始帧、峰值帧使用TV-L1光流模型提取水平与垂直方向上的光流信息，计算光学应变光流特征；

然后将两个方向上的光流信息与光学应变光流特征叠加，形成浅层光流特征，表征面部微表情发生时的局部运动；以每一个选取的关键点为中心坐标向外扩展为m×m的三维度光流矩阵；

步骤1-3、基于人脸关键点序列的面部结构图构建

在微表情图片序列中每一帧的基础上结合步骤1-1中提出的面部关键点信息，构建单帧关键点间的空间关系以及相邻帧关键点间的运动关系，基于起始帧、峰值帧和结束帧构建面向微表情状态变化的面部结构图。

3.根据权利要求2所述的基于面部关键点的注意力特征融合的微表情识别方法，其特征在于，步骤2具体过程如下：

步骤2-1、提取基于关键点的深层光流特征

根据步骤1-2，每个数据集样本被转换为了n块m×m×3的浅层光流图特征，选择浅层三流网络模型STSTNet作为基准模型，将浅层光流图特征转换为具有深层含义的高级特征，得到深层光流特征；

步骤2-2、提取基于关键点的面部结构特征

在步骤1-3基于人脸关键点形成的空间关系以及运动关系，通过轻量级的Shift图卷积网络提取时空图中的特征信息，得到面部结构特征。

4.根据权利要求3所述的基于面部关键点的注意力特征融合的微表情识别方法，其特征在于，步骤2-1具体过程为：根据步骤1-1中提出的面部图结构，每个关键点作为图中的顶点，每个关键点对应的光流图所提取到的浅层光流特征向量作为图中顶点的节点特征，通过人脸关键点之间的自然连接关系作为邻接矩阵，在STSTNet后使用GCN聚合并提取光流特征中蕴含的具有判别性信息的深层时空特征，得到深层光流特征。

5.根据权利要求4所述的基于面部关键点的注意力特征融合的微表情识别方法，其特征在于，步骤3具体过程如下：

根据步骤2中得到的深层光流特征和面部结构特征，分别输入编码器学习嵌入式的特征，然后使用softmax激活函数对不同的模态生成软注意学习权重α，采用1+α加权得分作为自学习之后的新权值，将两个模态经过注意力加权后的特征进行连接操作作为特征融合模块的输出，并通过全连接层得到具有确定性的深层特征向量，最后由分类器做出分类决策，输出微表情识别结果。