CN117456586B

CN117456586B - 一种微表情识别方法、***、设备和介质

Info

Publication number: CN117456586B
Application number: CN202311538764.1A
Authority: CN
Inventors: 朱建鸿; 江盛; 于力革
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-07-09
Anticipated expiration: 2043-11-17
Also published as: CN117456586A

Abstract

本发明涉及一种微表情识别方法、***、设备和介质，其中，方法包括：步骤S1：获取微表情帧序列，读取所述微表情帧序列的起始帧，并定位所述微表情帧序列的顶点帧，其中，所述顶点帧为微表情强度最高的图像帧；步骤S2：等间隔提取所述起始帧至顶点帧之间的其余微表情帧序列，根据提取的其余微表情帧序列，利用改进的Farneback光流法和人脸面部感兴趣区域RO I计算其余微表情帧序列的光流差异，得到微表情产生的光流运动特征；步骤S3：将所述微表情产生的光流运动特征输入构建的ME‑ResNet网络模型，通过所述ME‑ResNet网络模型实现对微表情的识别。本发明能够对微表情进行准确且有效的识别。

Description

一种微表情识别方法、***、设备和介质

技术领域

本发明涉及人脸表情识别技术领域，尤其是指一种微表情识别方法、***、设备和介质。

背景技术

微表情(Micro Express ion，ME)是一种自发的、无意识的、短暂的面部表情，通常在人们试图掩饰自身的情绪波动时产生。相比普通的表情，微表情的持续时间更短，很难察觉，通常只持续1/25到1/5秒，但它们仍然能够揭示人们真实的情感状态，包括愤怒、快乐、悲伤、厌恶、惊讶等。例如，在面对刑讯审问、法庭审判等场合中，检察官、警察可以使用微表情分析技术来揭示嫌疑人或证人的真实情感状态，从而判断其是否在说谎或隐瞒真相。在心理学和医学研究领域中，微表情也可以作为一种诊断工具，帮助医生和心理学家分析患者的情感和心理状态。近年来，随着计算机视觉技术的不断突破，微表情识别成为充满挑战与价值的研究领域。

微表情的识别技术基本包括三个步骤：预处理、特征提取和分类，其中特征提取表示方法已经成为关于微表情识别研究的重点之一。早期的微表情识别主要是通过传统手工提取特征的方法，主要有基于光流特征的方法和基于局部二值模式的方法。虽然以上方法在一定程度上能够较为准确的对微表情进行识别，但传统的手工特征提取方式有着明显的不足：产生的计算量较大，效率较低，复杂度高，数据容易冗余。因此，研究人员开始尝试将计算机视觉技术应用于微表情识别，然而，由于微表情数据样本较少，建立过深的网络进行训练往往会造成过拟合，降低模型的性能。因此，针对微表情的复杂情况进行合适的预处理，以及设计更轻量的网络模型变得十分重要。

在基于深度学习技术的微表情识别领域，Wang等人[S.J.Wang,B.J.Li,Y.J.Liu,et al.Micro-Expression Recognition with Small Sample Size by TransferringLong-Term Convolutional Neural Network[J].Neurocomputing,2018,312:251-262.]提出一种名为迁移长期卷积神经网络的深度学习方法应用于微表情识别，该方法使用迁移的深层卷积神经网络提取面部特征，以实现对网络的预训练，然后使用长短时记忆(LongShort-Term Memory Network)模型训练学习识别微表情。Peng等人[Min Peng,ChongyangWang,Tao Bi,Tong Chen,XiangDong Zhou,Yu shi.A Novel Apex-Time Network forCross-Dataset Micro-Expression Recognition.[J].CoRR,2019,abs/1904.03699.]提出基于顶点帧和起始帧时间信息的顶点时间网络，通过学习时间信息辅助微表情识别，在跨数据集验证中极具鲁棒性。但是，上述方法仅利用微表情样本的起始帧和定点帧两帧之间的差异进行时间运动特征提取，忽略了两帧之间其他帧序列的运动细节，从而造成信息提取不全，会影响了整体网络识别微表情的准确率。因此，如何让网络充分提取微表情片段的时间特征和空间特征，是非常值得重视的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中微表情特征提取存在不足，进而导致微表情识别准确率降低的问题。

为解决上述技术问题，本发明提供了一种微表情识别方法，包括：

步骤S1：获取微表情帧序列，读取所述微表情帧序列的起始帧，并定位所述微表情帧序列的顶点帧，其中，所述顶点帧为微表情强度最高的图像帧；

步骤S2：等间隔提取所述起始帧至顶点帧之间的其余微表情帧序列，根据提取的其余微表情帧序列，利用改进的Farneback光流法和人脸面部感兴趣区域ROI计算其余微表情帧序列的光流差异，得到微表情产生的光流运动特征；

步骤S3：将所述微表情产生的光流运动特征输入构建的ME-ResNet网络模型，通过所述ME-ResNet网络模型实现对微表情的识别。

在本发明的一个实施例中，所述步骤S1中定位所述微表情帧序列的顶点帧，方法包括：

计算微表情帧序列的LBP得到纹理图，将所述纹理图划分为6×6个块；

将划分好块的微表情帧序列按时间间隔i进行划分，在时间间隔i内比较连续帧的频率：通过滑动窗口三维快速傅里叶变换分别计算在36个块上第i个时间间隔的频率值，对于第i个时间间隔中的第j个块b_ij，其频率值为：

式中，(x,y,z)为频域中的位置坐标，N为当前帧滑动窗口的长度，L_b为b_ij的高度，W_b为的宽度，为快速傅里叶变换的值，j＝{1,2,…,36}；

构建高频带通滤波器，所述高频带通滤波器由式(2)定义：

其中，D₀为阈值；

根据频率和高频带通滤波器对每个块进行过滤，以滤除与顶点帧定位无关的低频信息：

计算第i个时间间隔中所有36个块的频率振幅，如式(4)所示：

其中，A_ij为第i个时间间隔的频率振幅，表示面部移动的范围；

频率振幅最大的时间间隔为峰值间隔，表示快速面部移动的高强度帧，选择频率振幅最大的时间间隔i对应的中间帧作为顶点帧。

在本发明的一个实施例中，所述步骤S2中利用改进的Farneback光流法和人脸面部感兴趣区域ROI计算其余微表情帧序列的光流差异，得到微表情产生的光流运动特征，方法包括：

首先基于人脸面部感兴趣区域ROI，筛选出需要计算光流运动特征的区域；

对提取的帧序列进行灰度化和Farneback光流操作，通过计算前后两帧图像之间像素点运动的偏移量，得到目标图像I_m；

对目标图像I_m进行时空连续性判别：构建动态阈值U，对目标图像I_m中像素的运动轨迹进行过滤，去掉运动轨迹不连贯的噪声点，计算公式为：

式中，Q(x,y)为目标图像I_m上的指定位置像素点，t表示当前帧，t-1表示前一帧，当前后两帧图像灰度差的绝对值大于动态阈值U，则判定该像素点为有效运动，并保留其运动轨迹；否则判定该像素点为噪声点并清除；

在Q(x,y)取值为1的情况下，提取目标图像I_m中微表情产生的光流运动特征。

在本发明的一个实施例中，所述构建动态阈值U的方法包括：

首先将提取的图像帧序列转换为灰度图像，计算每两个相邻帧之间的灰度差P_i；对于每个像素位置(x,y)，假设I_m1和I_m2分别表示相邻帧的灰度值，则灰度差P_i表示为：

P_i＝|I_m2(x,y)-I_m1(x,y)|(10)

再将所有相邻帧之间的灰度差累加起来，得到总的灰度差累积值S；在每个像素位置(x,y)，S表示为：

S(x,y)＝∑P_i(x,y) (11)

最后，求出总的灰度差累积值S的均值p：

p＝(1/N)*∑S(x,y) (12)

式中，N的值为等间隔提取的其余微表情帧序列产生的灰度差个数；

再将均值p乘以一个比例因子m后作为动态阈值U。

在本发明的一个实施例中，所述在Q(x,y)取值为1的情况下，提取目标图像I_m中微表情产生的光流运动特征，方法包括：

首先构建高斯图像金字塔，对连续两帧微表情进行金字塔处理，通过逐级降采样得到不同分辨率的图像，其中，

高斯图像金字塔表示为：

G_i,j＝G(i,j)*K (5)

式中，G_i,j表示金字塔的当前层，G(i,j)表示上一层的像素值，K表示用于平滑操作的低通滤波器；

降采样表示为：

式中，G_i+1,j+1表示金字塔的下一层，G_2i,j表示上一层中对应位置的像素值；

在每个金字塔级别上，对图像进行空间和时间方向的梯度计算，然后通过在整个图像区域内进行积分和平均化来求解位移向量(u,v)：

式中，(x,y)表示图像中的像素位置，I_x和I_y分别表示图像在时间方向和空间方向上的梯度，I_t表示两帧图像之间的帧间差异；

将所述位移向量(u,v)作为光流运动特征。

在本发明的一个实施例中，所述步骤S3中的ME-ResNet网络模型基于ResNet50网络构建，并对所述ResNet50网络的Bottleneck模块进行改进，改进后的Bottleneck模块包括依次连接的第二特征提取模块、第三特征提取模块、第四特征提取模块、CBMA注意力模块，并且Bottleneck模块的输入还连接有第五特征提取模块，所述CBMA注意力模块和第五特征提取模块的输出图像按通道叠加；

所述第二特征提取模块包括依次连接的第二3D卷积层、第二BN层、第二Relu函数层，所述第二3D卷积层采用1*1*1的3D卷积核；

所述第三特征提取模块包括依次连接的第三3D卷积层、第三BN层、第三Relu函数层，所述第三3D卷积层采用3*3*3的3D卷积核；

所述第四特征提取模块包括依次连接的第四3D卷积层、第四BN层、第四Relu函数层，所述第四3D卷积层采用1*1*1的3D卷积核；

所述第五特征提取模块包括依次连接的第五3D卷积层、第五BN层、第五Relu函数层，所述第五3D卷积层采用1*1*1的3D卷积核。

在本发明的一个实施例中，所述步骤S1还包括：对获取的微表情帧序列进行人脸裁剪和对齐。

为解决上述技术问题，本发明提供了一种微表情识别***，包括：

获取与定位模块：用于获取微表情帧序列，读取所述微表情帧序列的起始帧，并定位所述微表情帧序列的顶点帧，其中，所述顶点帧为微表情强度最高的图像帧；

计算模块：用于等间隔提取所述起始帧至顶点帧之间的其余微表情帧序列，根据提取的其余微表情帧序列，利用改进的Farneback光流法和人脸面部感兴趣区域ROI计算其余微表情帧序列的光流差异，得到微表情产生的光流运动特征；

识别模块：用于将所述微表情产生的光流运动特征输入构建的ME-ResNet网络模型，通过所述ME-ResNet网络模型实现对微表情的识别。

为解决上述技术问题，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述微表情识别方法的步骤，。

为解决上述技术问题，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述微表情识别方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明针对微表情肌肉运动幅度小的问题，提出一种利用改进Farneback光流法和人脸面部感兴趣区域ROI提取面部运动特征的方法，以保证充分提取光流运动特征；

本发明对ResNet50网络进行改进，搭建基于3D卷积的ResNet网络，构建出用于微表情识别的ME-ResNet网络模型，随后将空间通道注意力机制加入网络的Bottleneck模块中，使网络能够聚焦学习面部运动特征的信息，改进后的ME-ResNet网络能够实现较好的识别性能；

实验证明，本发明在不同数据集上都能取得较好的识别效果。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明的方法流程图；

图2是本发明实施例中方法流程可视化流程图；

图3是本发明实施例中不同光流方法提取的可视化对比图；

图4是本发明实施例中ME-Resnet网络结构图；

图5是本发明实施例中Bottleneck模块结构图；

图6是本发明实施例中不同方法在CASMEⅡ数据集上的精度对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

参照图1所示，本发明涉及一种微表情识别方法，包括：

以下对本实施例进行详细介绍：

本实施例提供了一种基于“微特征”增强卷积神经网络的微表情识别方法，如图2所示，方法包括：

步骤1：获取微表***序列，进行人脸裁剪及对齐。读取微表情图像序列的起始帧和顶点帧。

由于微表情是一种自发的无意识的面部表情，通常其持续的时间很短。本发明提供的方法采用OpenCV中的Dlib人脸检测器从原始图像中检测并裁剪出人脸区域。具体过程如下：首先，选用68特征点检测模型检测视频第一帧的面部关键点，定位图片中的人脸；然后，通过计算两眼中心连线与水平线之间的角度，应用仿射变换对人脸进行对齐，矫正头部姿态；最后，将对第一帧所做的操作应用在全部视频帧上，从而完成对整个视频帧序列的人脸裁剪和对齐。起始帧是微表情开始的图像帧，而顶点帧是微表情强度最高的图像帧。具体顶点帧定位过程如下：计算微表***帧的LBP得到纹理图后，将纹理图(即面部区域)划分为6×6个块，计算每个块上的频率，得到大量的时域像素变化信息，并在指定的时间间隔i内比较连续视频帧的频率。通过滑动窗口三维快速傅里叶变换分别计算在36个块上第i个时间间隔的频率值，对于第i个时间间隔中的第j个块(即b_ij)，其频率值为：

式中，(x,y,z)为频域中的位置坐标，N为当前帧滑动窗口的长度，L_b为b_ij的高度，W_b为的宽度，为快速傅里叶变换的值，j＝{1,2,…,36}。

使用高频带通滤波器过滤与顶点帧定位无关的低频信息，高频滤波器由式(2)定义，其中，D₀为阈值。

根据式(3)过滤视频块：

接着，累加第i个时间间隔所有36个视频块的频率振幅，如下式所示：

其中，A_ij为第i个时间间隔的频率振幅，表示面部快速移动的范围。

由于频率振幅最大的时间间隔为峰值间隔，表示快速面部移动的高强度帧，因此，本实施例选择频率振幅最大的时间间隔i对应的中间帧作为顶点帧。

步骤2：等间隔抽取从起始帧至顶点帧之间的其他微表情帧序列。根据所提取的帧序列利用改进的Farneback光流法和人脸面部感兴趣区域ROI，计算每个帧序列的光流差异，得到微表情产生时的光流运动特征。

由于微表情动作幅度很小，相邻帧之间反映运动的光流特征并不明显，逐帧输入所有序列产生的光流特征图会造成数据冗余，引入过多无关背景信息，会增加模型的计算量，降低识别效率。因此，本发明提出将每个微表***的起始帧和顶点帧之间进行等间距提取11帧图像序列的方法，然后利用改进的Farneback光流法提取相邻帧之间面部运动特征。

Farneback光流法假设目标图像梯度恒定且局部光流恒定。首先构建高斯图像金字塔，对输入的两帧连续图像进行金字塔处理。图像金字塔是一种多尺度表达，通过逐级降采样得到不同分辨率的图像，从而能够处理不同大小和速度的运动目标。高斯金字塔可以表示为：

G_i,j＝G(i,j)*K (5)

式中，G_i,j表示金字塔的某一层，G(i,j)表示上一层的像素值，K表示用于平滑操作的低通滤波器。下采样操作方法如下：

式中，G_i+1,j+1表示金字塔的下一层，G_2i,j表示上一层中对应位置的像素值。下采样操作将前一层中每个相邻的4个像素平均值作为下一层对应位置的像素值。

在每个金字塔级别上，对图像进行空间和时间方向的梯度计算。然后通过在整个图像区域内进行积分和平均化来求解位移向量(u,v)：

式中，(x,y)表示图像中的像素位置，I_x和I_y分别表示图像在x方向和y方向上的梯度，I_t表示两帧图像之间的帧间差异。分子部分是对整个图像区域内的梯度信息进行加权求和，用于估计位移向量的分子项。分母部分是对梯度的模长进行加权求和，用于归一化位移向量。

从最低分辨率的金字塔级别开始，逐步向上优化光流场。在每个级别上，通过插值和缩放的方式将上一级的光流场估计作为下一级的初始估计，并继续进行光流近似和优化。通过逐级优化，得到每个像素点在x和y方向上的位移向量(u,v)，从而得到一个密集的光流场F＝(u,v)，即为光流运动特征。实际情况中，由于图像中的纹理变化和光照变化敏感会使这种方法求得的结果噪声太多，会影响网络对光流运动特征的提取。

本实施例改进的Farneback算法，首先利用人脸感兴趣区域ROI，筛选出需要计算光流的区域，去除无关背景；然后根据微表情在空间和时间上的连续性，将面部运动与无关噪声进行区分，从而提高网络对面部运动特征提取的准确性。对提取的帧序列进行灰度化和Farneback光流操作(此处对帧序列先进行灰度化，再判断公式(9)，如果公式(9)取值为1，则通过公式(5)-(8)计算光流特征)，即计算前后两帧图像之间像素点的运动矢量，得到目标图像I_m。此时目标图像I_m包含运动目标和噪声点，下一步将目标图像I_m进行时空连续性判别，以此区分噪声。

进行时空连续性判别是通过一个动态阈值U，对目标图像I_m(11帧图像得到的10张光流图，即10张目标图像I_m)中像素的运动轨迹进行过滤，去掉运动轨迹不连贯的噪声点。计算公式如下：

式中，Q(x,y)为目标图像I_m上的指定位置像素点，t表示当前帧，t-1表示前一帧，当前后两帧图像灰度差的绝对值大于阈值U，则判定该像素点为有效运动，并保留其运动轨迹，否则将该像素点视为噪声点并清除。在Q(x,y)取值为1的情况下，该像素点有效，最终对所有有效像素点提取微表情产生的光流运动特征，具体光流运动特征计算请见公式(5)-(8)。

值得一提的是，如果阈值U选择过高，会导致提取面部运动区域不完整，如果阈值U选择过低，会引入大量的干扰噪声。由于不同视频片段中微表情的运动强度不同，固定的阈值不能充分提取其光流运动特征。因此，本实施例提出一种自适应确定阈值的方法(即式(9))。

首先将提取的图像帧序列转换为灰度图像，计算每两个相邻帧之间的灰度差P_i。对于每个像素位置(x,y)，假设I_m1和I_m2分别表示相邻帧的灰度值，则灰度差P_i可以表示为：

P_i＝|I_m2(x,y)-I_m1(x,y)| (10)

再将所有相邻帧之间的灰度差累加起来，得到总的灰度差累积值S。在每个像素位置(x,y)，S可以表示为：

S(x,y)＝∑P_i(x,y) (11)

最后，求出总的灰度差累积值S的均值p：

p＝(1/N)*∑S(x,y) (12)

式中，N的值为10，表示11张帧序列共产生10个灰度差。再把所得的结果乘以一个比例因子m后可作为动态阈值U，本实施例中比例因子m的值为1.2。理论上，微表情强度越小，起始帧和顶点帧之间的灰度差越小，求得的阈值U也越小，符合实际需求。

通过改进的Farneback光流法可以充分提取更为有用的运动信息。图3是CASMEⅡ数据集中sub19/EP02_01样本和sub17/EP01_06样本的可视化光流应变图(图(a)为第一原始图片、图(b)为原始Farneback提取光流结果、图(c)为本实施例改进Farneback提取光流结果；图(d)为第二原始图片、图(e)为原始Farneback提取光流结果、图(f)为本实施例改进Farneback提取光流结果)，面部运动在右边眉毛区域(即图(c))和左边嘴角区域(即图(f))，颜色越亮则代表运动幅度越大。由此可见，改进后的Farneback光流法很好地降低了无关噪声点的影响，准确提取了面部的运动特征。

本发明提出的ME-ResNet网络模型以ResNet50网络为主干结构，为了加强网络对微表情片段中时间维度信息的获取，所以本实施例构建了基于3D卷积的ME-ResNet网络，加强了网络对时间维度信息的获取。3D卷积的原理是通过堆叠多个连续的帧序列图像组成一个立方体，然后在立方体中运用3D卷积核(K_w,K_h,K_d)进行计算。K_w、K_h和K_d分别表示卷积核的宽度、高度和深度。并在网络的Bottleneck模块中穿插CBAM通道空间注意力机制，可以有选择性地增强信息量大的特征，使得后续处理可以充分利用这些特征，并对无用特征进行抑制。在这个结构中，卷积层中每一个特征图都会与上一层中多个邻近的连续帧相连，因此可以捕捉图像的运动信息。因此本发明采用3D卷积，这样能更好的提取微表情帧序列中的时序信息，提高识别的准确率，使网络可以聚焦学习面部运动信息。

具体地，请参阅图4和图5，ME-ResNet网络模型包括依次连接的第一特征提取模块(包括依次连接的第一3D卷积层、第一BN层、第一Relu函数层)、最大池化层(3D形式)、3个第一Bottleneck模块、4个第二Bottleneck模块、3个第三Bottleneck模块、6个第四Bottleneck模块、平均池化层(3D形式)、softmax层；其中，第一Bottleneck模块至第四Bottleneck模块均用于提取深层特征且防止过拟合，其结构一样，包括依次连接的第二特征提取模块、第三特征提取模块、第四特征提取模块、CBMA注意力模块，并且Bottleneck模块的输入还连接有第五特征提取模块，所述CBMA注意力模块和第五特征提取模块的输出图像按通道叠加。由于CBMA注意力模块是现有技术，本实施例不再对其进行赘述。

其中，所述第二特征提取模块包括依次连接的第二3D卷积层、第二BN层、第二Relu函数层，所述第二3D卷积层采用1*1*1的3D卷积核；所述第三特征提取模块包括依次连接的第三3D卷积层、第三BN层、第三Relu函数层，所述第三3D卷积层采用3*3*3的3D卷积核；所述第四特征提取模块包括依次连接的第四3D卷积层、第四BN层、第四Relu函数层，所述第四3D卷积层采用1*1*1的3D卷积核；所述第五特征提取模块包括依次连接的第五3D卷积层、第五BN层、第五Relu函数层，所述第五3D卷积层采用1*1*1的3D卷积核。

由于微表情数据库的样本数量少，因此，采用从宏表情到微表情的迁移学习可以根据宏表情和微表情之间的语义相关性，从宏表情中学习有用的知识，帮助在微表情识别时选择高质量的样本，训练更为有效的分类器，以提高识别效果。

实验分析

为了验证本发明提供的微表情识别方法的有效性，本实施例采用3种公共的微表情自发数据集，分别是SAMM数据集，SMIC数据集和CASMEⅡ数据集。3种公共数据集的具体信息如表1所示。按照情绪种类可以将数据集分成积极、消极和惊讶三大类，其中积极样本中包含积极、快乐两种标签，消极样本中包含消极、压抑、恐惧、悲伤四种标签，而惊讶样本中只包含惊讶标签。

表1三种微表情数据集

数据集	SAMM	SMIC	CASMEⅡ
				发布机构	曼彻斯特大学	奥卢大学	中国科学院
发布年份	2018	2012	2014
				微表情种类	7	3	7
积极样本	26	51	32
				消极样本	92	70	86
惊讶样本	15	43	28
				总样本个数	133	164	146

本实验的参数设置如下，网络的初始学习率为0.0001，batch大小设置为32，使用Adam优化器。本网络选用Focal Loss损失函数：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (13)

式中，α为权重帮助处理了类别的不均衡，(1-p_t)^γ是调节因子，γ＞＞0是可调的聚焦参数。为防止网络过拟合，在训练时加入Early Stopping机制，以便得到最佳的训练模型。

评价指标是准确率(Accuracy)、未加权F1得分(Unweighted F1-score,UF1)和未加权平均召回(Unweighted Average Recall,UAR)。

UF1指标是衡量多分类模型性能的一种指标。特别适用于处理样本类别分布不均衡的情况，所以在微表情分类的问题上是一个很好的评估标准：

式中，C为微表情的总类别，i表示某一类别，TP：被模型预测为正类的正样；TN：被模型预测为负类的负样本；FP：被模型预测为正类的负样本；FN：被模型预测为负类的正样本。

未加权平均召回UAR是针对每个微表情类别计算的召回率的平均值，其评估标准如下：

式中，i表示某一类别，TN表示真阴性。

根据本发明的微表情识别方法，主要有三处改进：改进的Farneback光流法、引用3D卷积、及在该网络模型中添加注意力机制。为了验证改进后的用于微表情识别的卷积神经网络模型的识别性能，在CASMEⅡ数据集上进行消融实验，图6示出了根据本发明的方法从不作改进到一步步改进之后的微表情识别效果对比，改进过程中各方法的详细说明如表2所示，实验结果如图6所示。由图6可知，ME-ResNet模型在CASMEⅡ数据集上的UF1、UAR和Accuracy分别是83.02％、84.19％和84.42％。此外，提出的两种改进方式也能够有效地选择微表情特征中的关键信息，从而在一定程度上提高网络模型的识别精度。

表2四种实验方法设计

表1示出了所用数据集的详细说明；表2示出了图4中实验所用方法的详细说明；表3示出了本发明提供的微表情识别方法与其他基于深度学习的微表情识别方法在CASMEⅡ、SAMM、SMIC数据集上的识别精度对比。

表3与其他主流算法精度对比

实施例二

本实施例提供一种微表情识别***，包括：

实施例三

本实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一所述微表情识别方法的步骤。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例一所述微表情识别方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种微表情识别方法，其特征在于：包括：

所述步骤S2中利用改进的Farneback光流法和人脸面部感兴趣区域ROI计算其余微表情帧序列的光流差异，得到微表情产生的光流运动特征，方法包括：

在Q(x,y)取值为1的情况下，提取目标图像I_m中微表情产生的光流运动特征；

所述构建动态阈值U的方法包括：

P_i＝|I_m2(x,y)-I_m1(x,y)|(10)

S(x,y)＝∑P_i(x,y)(11)

最后，求出总的灰度差累积值S的均值p：

p＝(1/N)*∑S(x,y)(12)

再将均值p乘以一个比例因子m后作为动态阈值U；

所述在Q(x,y)取值为1的情况下，提取目标图像I_m中微表情产生的光流运动特征，具体为：

高斯图像金字塔表示为：

G_i,j＝G(i,j)*K(5)

降采样表示为：

将所述位移向量(u,v)作为光流运动特征；

步骤S3：将所述微表情产生的光流运动特征输入构建的ME-ResNet网络模型，通过所述ME-ResNet网络模型实现对微表情的识别；

所述步骤S3中的ME-ResNet网络模型基于ResNet50网络构建，并对所述ResNet50网络的Bottleneck模块进行改进，所述ME-ResNet网络模型包括依次连接的第一特征提取模块、最大池化层、3个第一Bottleneck模块、4个第二Bottleneck模块、3个第三Bottleneck模块、6个第四Bottleneck模块、平均池化层和softmax层，其中，第一Bottleneck模块、第二Bottleneck模块、第三Bottleneck模块和第四Bottleneck模块均为改进后的Bottleneck模块，改进后的Bottleneck模块包括依次连接的第二特征提取模块、第三特征提取模块、第四特征提取模块、CBMA注意力模块，并且Bottleneck模块的输入还连接有第五特征提取模块，所述CBMA注意力模块和第五特征提取模块的输出图像按通道叠加；

所述第一特征提取模块包括依次连接的第一3D卷积层、第一BN层、第一Relu函数层；

2.根据权利要求1所述的微表情识别方法，其特征在于：所述步骤S1中定位所述微表情帧序列的顶点帧，方法包括：

构建高频带通滤波器，所述高频带通滤波器由式(2)定义：

其中，D₀为阈值；

计算第i个时间间隔中所有36个块的频率振幅，如式(4)所示：

3.根据权利要求1所述的微表情识别方法，其特征在于：所述步骤S1还包括：对获取的微表情帧序列进行人脸裁剪和对齐。

4.一种微表情识别***，其特征在于：包括：

所述计算模块中利用改进的Farneback光流法和人脸面部感兴趣区域ROI计算其余微表情帧序列的光流差异，得到微表情产生的光流运动特征，包括：

所述构建动态阈值U的方法包括：

P_i＝|I_m2(x,y)-I_m1(x,y)|(10)

S(x,y)＝∑P_i(x,y)(11)

最后，求出总的灰度差累积值S的均值p：

p＝(1/N)*∑S(x,y)(12)

再将均值p乘以一个比例因子m后作为动态阈值U；

高斯图像金字塔表示为：

G_i,j＝G(i,j)*K(5)

降采样表示为：

将所述位移向量(u,v)作为光流运动特征；

识别模块：用于将所述微表情产生的光流运动特征输入构建的ME-ResNet网络模型，通过所述ME-ResNet网络模型实现对微表情的识别；

所述识别模块中的ME-ResNet网络模型基于ResNet50网络构建，并对所述ResNet50网络的Bottleneck模块进行改进，所述ME-ResNet网络模型包括依次连接的第一特征提取模块、最大池化层、3个第一Bottleneck模块、4个第二Bottleneck模块、3个第三Bottleneck模块、6个第四Bottleneck模块、平均池化层和softmax层，其中，第一Bottleneck模块、第二Bottleneck模块、第三Bottleneck模块和第四Bottleneck模块均为改进后的Bottleneck模块，改进后的Bottleneck模块包括依次连接的第二特征提取模块、第三特征提取模块、第四特征提取模块、CBMA注意力模块，并且Bottleneck模块的输入还连接有第五特征提取模块，所述CBMA注意力模块和第五特征提取模块的输出图像按通道叠加；

所述第一特征提取模块包括依次连接的第一3D卷积层、第一BN层、第一Rel u函数层；

所述第二特征提取模块包括依次连接的第二3D卷积层、第二BN层、第二Rel u函数层，所述第二3D卷积层采用1*1*1的3D卷积核；

所述第三特征提取模块包括依次连接的第三3D卷积层、第三BN层、第三Rel u函数层，所述第三3D卷积层采用3*3*3的3D卷积核；

所述第四特征提取模块包括依次连接的第四3D卷积层、第四BN层、第四Rel u函数层，所述第四3D卷积层采用1*1*1的3D卷积核；

所述第五特征提取模块包括依次连接的第五3D卷积层、第五BN层、第五Rel u函数层，所述第五3D卷积层采用1*1*1的3D卷积核。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述微表情识别方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现如权利要求1至3中任一项所述微表情识别方法的步骤。