CN110287805B

CN110287805B - 基于三流卷积神经网络的微表情识别方法及***

Info

Publication number: CN110287805B
Application number: CN201910468036.5A
Authority: CN
Inventors: 宗源; 李克; 郑文明; 赵力; 宋宝林; 朱洁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-02-09
Anticipated expiration: 2039-05-31
Also published as: CN110287805A

Abstract

本发明公开了一种基于三流卷积神经网络的微表情识别方法及***，所述方法包括：(1)获取若干微表***，转化为若干微表情图像序列样本；(2)从所述图像序列样本中提取出单通道人脸灰度图像，作为静态空间特征；(3)对所述单通道人脸灰度图像进行分块和堆叠，得到多通道灰度图像，作为局部空间特征；(4)对于所述图像序列样本，计算由水平/垂直光流场堆叠而成的四通道灰度图像，作为动态时间特征；(5)建立由静态空间流、堆叠空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，将每路对应特征作为输入，对三流卷积神经网络进行训练；(6)将待识别的微表***输入训练好的三流卷积神经网络，得到识别出的微表情。本发明识别率更高。

Description

基于三流卷积神经网络的微表情识别方法及***

技术领域

本发明涉及图像处理技术，尤其涉及一种基于三流卷积神经网络的微表情识别方法及***。

背景技术

微表情(Micro-Expression)是人类试图隐藏或者抑制内心真实情绪时产生的非常短暂且无法自主控制的面部表情。微表情是人类隐藏情绪的重要非语言信号，通常能够有效地揭示一个人的真实心理状态，被认为是识别谎言和危险的关键线索，对理解人类欺骗行为有着重要作用。正因如此，微表情可以有效地应用在情绪识别任务上，例如，在刑侦方面，经过一定微表情识别能力训练的审讯员对于谎言的识别能力将得到提升，从而有效地发现犯罪嫌疑人试图隐藏的内容以降低审讯难度；在社会安全方面中，通过观察微表情判断潜伏在日常生活中的危险分子，检测异常行为，预防暴恐的发生；在临床医疗方面，医生可以通过微表情了解患者的真实想法，从而更加有效地与患者沟通，更加准确地分析病情、改进治疗方案。

与宏观表情相比，微表情持续非常短，研究表明微表情仅持续1/25～1/3s。与此同时微表情面部肌肉动作幅度也非常小，通常只发生在人脸中很小的一部分区域，不会同时出现在上半脸和下半脸。因此对于没有经过专业训练的普通人，捕捉并正确识别微表情有着相当的难度。为此，Ekman等人开发出微表情训练工具(Micro-Expression TrainingTool,METT)以帮助人类更高效地理解和识别微表情。但尽管如此，依靠人力进行微表情识别的准确率并不高，根据有关文献报道仅能达到40％以上，这远远不及微表情在上述领域应用的基本要求。另外，人工识别微表情的培训成本较高，难以进行大规模推广。因此，利用计算机程序和人工智能算法进行微表情识别的需求越来越大，成为近年来的模式识别、计算机视觉、情感计算等领域的主要研究趋势。

微表情分类(或统称微表情识别)指将给定的微表情样本识别为某一具体的情绪类别，是微表情自动识别技术的核心内容，相关研究主要基于传统机器学***均光流特征(Main Directional Mean Optical flow feature,MDMO)等等。

随着深度学习的飞速发展，研究人员也在着手将其应用于微表情识别工作。Kim等人提出了一个基于卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆循环神经网络(Long Short Term Memory Recurrent Neural Network,LSTM RNN)的空时特征学习网络，该方法使用所有微表***样本的峰值帧训练CNN学习空间特征，而后使用CNN的输出作为特征训练LSTM网络学习时间特征，这是深度学习在微表情识别工作上的首次尝试。当前绝大部分有关微表情识别的研究仅可以取得60％以上的识别率，距离实际应用仍有一段距离；此外随着微表情数据集的扩充，基于深度学习的方法将是微表情识别在未来的主要研究方向之一，但目前相关研究较少，整体进展也较为缓慢。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种基于三流卷积神经网络的微表情识别方法及***，识别率更高。

技术方案：本发明所述的基于三流卷积神经网络的微表情识别方法包括：

(1)获取若干微表***，转化为若干微表情图像序列样本；

(2)从所述图像序列样本中提取出单通道人脸灰度图像，作为静态空间特征；

(3)对所述单通道人脸灰度图像进行分块和堆叠，得到多通道灰度图像，作为局部空间特征；

(4)对于所述图像序列样本，计算由水平/垂直光流场堆叠而成的四通道灰度图像，作为动态时间特征；

(5)建立由静态空间流、局部空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，将每路对应特征作为输入，对三流卷积神经网络进行训练；

(6)将待识别的微表***输入训练好的三流卷积神经网络，得到识别出的微表情。

本发明所述的基于三流卷积神经网络的微表情识别系包括：

样本获取模块，用于获取若干微表***，转化为若干微表情图像序列样本；

静态空间特征提取模块，用于从所述图像序列样本中提取出单通道人脸灰度图像，作为静态空间特征；

局部空间特征特征提取模块，用于对所述单通道人脸灰度图像进行分块和堆叠，得到多通道灰度图像，作为局部空间特征；

动态时间特征提取模块，用于对于所述图像序列样本，计算由水平/垂直光流场堆叠而成的四通道灰度图像，作为动态时间特征；

三流卷积网络训练模块，用于建立由静态空间流、局部空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，将每路对应特征作为输入，对三流卷积神经网络进行训练；

微表情识别模块，用于将待识别的微表***输入训练好的三流卷积神经网络，得到识别出的微表情。

有益效果：本发明与现有技术相比，其显著优点是：本发明识别效果更高、识别率更高。

附图说明

图1是本发明提供的基于三流卷积神经网络的微表情识别方法的一个实施例的流程示意图；

图2是光流场计算实例图；

图3是三流卷积神经网络的详细结构图；

图4是不同网络结构在CASME-II数据集下的实验结果对比；

图5是不同网络结构在SAMM数据集下的实验结果对比；

图6是本发明在CASME-II数据集下的归一化混淆矩阵；

图7是本发明在SAMM数据集下的归一化混淆矩阵。

具体实施方式

本实施例提供了一种基于三流卷积神经网络的微表情识别方法，如图1所示，该方法包括：

(1)获取若干微表***，转化为若干微表情图像序列样本。

(2)从所述图像序列样本中提取出单通道人脸灰度图像，作为静态空间特征。

该步骤具体包括：(2-1)将所述图像序列样本进行灰度化处理；(2-2)从灰度化处理后的图像序列样本中提取出微表情峰值帧；(2-3)对微表情峰值帧进行人脸检测，裁剪出矩形人脸图像并进行缩放，将缩放后的矩形人脸图像作为当前样本的静态空间特征。

本实施例中，人脸检测采用OpenCV自带的Viola-Jones级联检测器，该检测器可以对正面人脸进行有效的检测并具有较高的检测速度，缩放后的尺寸设为48×48像素，作为当前样本的静态空间特征，静态空间特征最为直观地展示了发生微表情的面部的形状外观。

(3)对所述单通道人脸灰度图像进行分块和堆叠，得到多通道灰度图像，作为局部空间特征。

该步骤具体包括：(3-1)将所述单通道人脸灰度图像放大n倍，n为大于1小于20的正整数；(3-2)将放大后的人脸灰度图像平均分为n×n个大小相同的矩形区域；(3-3)将矩形区域堆叠在一起，形成n²通道的灰度图像，作为局部空间特征。

本实施例中设n＝3，人脸图像放大就得到48×3×48×3像素大小，进而将其分割成3×3个大小相同的48×48像素的局部人脸灰度图像，最后将这3×3个图像在第三维上堆叠而成48×48像素大小9通道的灰度图像，即为需要的局部空间特征，其更为细致地描述了人脸图像的局部信息，对微表情识别效果的提升有所帮助。

(4)对于所述图像序列样本，计算由水平/垂直光流场堆叠而成的四通道灰度图像，作为动态时间特征。

该步骤具体包括：(4-1)获取所述图像序列样本的起始帧、峰值帧与终止帧；(4-2)分别计算起始帧与峰值帧之间的水平光流场和垂直光流场，以及峰值帧与终止帧之间的水平光流场和垂直光流场；(4-3)对计算得到的四个流场分别进行人脸检测，裁剪出矩形人脸区域并缩放为与所述单通道人脸灰度图像相同尺寸；(4-4)将四个缩放后的人脸区域分别采取min-max归一化处理，得到四个灰度图像，所述min-max归一化处理具体为：

式中，H_org表示归一化前的人脸区域，H_norm表示归一化后的灰度图像；(4-5)将四个灰度图像进行堆叠，得到四通道灰度图像，作为动态时间特征。

本实施例中，光流的计算采用开源光流估算器bob.ip.liu.optflow，对于输入的两幅图像可以计算出相同尺寸的两组光流矩阵分别是水平光流场和垂直光流场。通过归一化处理使得光流矩阵的所有元素均落在[0,1]区间内，能够作为灰度图像进行显示。光流场计算实例如图2所示，通过光流计算可以直观地观察到样本发生的皱眉动作在二维平面上的投影。对于一段微表***可以获得四幅光流图像，进行堆叠操作最终得到48×48像素的四通道图像，即为需要的动态时间特征，其有效地描述了微表情由发生到峰值再由峰值至结束这两个动态过程在二维平面上的投影，从而使得卷积网络能够获取时序动态信息，可以有效地改善最终识别结果。

(5)建立由静态空间流、局部空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，将每路对应特征作为输入，对三流卷积神经网络进行训练。

该步骤具体包括：

(5-1)建立由静态空间流、局部空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，其中，如图3所示，所述三路卷积网络除输入层数不同外其余结构全部相同，即分别包含五个卷积层、一个最大值池化层、两个平均值池化层和一个全连接层，三路卷积网络最后都连接至一个包含五个神经元的总全连接层，所有卷积层和全连接层均采用参数化线性修正单元(Parametric Rectified.Linear Unit,PReLU)作为激活函数，所有全连接层均采用随机失活(Dropout)防止过拟合。激活函数具体为：

式中i表示不同的通道，y_i表示激活函数的输入，参数a_i通过训练得到，在更新时采用带动量的方式，如下所示：

式中，Δa_i表示参数a_i的增长量，μ表示动量，ε表示学习率，η表示损失；

采用的损失函数为交叉熵损失函数：

式中，R_j为实际概率分布，z_j、θ_j分别表示第j个输出神经元及其权重；

(5-2)将每路神经网络的对应特征作为输入，对三流卷积神经网络进行训练，训练时采用带有校正因子动量Nesterov Momentum的随机梯度下降算法，计算损失函数从而不断更新权值，Nesterov Momentum通过模拟物理中动量的概念，抑制梯度方向的震荡，加快收敛速度，若历史梯度与当前梯度方向一致，Momentum项增大，否则减少；而Nesterov项在梯度更新时加入校正，迭代过程如下：

θ＝θ-v_t

式中，v_t表示当前梯度，γ表示校正因子，α表示学习率，

表示求取梯度，θ表示模型中的各个权值。

本实施例训练神经网络时，网络参数设置如下：所有卷积层的局部感受野大小均为5×5，步长为1，并在卷积后采用边缘补零策略保持特征映射大小不变。对于前三个卷积层，设置64个卷积核；对于后两个卷积层，设置128个卷积核。网络第一个最大值池化层池化第一个卷积层，第二第三个平均值池化层池化之前的两个卷积层，最大值池化层窗口大小为5×5，平均值池化层为3×3，步长均为2。每一次池化均使特征映射的大小减小到原来的一半。η学习率实验中设置为10^-3，权值衰减设置为10^-5，校正因子为0.9。

为加快训练速度，本实施例在大型人脸表情识别数据集FER2013上预训练静态空间流，并将保存的权重用做初始化，而局部空间流与动态时间流则采用随机初始化。训练采用早停(Early Stop)策略，最大周期设置为500，当验证集损失不再下降时即终止训练，训练过程遵循留一主题交叉验证(LOSO)协议，即每次训练选取数据集中的一个被试的全部样本作为验证集，其余样本作为训练集，由此可以避免网络对某一被试的样本产生过度依赖的现象，提高识别结果的可靠度。

其中，在训练好神经网络后，会进行测试，测试结果如下：

为验证本发明的三流卷积网络的有效性与必要性，在CASME-II和SAMM数据集上改变了不同的网络结构进行了实验，选取识别率和mean F1-Score作为评价指标，结果如图4图5所示，可以观察到本发明的三流卷积网络在两个数据集上均取得了最好的效果，其中光流信息的加入对结果的提升起到了关键作用。为避免由于数据集中各类情绪样本数量不平衡导致的识别率无法完全客观地评价模型的问题，我们对于三流卷积网络在两个数据集上的结果计算了归一化混淆矩阵，如图6和图7所示。

本实施例还提供了一种基于三流卷积神经网络的微表情识别***，包括：

其中，所述静态空间特征提取模块具体包括：

灰度化处理单元，用于将所述图像序列样本进行灰度化处理；

峰值帧提取单元，用于从灰度化处理后的图像序列样本中提取出微表情峰值帧；

人脸检测处理单元，用于对微表情峰值帧进行人脸检测，裁剪出矩形人脸图像并进行缩放，将缩放后的矩形人脸图像作为当前样本的静态空间特征。

其中，所述局部空间特征特征提取模块具体包括：

图像放大单元，用于将所述单通道人脸灰度图像放大n倍，n为大于1小于20的正整数；

图像划分单元，用于将放大后的人脸灰度图像平均分为n×n个大小相同的矩形区域；

图像堆叠单元，用于将矩形区域堆叠在一起，形成n²通道的灰度图像，作为局部空间特征。

其中，所述动态时间特征提取模块具体包括：

帧图像提取单元，用于获取所述图像序列样本的起始帧、峰值帧与终止帧；

光流场计算单元，用于分别计算起始帧与峰值帧之间的水平光流场和垂直光流场，以及峰值帧与终止帧之间的水平光流场和垂直光流场；

人脸检测处理单元，用于对计算得到的四个流场分别进行人脸检测，裁剪出矩形人脸区域并缩放为与所述单通道人脸灰度图像相同尺寸；

归一化单元，用于将四个缩放后的人脸区域分别采取min-max归一化处理，得到四个灰度图像，所述min-max归一化处理具体为：

式中，H_org表示归一化前的人脸区域，H_norm表示归一化后的灰度图像；

图像堆叠单元，用于将四个灰度图像进行堆叠，得到四通道灰度图像，作为动态时间特征。

其中，所述三流卷积网络训练模块具体包括：

卷积神经网络构建单元，用于建立由静态空间流、局部空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，其中，所述三路卷积网络除输入层数不同外其余结构全部相同，即分别包含五个卷积层、一个最大值池化层、两个平均值池化层和一个全连接层，三路卷积网络最后都连接至一个包含五个神经元的总全连接层，所有卷积层和全连接层均采用参数化线性修正单元PReLU作为激活函数，具体为：

采用的损失函数为交叉熵损失函数：

卷积神经网络训练单元，用于将每路神经网络的对应特征作为输入，对三流卷积神经网络进行训练，训练时采用带有校正因子动量Nesterov Momentum的随机梯度下降算法，计算损失函数从而不断更新权值，Nesterov Momentum通过模拟物理中动量的概念，抑制梯度方向的震荡，加快收敛速度，若历史梯度与当前梯度方向一致，Momentum项增大，否则减少；而Nesterov项在梯度更新时加入校正，迭代过程如下：

θ＝θ-v_t

式中，v_t表示当前梯度，γ表示校正因子，α表示学习率，

表示求取梯度，θ表示模型中的各个权值。

本***与上述方法一一对应，未详尽之处请参考上述方法，不再赘述。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于三流卷积神经网络的微表情识别方法，其特征在于该方法包括：

(1)获取若干微表***，转化为若干微表情图像序列样本；

(4)对于所述图像序列样本，计算由水平/垂直光流场堆叠而成的四通道灰度图像，作为动态时间特征；具体包括：

(4-1)获取所述图像序列样本的起始帧、峰值帧与终止帧；

(4-2)分别计算起始帧与峰值帧之间的水平光流场和垂直光流场，以及峰值帧与终止帧之间的水平光流场和垂直光流场；

(4-3)对计算得到的四个流场分别进行人脸检测，裁剪出矩形人脸区域并缩放为与所述单通道人脸灰度图像相同尺寸；

(4-4)将四个缩放后的人脸区域分别采取min-max归一化处理，得到四个灰度图像，所述min-max归一化处理具体为：

(4-5)将四个灰度图像进行堆叠，得到四通道灰度图像，作为动态时间特征；

2.根据权利要求1所述的基于三流卷积神经网络的微表情识别方法，其特征在于：步骤(2)具体包括：

(2-1)将所述图像序列样本进行灰度化处理；

(2-2)从灰度化处理后的图像序列样本中提取出微表情峰值帧；

(2-3)对微表情峰值帧进行人脸检测，裁剪出矩形人脸图像并进行缩放，将缩放后的矩形人脸图像作为当前样本的静态空间特征。

3.根据权利要求1所述的基于三流卷积神经网络的微表情识别方法，其特征在于：步骤(3)具体包括：

(3-1)将所述单通道人脸灰度图像放大n倍，n为大于1小于5的正整数；

(3-2)将放大后的人脸灰度图像平均分为n×n个大小相同的矩形区域；

(3-3)将矩形区域堆叠在一起，形成n²通道的灰度图像，作为局部空间特征。

4.根据权利要求1所述的基于三流卷积神经网络的微表情识别方法，其特征在于：步骤(5)具体包括：

(5-1)建立由静态空间流、局部空间流、动态时间流三路卷积网络合并而成的三流卷积神经网络，其中，所述三路卷积网络除输入层数不同外其余结构全部相同，即分别包含五个卷积层、一个最大值池化层、两个平均值池化层和一个全连接层，三路卷积网络最后都连接至一个包含五个神经元的总全连接层，所有卷积层和全连接层均采用参数化线性修正单元PReLU作为激活函数，具体为：