CN104933416B

CN104933416B - 基于光流场的微表情序列特征提取方法

Info

Publication number: CN104933416B
Application number: CN201510360969.4A
Authority: CN
Inventors: 徐峰; 张军平
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2018-11-02
Anticipated expiration: 2035-06-26
Also published as: CN104933416A

Abstract

本发明属于计算机视觉技术领域，具体为一种基于光流场的微表情序列特征提取方法。本发明首先在微表情帧数一定的前提下抽取相邻帧之间的稠密光流场；再通过精细对齐，消除人脸平移对微表情识别带来的影响；然后，把对齐后的光流场分割为一系列时空分块，在每个时空分块中抽取主方向，用以表征该分块中绝大多数点的运动模式；将所有分块中的主方向量化、拼接，并表达成向量的形式，即得到设计的微表情序列特征。本发明提出的上述基于运动描述的新型特征，可用于微表情识别。本发明方法在准确率、精度与召回率的综合指标上优于其他已有的方法，推进了微表情识别技术的进一步发展。同时，该方法能刻画微表情的动态模式，为微表情的分析提供了更深层的理解。

Description

基于光流场的微表情序列特征提取方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于光流场的微表情序列特征提取方法。

背景技术

目前，微表情识别存在诸多的困难，现阶段仍未形成实用性的方法和理论框架。其难点主要表现在特征提取上。当前使用的特征往往是通用的视频特征表达，没有针对微表情这一应用进行优化，也不能对微表情提供深层的理解。

微表情最初发现于1969年，是心理学家通过观察与抑郁症病人的谈话录像时发现的[1]。视频中的病人经常表现出正常的笑容，然而可以发现有几帧异常痛苦的表情。心理学家将之命名为微表情。

与常规表情不同，微表情是一种人无法主观控制的微小表情。因此，观察微表情来判断真实心理状态在公安审讯、心理疾病诊治、商业谈判等领域具有潜在且重要的应用价值，目前已经受到了相当的关注。

然而微表情的识别并不容易，主要难点就在于其1）持续时间短、2）动作幅度小。即使受过专业训练的人员其识别准确率也不高。因此，一种基于计算机视觉的自动识别算法能够提高识别稳定性，并能极大地节省人力，具有很强的应用价值。其涉及到的技术领域主要有：人脸检测、人脸关键点定位、人脸对齐、图像预处理、特征提取、机器学习等。

尽管微表情识别发展不是很完善，但还是有大量的学者对其进行了研究，代表文献如下面所列。

当前国际上持续深入研究微表情识别的主要有两个研究小组。芬兰Oulu大学从时空纹理入手，试图将通用的视频特征应用到微表情上，提取有效的表达，来进行微表情的识别。如Pfister使用的三正交面局部二值模式（Local Binary Patten on ThreeOrthogonal Planes， LBP-TOP）特征，在X-Y，X-T，Y-T三个平面上提取局部二值模式（LocalBinary Pattern），共同用于微表情描述[2]。其中局部二值模式对于每一个像素点，用一个二进制数编码其与周围像素的值大小关系。然后统计该二进制编码的分布直方图，将之作为特征表达。但是微表情分析对人脸的精细对齐要求很高，该方法并不能很好的处理该问题。

中科院心理所王甦菁研究员从机器学习理论上入手，将每个微表情图像序列看作一个三阶张量，然后通过判别式张量子空间分析（Discriminative Tensor SubspaceAnalysis，DTSA）学习一组子空间映射，使得相同类别的张量之间距离尽量小，而不同类别的张量之间距离尽量大。然后通过极限学习机（Extreme Learning Machine）识别映射之后的微表情张量[5]，其本质上是一种机器学习算法，并没有在特征表达层面上对微表情提供深入的理解。

引用文献：

[1] Ekman P, Friesen W V. Nonverbal leakage and clues to deception.Psychiatry, vol.32, no.1, pp.88-106, 1969.

[2] T. Pfister, X. Li, G. Zhao, and M. Pietikainen. Recognisingspontaneous facial micro-expressions. CVPR, 2011.

[3] M. Shreve, S. Godavarthy, V. Manohar, D. Goldgof, and S. Sarkar.Towards macro- and micro-expression spotting in video using strain patterns.IEEE Workshop on Applications of Computer Vision, 2009.

[4] M. Shreve, S. Godavarthy, D. Goldgof, and S. Sarkar. Macro-andmicro-expression spotting in long videos using spatio-temporal strain, AFGR,2011.

[5] S.-J.Wang, H.-L.Chen, W.-J.Yan, Y.-H.Chen, and X.Fu, Facerecognition and micro-expression recognition based on discriminant tensorsubspace analysis plus extreme learning machine, Neural Processing Letters,vol.39, no.1, pp. 25–43, 2014.

[6] X.Li, T.Pfister, X. Huang, G. Zhao, and M. Pietikainen. Aspontaneous micro-expression database: Inducement, collection and baseline,AFGR, 2013.

[7] W.-J. Yan, Q. Wu, Y.-J. Liu, S.-J. Wang, and X. Fu, CASMEdatabase: A dataset of spontaneous micro-expressions collected fromneutralized faces, AFGR, 2013

[8] W.-J.Yan, X.Li, S.-J.Wang, G.Zhao,Y.-J.Liu,Y.-H.Chen, and X.Fu,CASME II: an improved spontaneous micro-expression database and the baselineevaluation, PLoS ONE, vol.9, no.1, p.e86041, 2014.

[9] Wu Q, Shen X, Fu X. The machine knows what you are hiding: anautomatic micro-expression recognition system. Affective Computing andIntelligent Interaction. Springer Berlin Heidelberg, pp.152-162, 2011.。

发明内容

本发明的目的在于提供一种有效的微表情序列特征提取方法。

本发明提出的微表情序列特征提取方法，首先，在微表情帧数一定的前提下抽取相邻帧之间的稠密光流场；在稠密光流场的基础上通过一种简洁的方法进行精细对齐，消除人脸平移对微表情识别带来的影响；然后，把对齐后的光流场分割为一系列时空分块，在每个时空分块中抽取主方向，用以表征该分块中绝大多数点的运动模式；将所有分块中的主方向量化、拼接，并表达成向量的形式，即得到设计的微表情序列特征。图1为本发明流程图示。

本发明提出的微表情序列特征提取方法，具体步骤为：

1、给定一段人脸表情序列，通过插值法将视频对齐到指定帧数，得到。其中，所述插值法，可以是线性插值法，也可以是Pfister描述的流形插值法等[2]。

2、在确定长度的微表情序列中，使用Horn-Schunck方法估计稠密光流场。其中，是与之间的光流场，其公式表达式是：

，

表示在第行第列的像素值，和分别是和在第行第列的元素；称为该位置的运动向量。在实际问题中上述公式并不能严格成立，只能近似，所以存在一定误差。因此本发明将在步骤4中介绍一种迭代的方法对主方向进行估计。

3、使用精细化对齐算法消除面部整***移。以水平分量为例，对每一个，计算直方图。等于光流场水平分量中值为的数量。令，

即是出现次数最多的水平分量值的相反数。令中所有值加上，则得到精确对齐后的水平光流场，

，

式中是和具有相同维度，且元素都是的矩阵；

对竖直分量V的精细化对齐是类似的：

，。

4、为了得到紧凑的表达，把对齐后的光流场切分成时空块，令每个时空块的尺寸为，在每个时空块中寻求一个主方向描述该时空块。其算法流程为：

（a）初始化主方向估计值P为一个二维的单位向量：P=（1，0）；

（b）在分块中的每个平面坐标，，寻找一个时间坐标，使得该位置上的运动向量与的内积最大：

；

（c）将上述找到的运动向量平均，并做归一化，将其作为P的更新值：

（d）重复步骤(a)-(c),直到P收敛或者超出最大步数限制。

5、通过上述步骤，在每一个时空分块中寻求得到一个主方向，把每个方向量化到若干个区间，并用区间的编号表示该主方向，例如图2描述了一种把主方向量化到10个区间的策略。把所有分块中的主方向拉接，即得到整个序列的描述特征。

由上述步骤得到的特征可以用来描述一个微表情。使用监督学习方法学习数据集中的带有标签的微表情，得到训练好的分类器（如支持向量机，Support Vector Machine）。对未标记的微表情序列提取上述特征，就可以用该分类器预测其标签。

本发明的关键在于步骤3、步骤4，也是本发明主要贡献：精细化对齐方法；快速的基于迭代的主方向估计方法。下面分别详细介绍：

精细化对齐方法

在上述步骤3中，需要消除拍摄对象脸部整体的平移运动对特征提取造成的影响。本发明提取的光流场中即包含了脸部的整体平移运动，也包含了微表情的局部运动。由于微表情只牵涉脸的局部，整体的光流场应该在大部分位置的值为0。因此，本发明将整体平移运动拆分成水平平移和竖直平移，分别对光流场的水平分量和竖直分量寻找一个修正量，修正后的光流场的水平分量和竖直分量分别为。

对于每个，计算的直方图等于光流场水平分量中值为的数量。令，即是出现次数最多的水平分量值的相反数。对中所有值施加修正量，即：

式中是和具有相同维度，且元素都是的矩阵。这样得到的水平分量在绝大部分位置的值是0，其个数就是原先的。

对的处理是类似的，对于每个，计算的直方图等于光流场水平分量中值为的数量。令，对中所有值施加修正量，即：

式中是和具有相同维度，且元素都是的矩阵。

快速的基于迭代的主方向估计方法

对于人脸的表情，有两个合理假设：限于肌肉尺度，在人脸的一小块区域上，运动方向是趋同的；由于肌肉运动速度，在非常短的时间窗口中，运动方向是趋同的。

在得到修正后的光流场后，我们把光流场分割为时空分块，根据对微表情的假设，这些时空分块中的运动向量应当是趋同的，因此可以用一个主方向去表征。一种最简单的方式是取平均，然而取平均会把光流场的误差也考虑在主方向之内，一定程度上影响了特征的正确性。为此本发明设计了一种迭代算法，其流程为：

(a)初始化主方向估计值P为一个二维的单位向量：P=（1，0）

(b)在分块中的每个平面坐标，，寻找一个时间坐标，使得该位置上的运动向量与的内积最大:

(c)将上述找到的运动向量平均，并做归一化，将其作为P的更新值:

(d)重复步骤(a)-(c),直到P收敛或者超出最大步数限制。

在正确估计的运动向量占多数的情况下，该方法可以忽略少量光流错误的情况，并快速收敛。

把上述求出的主方向量化到若干的区间，用区间的编号表示该主方向，并把所有主方向拉接，就得到了一段微表情序列的特征。

本发明提出的上述基于运动描述的新型特征，可用于微表情识别，该方法能够对微表情序列进行精细化的对齐操作，使得后续的分析更具有合理性。从实验结果可以发现，该方法在准确率、精度与召回率的综合指标上优于其他已有的方法，推进了微表情识别技术的进一步发展。同时，该方法能刻画微表情的动态模式，为微表情的分析提供了更深层的理解。

下面详细说明本发明的实验效果。

实验1，采用两种对比方法，分别是基于三正交面局部二值模式（LBP-TOP）的方法，和基于判别式张量子空间分析（DTSA）的方法。实验在CASME I、CASME II、SMIC、SMIC2四个数据集上进行，其中SMIC2包含三个子数据集：HS、VIS、NIR。

其中，CASME I包含8类，分别是鄙视（contempt）、恶心（disgust）、恐惧（fear）、快乐（happiness）、低沉（repression）、悲伤（sadness）、惊讶（surprise）和紧张（tense）。CASME I的帧率是60帧/秒。

CASME II包含7类，分别是恶心（disgust）、恐惧（fear）、快乐（happiness）、低沉（repression）、悲伤（sadness）、惊讶（surprise）和其他（other）。CASME II的帧率是200帧/秒。

表1展示了CASME I和CASME II中各类别样例的数量。

在CASME I和CASME II中，为了获取有效的微表情，参与者需要观看诱发情绪的视频，同时尽力不做出表情，否则将减少参与的奖励。

SMIC和SMIC2的三个子数据集都包含两类任务，分别是检测和归类。在检测的任务中，给定一个人脸序列，需要该序列中是否包含了微表情。在归类的任务中，给定一个微表情序列，需要指出属于何种微表情。

对于归类任务，SMIC仅有两类，即积极（positive）与消极（negative）；SMIC2包含三类，分别是积极（positive）、消极（negative）和惊讶（surprise）。

SMIC和SMIC2-HS的帧率是100帧/秒； SMIC2-VIS和SMIC2-NIR的帧率都是25帧/秒。

表2展示了SMIC和SMIC2中各类别样例的数量。

SMIC和SMIC2的微表情诱发方法与CASME I/II类似，参与者需要观看诱发情绪的视频，同时克制自己的表情，否则将要填写冗长的问卷作为惩罚。

图3展示了上述数据集的一些样例。

实验使用了有两个分别衡量指标，分别是准确率和。其中准确率的定义是：

的定义是

在上述定义中，表示正确分类的正例，表示正确分类的负例，表示错误分为正例的负例，表示错误分为负例的正例。下标表示以第类的样例为正例，其余类的样例为负例的设置。

表3、表4显示了三种方法在六个数据集上的结果。可以看出本发明方法在所有问题上都取得了最优的结果。需要注意的是，基于判别式张量子空间分析（DTSA）的方法在CASME I和CASME II上的结果并不如原先论文中的好，这是因为原论文的实验没有使用样例数较少的类别，而我们使用了完整的数据集进行实验。

因此，针对CASME I和CASME II，我们添加一组实验，仅使用样例数量较多的类别。具体的，CASME I中仅使用恶心、低沉、惊讶和紧张四种情绪；CASME II中仅使用恶心、快乐、低沉、惊讶和其他五种表情。实验结果如表5、表6所示。可以看到我们仍然取得了最优的成绩。

实验2，为了验证本发明的精细化对齐的作用，我们对照了使用精细化对齐过程和不使用这种过程的结果差距。结果如表7所示，大量的实验结果表明，精细化对齐对实验结果有积极的影响。

实验3，主方向迭代求解法并不能在理论上保证收敛，需要设置最大迭代周期，一旦超过即结束迭代过程。因此考虑该算法在实际应用中的收敛速度。图4展示了迭代周期与收敛分块比重的关系。可以看到，在完成三次迭代后，有90%的分块中的主方向已经收敛。在三中t的取值下，都会有一部分分块中的主方向无法收敛，这一比例在t=2时为0.500%，在t=3时为0.833%，在t=4时为0.834%。这样微小的比例并不足以影响算法的效率和特征的正确性。

附图说明

图1为基于光流场的微表情识别方法流程图。

图2为主方向量化示意图。其中，左图是一个时空分块中的运动向量，右图是估计得到的主方向量化到10分区间的结果。

图3数据集样例。其中，第一行来自SMIC2-VIS，是一个消极的微表情；第二行来自SMIC2-NIR，是一个积极的微表情，原样本包含13张图片，此处展示前8张；第三行来自SMIC2-HS，是一个惊讶的微表情，原样本包含25张图片，此处展示其中等距离的8张（每3张展示1张）；第四行来自SMIC，这不是一个非微表情样本，用于检测任务，原样本包含34张图片，此处展示其中等距离的8张（每4张展示1张）；第五行来自CASME I，是一个恶心的微表情，原样本包含10张，此处展示前8张；第六行来自CASME II，是一个消沉的微表情，原样本包含66张图片，此处展示其中等距离的8张（每8张展示1张）。

图4不同t值下的收敛速度。横轴是迭代次数，纵轴是该迭代次数下主方向收敛的时空分块占总分块数量的比例。

具体实施方式

本发明提供了一种描述微表情的特征的方法，将这种特征用于微表情的识别与分类。以下举例说明本发明的运用方式。

在实际运用中，需要事先从长时间的视频序列中进行序列的分割。分割可以使用定长的时间窗口，也可以匹配使用特定模式进行分割。本发明并不涉及分割技术，因此，以下仅以一个简单时间窗口技术举例。

使用高速摄像机（50-200fps）拍摄人面部视频，在其中检测微表情序列并进行分类。常规的25fps摄像机也可以捕捉微表情，然而可能遗漏一些极为短小的微表情。另外，即使对于捕捉到的微表情，也无法像高速摄像机那样提供时间上相似的信息。

研究证明微表情通常持续时间在0.05秒至0.2秒之间[9]。为此，我们维护一个长度为0.2秒的时间窗口，每个时刻我们总是可以获取过去0.2秒的视频序列。

在这一0.2秒的视频序列中进行人脸检测，得到统一尺寸的方框使其包围人脸。舍弃视频帧的其它部分，得到0.2秒的人脸序列。

进行线性插值，得到固定长度为20帧的人脸序列。具体的，对每个平面位置，将所有帧在这一位置上的像素值看作一个函数在固定采样间隔上的取值。将0.2秒的视频分割为19个定长的区间，在每个间隔点上取得左右各自最近邻的像素取值，进行线性插值。由此得到统一的20帧人脸序列。

在这20帧人脸序列中，使用Horn-Schunck方法在两两相邻的帧之间计算稠密光流场。

为了消除平移对后续特征的影响，需要进行基于光流场的精细对齐。具体地，对每一光流场的水平和竖直分量和，计算直方图和，其中返回水平分量为的运动向量的数量，返回水平分量为的运动向量的数量。计算。

然后令。这样就完成了精细对齐的过程。

把微表情时空序列切分成较小的时空分块。在每一个时空分块中，只要找出一个运动主方向，就能表征该时空分块中的运动模式。为此，假定该主方向为P，并初始化其为一单位向量P=(1,0) 。在每个平面坐标上，寻找一个时间坐标，使得该位置上的运动向量与P的内积最大。对所有水平坐标上找到的运动向量求平均并作归一化，作为P的新的估计值。这样迭代直到P收敛。这种算法并不能保证收敛性，因此，设置一个最大迭代次数20，一旦迭代次数超过这一最大值，就结束迭代。

这样，就可以求出所有时空分块的主方向，将这些方向离散化到10个方向，分别用1，…10表示。拉接所有时空分块中的主方向，即得到该微表情序列的最终特征。

我们对于数据库中的所有微表情计算其特征，使用基于径向基函数核（RadialBasis Function Kernel，RBF Kernel）的SVM进行训练，得到一个训练好的SVM分类起。对于任何一个微表情序列，首先用线性插值将其插值到20帧，抽取主方向特征。用训练好的SVM分类器进行表情类型的判别。

表1 SMIC和SMIC2各类别样例的数量

表2 CASME I和CASME II各类别样例的数量

表3分类结果的

表4分类结果的准确率

表5 排除样例数较少的类别后的CASME I/II分类结果的

表6排除样例数较少的类别后的CASME I/II分类结果的准确率

数据集	本发明	LBP-top	DTSA
				CASME I	56.14%	40.35%	46.20%
CASME II	45.93%	40.65%	36.18%

表7 精细化对齐带来的分类性能提升

Claims

1.一种基于光流场的微表情序列特征提取方法，其特征在于具体步骤为：

（1）给定一段人脸表情序列，通过插值法将视频对齐到指定帧数，得到；

（2）在确定长度的微表情序列中，使用Horn-Schunck方法估计稠密光流场；其中，是与之间的光流场，其公式表达式是：

，

表示在第行第列的像素值，和分别是和在第行第列的元素；称为该位置的运动向量；

（3）使用精细化对齐算法消除面部整***移，对于水平分量，每一个，计算直方图，等于光流场水平分量中值为的数量；令，

即是出现次数最多的水平分量值的相反数；令中所有值加上，则得到精确对齐后的水平光流场：

，

式中，是和具有相同维度，且元素都是的矩阵；

对竖直分量V的精细化对齐是类似的：

，；

（4）把对齐后的光流场切分成时空块，令每个时空块的尺寸为，在每个时空块中寻求一个主方向描述该时空块，其算法流程为：

（b）在分块中的每个平面坐标，，寻找一个时间坐标，使得该位置上的运动向量与p的内积最大：

；

（d）重复步骤(a)-(c),直到p收敛或者超出最大步数限制；

（5）通过上述步骤，在每一个时空分块中寻求得到一个主方向，把每个方向量化到若干个区间，并用区间的编号表示该主方向，把所有分块中的主方向拉接，即得到整个序列的描述特征。