CN113361297B

CN113361297B - 一种基于光流与风车模式特征融合的微表情检测方法

Info

Publication number: CN113361297B
Application number: CN202010102814.1A
Authority: CN
Inventors: 贲晛烨; 孙静; 李玉军; 李冰; 徐鹏; 任家畅
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2022-07-29
Anticipated expiration: 2040-02-19
Also published as: CN113361297A

Abstract

本发明涉及一种基于光流与风车模式特征融合的微表情检测方法，包括步骤如下：(1)对原始视频进行预处理；(2)划分面部感兴趣区域；(3)计算光流特征的模值和角度，设置阈值，获取每个感兴趣区域的微表情起始帧和终止帧；(4)根据WP面部纹理特征，计算WP面部纹理特征的Chi‑Squared(χ²)距离，设置阈值T，获取每个感兴趣区域的微表情起始帧和终止帧；(5)将光流特征与WP特征检测进行结合，得到更全面、更有判决力的面部纹理以及运动信息，选择更为接近人工编码的微表情序列作为最终检测的微表情序列。本发明能够更加精确地定位微表情出现的位置，提高微表情检测的效率，且可以减少计算量，降低时耗，是一种高鲁棒性的微表情检测方法。

Description

一种基于光流与风车模式特征融合的微表情检测方法

技术领域

本发明涉及一种基于光流与风车模式特征融合的微表情检测方法，属于模式识别技术领域。

背景技术

人们在很多情况下擅长伪装或抑制真实情感，在这种情况下容易产生微表情，其具有持续时间短、变化幅度弱、面部动作区域较少等特点。也正因为微表情包含着人们想要隐藏的“情感信号”，尤其是在人面临高风险或者其他精神高度紧张的情形下，它更能体现人们的真实想法，被认为是理解人们真实情绪、识破谎言的重要线索，在测谎等方面微表情有着重要应用。

微表情检测是指从一段原始图像序列中确定微表情起始帧和结束帧的位置，对于研究中微表情库的建立来说，精确有效的检测出微表情显得至关重要。当前微表情检测主要通过人工来完成，方法为具备相关心理学知识的专业人员通过肉眼从一段视频中发现微表情的起始帧、高潮帧和结束帧，并且确定面部肌肉运动单元和以及微表情所表达的情绪。然而，由于微表情持续时间短暂以及表情动作幅度小，往往只能依靠少部分受过专业训练的人员进行检测与识别，而且费时费力、容易遗漏，这极大地限制了微表情的研究及成果的应用，进而影响到微表情数据库的建立。

近年来，在计算机视觉和模式识别领域对于微表情自动检测技术取得了一些成果。2009年，Shreve等将人脸划分为几个主要区域，采用稠密光流法提取图像特征值并使用中心插分法估计光流变化，通过与设定的阈值比较来检测微表情，但是，该方法将人脸区域简单的划分为8块，并且忽略了眼睛等很多重要的表情部位；同年，Polikovsky等采用3D梯度方向直方图的方法在自己的微表情数据库中检测出微表情起始阶段、峰值阶段和结束阶段的持续时间；2011年，Sherve等人利用光流法在自己建立的表情和微表情混合数据库上对两种表情(宏表情和微表情)开展了检测实验，其中微表情的检测准确率达到74％；随后Wu等人采用提取图像Gabor特征并由SVM分类训练的方法捕捉微表情。2014年，Moilanen等提出利用LBP直方图特征计算图像序列的时空信息来检测微表情；随后Davison等用HPG特征代替LBP特征提取图像序列特征后，设定了一个基线阈值通过对比来检测微表情。但这些方法存在一些缺点：第一，忽视了微表情动态过程以及时长，第二，所检测的微表情样本过于理想，对于现实应用缺乏意义，第三，以上方法的微表情检测效果一般，并未达到精准自动检测。

发明内容

针对以上现有技术的不足，本发明提供了一种基于光流与风车模式特征融合的微表情检测方法。

发明概述：

本发明涉及一种基于光流与风车模式特征融合的微表情检测方法，包括：首先，对含有微表情的原始视频进行预处理得到视频帧序列，进而采用Openface自动提取每个视频中性帧(这里选取第一帧)的68个人脸面部关键点，得到每个点的坐标，并根据不同微表情的面部肌肉运动划分感兴趣区域，强调了眼睛、眉毛、鼻子和嘴巴等重要部位；其次，提出一种新的面部纹理特征——风车模式(WP)特征，获取每个视频帧序列中每一帧的四个感兴趣区域的WP特征，并且获取每个感兴趣区域的光流特征，最后，对于两种特征进行结合地完成微表情检测。

本发明基于光流与风车模式特征融合的微表情检测方法能够将面部纹理信息与面部动态信息结合实现微表情检测，更加精确地定位微表情出现的位置，提高微表情检测的效率，且本发明仅对人脸面部感兴趣区域进行特征计算，这样可以减少计算量，降低时耗，是一种高鲁棒性的微表情检测方法。

术语解释：

1、Dlib视觉库，Dlib是一个现代的C++工具包，包含了用C++创建复杂软件来解决实际问题的机器学习算法和工具。Dlib所有的设计都是高度模块化的，快速执行，使用起来非常简单。它用于各种应用，包括机器人技术，嵌入式设备，手机和大型高性能计算环境。调用Dlib视觉库来检测人脸68个特征点；

2、人脸68个特征点，人脸68个特征点主要分布于眉毛，眼睛，鼻子，嘴巴以及面部轮廓，如图3所示。

3、27个面部关键点包括：左眼中心、右眼中心、鼻子中心、左嘴角、右嘴角、左眉毛左边缘、左眉毛右边缘、左眼左边缘、左眼睫毛上、左眼睫毛下、左眼右边缘、右眉毛左边缘、右眉毛右边缘、右眼左边缘、右眼睫毛上、右眼睫毛下、右眼右边缘、鼻梁高左、鼻梁高右、鼻梁中左、鼻梁中右、鼻梁低左、鼻梁低右、人中、嘴唇上、嘴唇中、嘴唇下；左眼中心、右眼中心连线和水平线有一定夹角，对人脸驱动变形后，通过使左眼中心、右眼中心连线与水平线平行，矫正人脸姿态，实现人脸对齐。

4、采用Dlib视觉库检测人脸68个关键特征点；检测效果如图2所示。

本发明的技术方案为：

一种基于光流与风车模式特征融合的微表情检测方法，包括步骤如下：

(1)对原始视频进行预处理，得到视频帧序列；

(2)根据微表情的特点，对步骤(1)预处理后的原始视频划分面部感兴趣区域；

(3)计算光流特征的模值和角度；并通过光流特征的模值和角度，对光流特征的模值和角度设置阈值，获取每个感兴趣区域的微表情起始帧和终止帧；

(4)创新性的提出根据风车模式(Windmills Patterns，WP)面部纹理特征，计算视频帧序列中WP面部纹理特征的Chi-Squared(χ²)距离；通过每一帧之间WP面部纹理特征的Chi-Squared(χ²)距离最大波峰值和平均值C_max和C_mean，设置阈值T，定位每个感兴趣区域的WP面部纹理特征下微表情起始帧和终止帧；

(5)在每个感兴趣区域，将光流特征与WP面部纹理特征检测进行结合，得到更全面、更有判决力的结合后的面部纹理以及运动信息，选择更为接近人工编码的微表情序列作为最终检测的微表情序列。

根据本发明优选的，所述步骤(1)中，对原始视频进行预处理，得到视频帧序列，原始视频即原始含有微表情的视频，包括步骤如下：

A、对原始视频进行分帧

对原始视频进行分帧处理，得到视频帧序列；

B、人脸定位

对步骤A得到的视频帧序列中的任意一幅图像，采用Dlib视觉库确定其中是否含有人脸，如果是，则返回人脸的位置、大小和姿态，如果否，则返回步骤1开始处；

C、人脸对齐

人脸对齐是指分析面部特点，自动确定面部关键点，所述面部关键点包括眼角、鼻尖、嘴角、下巴、眉毛以及人脸各器官轮廓点等，同时利用获得的面部关键点裁剪出图片中的人脸，采用Dlib视觉库实现人脸检测和对齐，共检测到27个面部关键点，其中左眼中心和右眼中心的连线和水平线有夹角，对人脸驱动变形后使左眼中心和右眼中心的连线呈水平状态，以矫正人脸姿态；

D、人脸68个关键特征点的检测

采用Dlib视觉库检测人脸68个关键特征点；检测效果如图2所示。

进一步优选的，所述步骤(2)中，根据微表情的特点，对步骤(1)预处理后的原始视频划分面部感兴趣区域，包括步骤如下：

面部感兴趣区域划分是指由于微表情的运动中心比较少，主要集中在眼睑、眉毛、嘴角和鼻翼等敏感部位，面部其他肌肉部分的运动一般为这些中心的牵连导致，且幅度短暂而微弱，因此，将人脸划分为四个感兴趣区域。

根据68个关键特征点划分感兴趣区域的方法划分感兴趣区域，感兴趣区域包括眼、眉、嘴和鼻，划分依据的是68个人脸关键特征点的具***置，以属于感兴趣区域为眼的人脸关键特征点的坐标位置为基准划入若干像素，得到对应的感兴趣区域，例如区域1划分过程为：先定位左侧眉毛的特征点23、24、25，结合该区域运动特点和FACS编码提示，以这3个特征点坐标位置为基准划入若干像素值，得到感兴趣区域1。其他感兴趣区域划分情况如图3所示。

根据本发明优选的，所述步骤(3)中，计算光流特征的模值和角度，包括步骤如下：

光流法分析光流指图像上像素点的瞬时运动速度，它是现实世界中物体的运动在二维图像上的一种映射。它可以利用相邻视频帧中的像素强度数据在时间域上的变化规律和它们之间的相关性来获取某观察对象在这两帧之间的运动信息。应用光流法检测区域特征点需要满足一定的前提条件：用于运算的相邻帧之间亮度恒定、相邻帧之间物体的运动幅度不能过大或视频帧被连续提取、要求保持空间具有一致性等。应用光流法获取运动场需要有两帧参与计算，即用作参照的基础帧与运动之后的比较帧。

将视频帧序列的首帧定为基础帧，之后每一帧与其比较；设目标像素点在基础帧的位置及时间为(x,y,t)，在比较帧的对应坐标为(x+du,y+dv,t+dt)，即经过dt时间，目标像素点在x与y方向上分别由du、dv的位移；

假设在相邻帧之间图像的瞬时灰度值不变，即满足灰度守恒约束条件，如式(I)所示：

I_t(x,y)＝I_t+dt(x+du,y+dv) (I)

式(I)中，I_t(x,y)，I_t+dt(x+du,y+dv)，为t时刻和t+dt时刻像素点瞬时灰度值；

在满足光流法前提条件的情况下，将式(I)右端泰勒公式展开，运算后得到光流基本方程，如式(Ⅱ)所示：

式(Ⅱ)中，令

因此，式(Ⅱ)写为式(Ⅲ)：

从上述分析可知，光流矢量含有两个分量即存在两个变量值需要求解，若仅依靠光流基本方程显然无法完成，故此处需要再引入另一约束条件进行光流矢量求解，引入了Horn-Schunck光流法所使用的运动平滑约束进行计算，构建误差函数，得到公式(Ⅳ)，求其最小值：

E＝∫∫(I_xu_x+I_yv_y+I_t)²dxdy (Ⅳ)

求误差E最小仅能得到每个点光流法向分量；由正规则理论，对光流场加平滑约束，但是传统的约束方式并没有考虑局部信息，会造成光流场过于平滑而忽略细节特征，因此，采用非均匀平滑约束，如式(V)所示：

即：

min{∫∫F(u,v,u_x,u_y,v_x,v_y)dxdy} (Ⅵ)

其对应的Euler方程为：

将公式(Ⅵ)F代入公式(Ⅶ)得到式(Ⅷ)：

式(Ⅷ)中，λ是指平滑约束程度，噪声较多的时候，数据的可信度对平滑约束条件的依赖性较强，λ取较小值；实际计算时，是将数据进行离散化处理，计算光流直方图；

▽²u、▽²v分别是指向量u，v的拉普拉斯算子；

最终在t时刻的光流特征表示为一个二维向量

计算光流特征的模值：利用光流法计算微表情序列中每帧感兴趣区域内的像素点相对于基础帧中点的光流特征矢量，其包含x分量和y分量，通过x和y，视频帧序列中每帧的光流特征的模值计算如式(Ⅸ)所示：

式(Ⅸ)中，i是序列中的第i帧，x_i和y_i分别是第i帧光流特征矢量的水平分量和垂直分量，A_i是第i帧的光流特征的模值；

计算光流特征角度：通过计算光流矢量x分量和y分量的反三角函数，得到视频帧序列中每一帧的光流特征角度，如式(Ⅹ)所示：

式(Ⅹ)中，由上到下依次表示位于第一、第二、第三和第四象限中的光流特征角度的计算方法，i是视频帧序列中第i帧，x_i和y_i分别代表第i帧光流特征矢量的x分量和y分量，θ_i表示第i帧的光流特征角度。

进一步优选的，所述步骤(3)中，通过光流特征的模值和角度，对光流特征的模值和角度设置阈值，获取每个感兴趣区域的微表情起始帧和终止帧，包括步骤如下：

针对于光流特征，根据微表情样本的光流模值信息与角度信息的特点，将每帧光流特征的模值和角度都对应到极坐标系上，如式(Ⅺ)所示：

式(Ⅺ)中，A_i是平滑后的光流模值，θ_i是光流角度；转化的目的是将光流模值和角度进行结合。a_i、b_i分别是指光流特征矢量的x分量和y分量；

通过对光流角度和模值信息的分析，所检测的微表情片段应集中在一条射线附近，不会存在很大的跳变，即相邻两帧的角度之差小于α，光流模值随帧值先增大后减小，在微表情片段中，高潮帧是离原点最远的点，依据阈值判断起始帧和终止帧，如式(Ⅻ)所示：

式(Ⅻ)中，A_MAX是高潮帧的光流矢量模值，n是根据实际情况给定的值、为数据库设定0-1之间的值，nA_MAX是模值阈值；

A_i、θ_i、θ_i-1、α分别是指第i帧的光流模值，第i帧的光流角度，第i-1帧的光流角度，α是角度阈值；

如式(Ⅻ)所示，如果一段视频片段从i帧到i+s帧其光流模值均大于nA_MAX模值阈值(其中n根据数据库设定0-1之间的值)，前后帧之间的角度差小于α，并且i帧到i+s帧是连续的视频片段，则判定该段视频片段中微表情片段起始帧为第i帧，终止帧为第i+s帧，其中s为微表情片段帧长。

对应图8中的圆圈，满足两个条件，光流角度基本处在一条射线的附近位置，其光流模值大于nA_MAX得到的连续的不间断的片段，若该片段的帧数大于最小帧长度且在微表情定义的持续时间内则判定为微表情片段。根据图8该视频片段的第39-68帧超出了所设定的阈值圆，并且光流角度处于一条射线附近位置，光流幅度沿圆圈半径方向先变大后变小，所以检测结果为39-68为一段微表情片段。而人工编码对该样本标注的帧范围为40-71，所以对于此类时长相对偏长，动作幅度相对较大的微表情样本，使用光流特征能够正确检测。

根据本发明优选的，所述步骤(4)，创新性的提出根据风车模式(WindmillsPatterns，WP)面部纹理特征，计算视频帧序列中WP面部纹理特征的Chi-Squared(χ²)距离，包括：

因为在一张被标准化后的面部图像上，像眉毛，嘴巴等这些能够传递信息的部位，均为纵向或横向延伸，而对角线方向上收敛。对于图像中的每一个像素点，其近邻有共24个像素点，集中在8个方向上，包括基于水平方向上0，π/4，π/2，3π/4，π，5π/4，3π/2，7π/4角度的8个方向，以中心像素点为圆心，在周围24个像素点位置上作三个圆，A₀,…,A₇在半径为R₁的圆上，B₁,…,B₇在半径为R₂的圆上，C₀,…,C₇在半径为R₃的圆上，如图4所示。并对***两个圆上16个像素点分别进行顺时针和逆时针旋转一定角度，改变三个圆上像素点之间的对应位置，根据旋转的两个方向的不同，WP有两种模式，分别为左WP即LWP和右WP即RWP；

LWP_i如式(XIII)所示：

其中，

I_O，

分别代表点O，A_i，B_i的灰度值；

LWP由LWP-1和LWP-2串联而成，是将***两个圆分别按照顺时针旋转π/4和π/2角度得到，如图5(a)及图5(b)所示。LWP被分解为LWP-1和LWP-2，分别如式(XIV)、(XV)所示：

式(XIV)、(XV)中，圆上一共是0-7八个点，LWP-1上是0，2，4，6；LWP-2上是1，3，5，7。

RWP_i如式(XVI)所示：

同LWP，

I_O，

分别代表点O，A_i，B_i的灰度值；

RWP_i由RWP-1和RWP-2串联而成，是将***两个圆分别按照逆时针旋转π/4和π/2角度得到，如图6(a)及图6(b)所示。RWP_i被分解为RWP-1和RWP-2，分别如式(XVII)、(XVIII)所示：

式(XVII)、(XVIII)中，同LWP，圆上一共是0-7八个点，RWP-1上是0，2，4，6；RWP-2上是1，3，5，7。

计算视频帧序列中WP面部纹理特征的Chi-Squared(χ²)距离：计算在一个视频帧序列中，感兴趣区域内像素点的WP特征差异，以此为依据来进行微表情检测。具体实现过程如下：

定义当前帧CF为当前分析的帧，当使用N个帧间隔时，N为奇数，尾帧TF是当前帧CF之前的第k个帧，头帧HF是当前帧CF之后的第k个帧，

定义平均特征帧AFF代表尾帧TF和头帧HF的WP特征平均值的向量；平均特征帧AFF在时间上位于视频帧序列中与当前帧CF相同的位置；

对于每个当前帧CF，通过计算其WP特征向量与相应的AFF帧特征向量的Chi-Squared(χ²)距离反应当前帧CF和平均特征帧AFF之间的差异来表示面部区域的变化程度。此外，特征的可能变化是迅速的，因为它发生在TF和HF之间，这可以将微表情和动作时长更大的宏表情区分开来。对于从视频开头和结尾开始的前k个帧之外的每个帧重复此操作，由于一般情况下视频片段的开头和结尾不会有微表情的出现，因此将前k帧和最后k帧的特征差异忽略不计。

使用Chi-Squared(χ²)距离，计算每个感兴趣区域内WP面部纹理特征的相异度，如式(XIX)所示：

式(XIX)中，i代表第i个像素点，P、Q分别代表当前帧CF和平均特征帧AFF的特征向量；χ²(P,Q)、P_i、Q_i分别是指当前帧CF和平均特征帧AFFWP面部纹理特征向量的Chi-Squared(χ²)距离、当前帧CF中第i个像素点的WP面部纹理特征向量、平均特征帧AFF中第i个像素点的WP面部纹理特征向量。

根据本发明优选的，所述步骤(4)中，通过每一帧之间WP面部纹理特征的Chi-Squared(χ²)距离最大波峰值和平均值C_max和C_mean，设置阈值T，定位每个感兴趣区域的WP面部纹理特征下微表情起始帧和终止帧；包括步骤如下：

针对WP面部纹理特征，计算整个视频经过平滑滤波之后的特征差异值的最大波峰值和平均值C_max＝max(C₁,C₂,,,,C_M)和

即整个视频的WP面部纹理特征向量的Chi-Squared(χ²)距离最大波峰值C_max＝max(C₁,C₂,,,,C_M)和平均值

其中M为视频帧长，i为第i帧，C为Chi-Squared(χ²)距离；

计算阈值T，如式(XX)所示：

T＝C_mean+p×(C_max-C_mean)(XX)

式(XX)中，p是[0,1]范围内的百分比参数；在实际应用中会根据实际情况给p赋值，最后，应用阈值和波峰值检测来定位微表情片段。

微表情的持续时间为0.2秒到0.5秒，另外还需注意，起始帧到高潮帧持续的时间如果是在0.26秒以内也是符合微表情的特点的，即使这些微表情从起始帧到结束帧的持续时间大于500毫秒，也将它们看作微表情。

如果在一个视频样本之中，有一段帧序列同时满足以下条件包括①、②、③：

①连续不间断的片段其WP面部纹理特征的Chi-Squared距离大于阈值T；

②满足WP面部纹理特征的Chi-Squared距离先变大后变小；

③该片段的帧数大于最小帧长度且在微表情定义的持续时间内，

则将其判定为微表情片段，否则，判定为该样本中不含有微表情；如果一段视频片段从i帧到i+s帧其满足以上三个条件则判定该段视频片段中微表情片段起始帧为第i帧，终止帧为第i+s帧，其中s为微表情片段帧长；

设Onset和Offset分别表示人工编码起始帧和终止帧，若采用本方法得到的起始帧和结束帧恰好在范围[Onset-k，Offset+k]则表示正确检测出微表情，k值根据所设置的帧间隔N确定

根据本发明优选的，所述步骤(5)中，在每个感兴趣区域引入一种更加形象直观的方法将光流特征与WP特征检测进行结合，从而得到更全面、更有判决力的面部纹理以及运动信息，选择更为接近人工编码的微表情序列作为最终检测的微表情序列，包括步骤如下：

E、步骤(3)对样本使用其光流特征进行检测，并记录检测结果即每个感兴趣区域的微表情起始帧和终止帧Label_光流；

F、对于步骤E中得到的检测结果Label_光流中起始帧与终止帧均为0的片段，即基于光流特征的检测没有检测到微表情的存在，则继续使用WP面部纹理特征进行检测，通过步骤(4)，并记录检测结果即每个感兴趣区域的微表情起始帧和终止帧Label_光流Label_WP；

G、将步骤E中得到的检测结果Label_光流与步骤F的检测结果Label_WP进行整合，得到Label，即最终检测的微表情序列，如式(XXI)所示：

Label＝Label_光流∪Label_WP(XXI)。

本发明的有益效果为：

本发明提供的是一种基于光流与风车模式特征融合的微表情检测方法，相比于已有的微表情检测方法，本发明提出的方法首先对微表***进行预处理并划分感兴趣区域强调了眼睛、眉毛、鼻子和嘴巴等重要的表情部位；其中本发明首次引入WP特征这一面部纹理特征，考虑了原始DCP周围三个圆上的点，并将***两个圆进行了旋转，使其能够在横向和纵向上都能包含更多更有效的纹理信息。并且使用了能够展现微表情序列中像素点运动信息的光流特征，进一步将两者结合得到更全面、更有判决力的特征检测出微表情片段，一方面光流特征利用其动态优势，对于微表情进行合理检测，另一方面WP特征利用其纹理信息的敏感性补足光流特征所忽略掉的小细节，从而更加全面的得到视频片段中每一段微表情。提高微表情检测效率，且该方法仅对人脸重要区域提取光流特征矢量，这样可以减少计算量，降低时耗，是一种高鲁棒性的微表情检测方法。

附图说明

图1为本发明基于光流与风车模式特征融合的微表情检测方法的流程示意图；

图2为68个关键特征点效果示意图；

图3为感兴趣区域的划分示意图；

图4为24个像素点分布图；

图5(a)为LWP-1的示意图；

图5(b)为LWP-2的示意图；

图6(a)为RAFP-1的示意图；

图6(b)为RAFP-2的示意图；

图7(a)为LWP特征检测结果示意图；

图7(b)为RWP特征检测结果示意图；

图8为光流检测结果示意图；

图9(a)为含有微表情的样本一光流检测结果示意图；

图9(b)为含有微表情的样本二光流检测结果示意图；

图9(c)为含有微表情的样本三光流检测结果示意图；

图10(a)为含有微表情的样本二的LWP特征检测结果示意图；

图10(b)为含有微表情的样本三的LWP特征检测结果图；

图11为ROC曲线对比图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

(1)对原始视频进行预处理，得到视频帧序列；

原始视频即原始含有微表情的视频，包括步骤如下：

A、对原始视频进行分帧

对原始视频进行分帧处理，得到视频帧序列；

B、人脸定位

C、人脸对齐

D、人脸68个关键特征点的检测

根据68个关键特征点划分感兴趣区域的方法划分感兴趣区域，感兴趣区域包括眼、眉、嘴和鼻，划分依据的是68个人脸关键特征点的具***置，以属于感兴趣区域为眼的人脸关键特征点的坐标位置为基准划入若干像素，得到对应的感兴趣区域，例如区域1划分过程为：先定位左侧眉毛的两个特征点23、24、25，结合该区域运动特点和FACS编码提示，以这3个特征点坐标位置为基准划入若干像素值，得到感兴趣区域1。其他感兴趣区域划分情况如图3所示。

I_t(x,y)＝I_t+dt(x+du,y+dv)(I)

式(Ⅱ)中，令

因此，式(Ⅱ)写为式(Ⅲ)：

E＝∫∫(I_xu_x+I_yv_y+I_t)²dxdy (Ⅳ)

即：

min{∫∫F(u,v,u_x,u_y,v_x,v_y)dxdy} (Ⅵ)

其对应的Euler方程为：

将公式(Ⅵ)F代入公式(Ⅶ)得到式(Ⅷ)：

▽²u、▽²v分别是指向量u，v的拉普拉斯算子；

最终在t时刻的光流特征表示为一个二维向量

计算光流特征的模值：利用光流法计算微表情序列中每帧感兴趣区域内的像素点相对于基础帧中点的光流特征矢量，其包含x分量和y分量，通过x和y，图像序列中每帧的光流特征的模值计算如式(Ⅸ)所示：

式(Ⅸ)中，i是序列中的第i帧，x_i和y_i分别是第i帧光流矢量的水平分量和垂直分量，A_i是第i帧的光流特征的模值；

计算光流特征角度：通过计算光流矢量x分量和y分量的反三角函数，得到微表情序列中每一帧的光流特征角度，如式(Ⅹ)所示：

式(Ⅹ)中，由上到下依次表示位于第一、第二、第三和第四象限中的光流特征角度的计算方法，i是图像序列中第i帧，x_i和y_i分别代表第i帧光流特征矢量的x分量和y分量，θ_i表示第i帧的光流特征角度。

通过光流特征的模值和角度，对光流特征的模值和角度设置阈值，获取每个感兴趣区域的微表情起始帧和终止帧，包括步骤如下：

式(Ⅺ)中，A_i是平滑后的光流模值，θ_i是光流角度；转化的目的是将光流模值和角度进行结合。a_i、b_i分别是指光流矢量的x分量和y分量；

式(Ⅻ)中，A_MAX是高潮帧的光流矢量模值，n是根据实际情况给定的值、为数据库设定0-1之间的值，nA_MAX是阈值；

如式(Ⅻ)所示，如果一段视频片段从i帧到i+s帧其光流模值均大于nA_MAX阈值(其中n根据数据库设定0-1之间的值)，前后帧之间的角度差小于α，并且i帧到i+s帧是连续的视频片段，则判定该段视频片段中微表情片段起始帧为第i帧，终止帧为第i+s帧，其中s为微表情片段帧长。

(4)创新性的提出根据风车模式(Windmills Patterns，WP)面部纹理特征，计算视频帧序列中WP面部纹理特征的Chi-Squared(χ²)距离，包括：

LWP_i如式(XIII)所示：

其中，

I_O，

分别代表点O，A_i，B_i的灰度值；

RWP_i如式(XVI)所示：

同LWP，

I_O，

分别代表点O，A_i，B_i的灰度值；

通过每一帧之间WP面部纹理特征的Chi-Squared(χ²)距离最大波峰值和平均值C_max和C_mean，设置阈值T，定位每个感兴趣区域的WP面部纹理特征下微表情起始帧和终止帧；包括步骤如下：

其中M为视频帧长，i为第i帧，C为Chi-Squared(χ²)距离；

计算阈值T，如式(XX)所示：

T＝C_mean+p×(C_max-C_mean)(XX)

②满足WP面部纹理特征的Chi-Squared距离先变大后变小；

图7(a)为LWP特征检测结果示意图，图7(b)为RWP特征检测结果示意图，可以清晰的看到对于该样本提取LWP特征检测，其起始帧为第32帧，高潮帧为第39帧，终止帧为第48帧；提取RWP特征检测，其起始帧为第27帧，高潮帧为第38帧，终止帧为第48帧。对于该样本实际人工标注的结果为第29-51为一段微表情片段，可见在容错范围之内，本发明提出的WP特征对于这种时长比较短，动作幅度极微的样本能够正确检测出微表情。

(5)在每个感兴趣区域引入一种更加形象直观的方法将光流特征与WP特征检测进行结合，从而得到更全面、更有判决力的面部纹理以及运动信息，选择更为接近人工编码的微表情序列作为最终检测的微表情序列，包括步骤如下：

光流特征作为一种检测两帧之间像素点随时间的变化强度来推断物体的运动的特征，虽然动态变化很敏感，但是仍然容易忽略很多细节，使得对于一些微表情样本中如果出现极微的面部肌肉运动时而失去作用，检测不到微表情的存在，如图9(a)、图9(b)及图9(c)所示，分别为三个微表情片段的光流检测结果图，对于第一个样本提取光流特征进行微表情检测结果可以清晰地看出大约在第21帧到第61帧出现了微表情，但是对于另两个样本，检测结果并没有那么理想，动作幅度太小而导致提取光流特征的检测方式失去作用，即使有微表情存在也很难检测到。本文提出的WP特征由于创造性地对像素的***的两个圆进行旋转，它更好地利用了图像的结构信息实现图像的特征提取，使得所提取的特征更加有效，并且包含了更多的纹理信息，对于图9(b)及图9(c)两个样本提取LWP特征的检测结果分别如图10(a)图10(b)所示，可以清晰地看到其有明显的波峰出现。综上所述，为了更好地完成视频片段中微表情检测，将两种特征检测方法进行结合，实现优势互补。

Label＝Label_光流∪Label_WP(XXI)。

实验例

利用实施例1所述的检测方法，通过对中科院发布的CASMEⅡ微表情数据库中未剪切的原始视频进行微表情检测实验来检验算法效果。实验思路为：先对微表***进行预处理，划分出感兴趣的区域，提取每个感兴趣区域的光流特征矢量和WP特征，在此基础上计算该微表情片段的光流模值和角度以及每帧之间WP特征差异度，采用一定的准则将光流和WP特征信息进行结合，形象直观地检测出微表情片段，只要该片段的起止帧、高潮帧和结束帧在人工编码的范围内，则判定发生了微表情。

在CASMEⅡ中，总共包含来自26个参与者的255个微表情样本，库CASMEⅡ的帧率是200fps，因此，设置WP特征中三个圆的半径为2，4，6，微间隔N设置为11。为了比较我们的算法，我们使用所有的255个样本，用原始DCP作为对比实验，在这三种微表情检测算法中，k＝[(N-1)/2],对于DCP，将微表情样本选取面部27个关键点，为了评估本发明算法的性能，我们画出ROC曲线。

为了对本发明的微表情检测算法进行性能的评估，将检测的微表情片段作为实验标准作出ROC曲线。对于一个视频序列，真正例率和假正例率定义公式如下：

真正例率：

假正例率：

其中i为第i帧，f_i ^g检测出的第i帧的label，f_i ^s人工编码第i帧的label。

图11是这三种方法的ROC曲线，表1是列举了这几种方法对应的AUC。可以发现本方法的AUC值远高于原始DCP方法，实验结果很明显地展示出本章算法具有良好的性能，这说明该算法能高效地、准确地检测出微表情片段。

表1 LWP+光流、RWP+光流、DCP的AUC

CASMEII	LWP+光流	RWP+光流	DCP
				(％)	93.3	92.6	54.2

Claims

1.一种基于光流与风车模式特征融合的微表情检测方法，其特征在于，包括步骤如下：

(1)对原始视频进行预处理，得到视频帧序列；

(4)根据风车模式面部纹理特征，计算视频帧序列中风车模式面部纹理特征的Chi-Squared(χ²)距离；通过每一帧之间风车模式面部纹理特征的Chi-Squared(χ²)距离最大波峰值和平均值C_max和C_mean，设置阈值T，定位每个感兴趣区域的风车模式面部纹理特征下微表情起始帧和终止帧；

根据风车模式(Windmills Patterns，WP)面部纹理特征，计算视频帧序列中风车模式面部纹理特征的Chi-Squared(χ²)距离，包括：

对于图像中的每一个像素点，其近邻有共24个像素点，集中在8个方向上，包括基于水平方向上0，π/4，π/2，3π/4，π，5π/4，3π/2，7π/4角度的8个方向，以中心像素点为圆心，在周围24个像素点位置上作三个圆，A₀,…,A₇在半径为R₁的圆上，B₀,…,B₇，在半径为R₂的圆上，C₀,…,C₇在半径为R₃的圆上，并对***两个圆上16个像素点分别进行顺时针和逆时针旋转一定角度，改变三个圆上像素点之间的对应位置，根据旋转的两个方向的不同，风车模式有两种模式，分别为左风车模式即LWP和右风车模式即RWP；

LWP_i如式(XIII)所示：

其中，

I_O，

分别代表点O，A_i，B_i的灰度值；

LWP由LWP-1和LWP-2串联而成，是将***两个圆分别按照顺时针旋转π/4和π/2角度得到，LWP被分解为LWP-1和LWP-2，分别如式(XIV)、(XV)所示：

RWP_i如式(XVI)所示：

同LWP，

I_O，

分别代表点O，A_i，B_i的灰度值；

RWP_i由RWP-1和RWP-2串联而成，是将***两个圆分别按照逆时针旋转π/4和π/2角度得到，RWP_i被分解为RWP-1和RWP-2，分别如式(XVII)、(XVIII)所示：

计算视频帧序列中WP面部纹理特征的Chi-Squared(χ²)距离：具体实现过程如下：

对于每个当前帧CF，通过计算其WP特征向量与相应的平均特征帧特征向量的Chi-Squared(χ²)距离反应当前帧CF和平均特征帧AFF之间的差异来表示面部区域的变化程度；

式(XIX)中，i代表第i个像素点，P、Q分别代表当前帧CF和平均特征帧AFF的特征向量；χ²(P,Q)、P_i、Q_i分别是指当前帧CF和平均特征帧AFFWP面部纹理特征向量的Chi-Squared(χ²)距离、当前帧CF中第i个像素点的WP面部纹理特征向量、平均特征帧AFF中第i个像素点的WP面部纹理特征向量；

其中M为视频帧长，i为第i帧，C为Chi-Squared(χ²)距离；

计算阈值T，如式(XX)所示：

T＝C_mean+p×(C_max-C_mean) (XX)

式(XX)中，p是[0,1]范围内的百分比参数；

②满足WP面部纹理特征的Chi-Squared距离先变大后变小；

设Onset和Offset分别表示人工编码起始帧和终止帧，若采用本方法得到的起始帧和结束帧恰好在范围[Onset-k，Offset+k]则表示正确检测出微表情，k值根据所设置的帧间隔N确定，

(5)在每个感兴趣区域，将光流特征与风车模式面部纹理特征检测进行结合，得到结合后的面部纹理以及运动信息，选择更为接近人工编码的微表情序列作为最终检测的微表情序列；

在每个感兴趣区域将光流特征与风车模式特征检测进行结合，从而得到面部纹理以及运动信息，选择更为接近人工编码的微表情序列作为最终检测的微表情序列，包括步骤如下：

F、对于步骤E中得到的检测结果Label_光流中起始帧与终止帧均为0的片段，即基于光流特征的检测没有检测到微表情的存在，则继续使用风车模式面部纹理特征进行检测，通过步骤(4)，并记录检测结果即每个感兴趣区域的微表情起始帧和终止帧Label_WP；

Label＝Label_光流∪Label_WP (XXI)。

2.根据权利要求1所述的基于光流与风车模式特征融合的微表情检测方法，其特征在于，所述步骤(1)中，对原始视频进行预处理，得到视频帧序列，原始视频即原始含有微表情的视频，包括步骤如下：

A、对原始视频进行分帧

对原始视频进行分帧处理，得到视频帧序列；

B、人脸定位

对步骤A得到的视频帧序列中的任意一幅图像，采用Dlib视觉库确定其中是否含有人脸，如果是，则返回人脸的位置、大小和姿态，如果否，则返回步骤(1)开始处；

C、人脸对齐

人脸对齐是指分析面部特点，自动确定面部关键点，采用Dlib视觉库实现人脸检测和对齐，共检测到27个面部关键点，其中左眼中心和右眼中心的连线和水平线有夹角，对人脸驱动变形后使左眼中心和右眼中心的连线呈水平状态，以矫正人脸姿态；

D、人脸68个关键特征点的检测

采用Dlib视觉库检测人脸68个关键特征点。

3.根据权利要求2所述的基于光流与风车模式特征融合的微表情检测方法，其特征在于，所述步骤(2)中，根据微表情的特点，对步骤(1)预处理后的原始视频划分面部感兴趣区域，包括步骤如下：

根据68个关键特征点划分感兴趣区域，感兴趣区域包括眼、眉、嘴和鼻，划分依据的是68个人脸关键特征点的具***置。

4.根据权利要求1所述的基于光流与风车模式特征融合的微表情检测方法，其特征在于，所述步骤(3)中，计算光流特征的模值和角度，包括步骤如下：

将视频帧序列的首帧定为基础帧，之后每一帧与其比较；设目标像素点在基础帧的位置及时间为(x,y,t)，在比较帧的对应坐标为(x+du,y+dv,t+dt)，即经过dt时间，目标像素点在x与y方向上分别有du、dv的位移；

假设在相邻帧之间图像的瞬时灰度值不变，即满足灰度守恒约束条件，如式(Ⅰ)所示：

I_t(x,y)＝I_t+dt(x+du,y+dv) (Ⅰ)

式(Ⅰ)中，I_t(x,y)，I_t+dt(x+du,y+dv)，为t时刻和t+dt时刻像素点瞬时灰度值；

在满足光流法前提条件的情况下，将式(Ⅰ)右端泰勒公式展开，运算后得到光流基本方程，如式(Ⅱ)所示：

式(Ⅱ)中，令

因此，式(Ⅱ)写为式(Ⅲ)：

引入了Horn-Schunck光流法所使用的运动平滑约束进行计算，构建误差函数，得到公式(Ⅳ)，求其最小值：

E＝∫∫(I_xu_x+I_yv_y+I_t)²dxdy (Ⅳ)

采用非均匀平滑约束，如式(Ⅴ)所示：

即：

min{∫∫F(u,v,u_x,u_y,v_x,v_y)dxdy} (Ⅵ)

其对应的Euler方程为：

将公式(Ⅵ)F代入公式(Ⅶ)得到式(Ⅷ)：

式(Ⅷ)中，λ是指平滑约束程度；

分别是指向量u，v的拉普拉斯算子；

最终在t时刻的光流特征表示为一个二维向量

计算光流特征的模值：利用光流法计算微表情序列中每帧感兴趣区域内的像素点相对于基础帧中点的光流特征矢量，其包含x分量和y分量，通过x和y，视频帧序列中每帧的光流特征的模值计算如式(IX)所示：

式(IX)中，i是序列中的第i帧，x_i和y_i分别是第i帧光流特征矢量的水平分量和垂直分量，A_i是第i帧的光流特征的模值；

计算光流特征角度：通过计算光流特征矢量x分量和y分量的反三角函数，得到视频帧序列中每一帧的光流特征角度，如式(Ⅹ)所示：

式(Ⅹ)中，由上到下依次表示位于第一、第二、第三和第四象限中的光流特征角度的计算方法，i是视频帧序列中第i帧，x_i和y_i分别代表第i帧光流特征矢量的x分量和y分量。

5.根据权利要求4所述的基于光流与风车模式特征融合的微表情检测方法，其特征在于，所述步骤(3)中，通过光流特征的模值和角度，对光流特征的模值和角度设置阈值，获取每个感兴趣区域的微表情起始帧和终止帧，包括步骤如下：

将每帧光流特征的模值和角度都对应到极坐标系上，如式(Ⅺ)所示：

式(Ⅺ)中，A_i是平滑后的光流模值，θ_i是光流角度；a_i、b_i分别是指光流特征矢量的x分量和y分量；

依据阈值判断起始帧和终止帧，如式(Ⅻ)所示：

式(Ⅻ)中，A_MAX是高潮帧的光流矢量模值，n是根据实际情况给定的值，为数据库设定0-1之间的值，nA_MAX是模值阈值；

A_i、θ_i、θ_i-1、α分别是指第i帧的光流模值，第i帧的光流角度，第i-1帧的光流角度，角度阈值；

如式(Ⅻ)所示，如果一段视频片段从i帧到i+s帧其光流模值均大于nA_MAX模值阈值，其中n根据数据库设定0-1之间的值，前后帧之间的角度差小于α，并且i帧到i+s帧是连续的视频片段，则判定该段视频片段中微表情片段起始帧为第i帧，终止帧为第i+s帧，其中s为微表情片段帧长。