CN110852271A

CN110852271A - 一种基于峰值帧和深度森林的微表情识别方法

Info

Publication number: CN110852271A
Application number: CN201911099083.3A
Authority: CN
Inventors: 滕房儒; 刘杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-28

Abstract

本发明公开了一种基于峰值帧和深度森林的微表情识别方法；主要涉及微表情峰值帧定位和使用峰值帧训练深度森林模型来进行微表情识别；该方法包括微表情样本预处理、通过计算频率来确定峰值帧、使用VGG‑Face网络进行特征提取、对深度森林模型进行微表情分类训练和测试；本发明定位微表情峰值帧作为训练集，可以有效避免面部动作强度过低的微表情一般帧带来的冗余；微表情峰值帧数据样本规模小，结合深度森林在少量数据样本的情况下也有优异表现的特点，选择训练深度森林模型来识别微表情，提高了准确率和效率。

Description

一种基于峰值帧和深度森林的微表情识别方法

技术领域

本发明涉及到深度学习和模式识别领域，具体是一种基于峰值帧和深度森林的微表情识别方法。

背景技术

微表情表达了人试图掩盖与隐藏的真实情感，是一组时间连续的图像序列，持续周期一般在250ms～500ms之间，对微表情的研究能帮助揭露特定场景下人的心理变化，例如揭露犯人谎言，评估人的内心情绪状态，进而促进犯罪学、心理学等方面的发展。

目前微表情识别研究方法主要集中在传统的机器学习领域和深度神经网络；传统的机器学习方法识别率普遍不高而不能达到实际的应用要求；深度神经网络在训练时需要大量的训练数据，也因此让深度神经网络无法被用于小规模数据任务，但是目前用于微表情研究的数据集样本数量匮乏；所以现有的技术需要一种能提高微表情识别准确率和效率的一种基于峰值帧和深度森林的微表情识别方法。

发明内容

本发明的目的在于提供一种基于峰值帧和深度森林的微表情识别方法，以解决上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于峰值帧和深度森林的微表情识别方法，其特征在于：包括以下步骤：

步骤S1：微表情样本预处理；

步骤S2：峰值帧定位及处理；

步骤S3：深度森林模型训练；

步骤S4：微表情识别。

作为本发明进一步的方案：所述步骤S1包括：

①微表情序列中的每一帧均由RGB图像转化为灰度图像；

②每一帧灰度图像转化为二维矩阵；

③将同一组微表情序列中的所有二维矩阵按顺序连接为一个三维矩阵。

作为本发明进一步的方案：所述步骤S2包括：

①在每一个三维矩阵中，用N来控制滑动窗口的长度，以每帧的前后-N/2到N/2为一个区间，计算每一个区间的频率；

②选取频率最高的区间，此区间的中间帧即为峰值帧；

③将峰值帧作为训练集，将其他帧即一般帧作为测试集；

④记录所有表情序列中的峰值帧序号，之后从微表情序列中提取对应的峰值帧，把峰值帧集合作为训练集，其余的微表情一般帧集合作为测试集。

作为本发明进一步的方案：所述步骤S3包括：

①使用VGG-Face网络对训练集和测试集进行特征提取；

②将提取的训练集特征和微表情类别标签输入到深度森林模型中，结合训练结果选择最优超参数，其中深度森林模型只有级联森林结构，每层包括两个完全随机森林和两个普通随机森林，具体方法为：

a.数据输入每一层深度森林后，根据数据的特征和类别标签生成新的类别标签；

b.每一个随机森林都会输出一个类向量，表示该样本为每个类别标签的概率；

c.除第一层森林外，每层的森林都把上一层的输出结果，结合原始的输入数据作为当前层的输入；

d.将最后一层森林输出的类向量做平均，输出最大值；

e.调试超参数并对比分类结果，选择最优超参数；

③固定最优超参数，训练深度森林模型，得到微表情识别准确率最高的深度森林模型。

作为本发明进一步的方案：所述步骤S4包括：

将测试集的特征输入到训练好的深度森林模型中，输出识别准确率。

作为本发明进一步的方案：所述步骤S1:微表情样本预处理,具体步骤包括：选择每一组由多帧图片组成的RGB彩色图像微表情序列，将RGB图像转化为灰度图像，每张灰度图像保存为一个二维矩阵H×W，H和W分别代表高和宽，将源自同一组微表情序列中的所有灰度二维矩阵按照数据集中的原始顺序连接为一个三维矩阵H×W×N，N代表帧数。

作为本发明进一步的方案：所述步骤S2，峰值帧定位及处理,具体步骤包括：

对于微表情序列构成的三维矩阵，将人脸区域划分为6×6块，使用带有滑动时域窗口的3D FFT将三维矩阵转换为频域；通过用当前帧中的N来控制滑动窗口的长度，计算它在滑动窗口中的帧的频率；对于第i个间隔，用3D FFT计算其36个块上的间隔的频率值；块记为{b_i1,b_i2,…,b_i36}；对于第i间隔内的第j块，频率值为：

其中(x,y,z)表示频域中的位置，L_b表示第i个间隔中第j个块b_ij的高度，W_b表示第j个间隔块b_ij的宽度，j＝{1,2,…,36,}；

采用高频带滤波器(HBF)去除较低频率，减少了帧中不变像素的影响；高频滤波器定义为公式1，其中D₀是阈值；

按照公式2过滤频域中的块，

随后，通过公式3累积求和第i个间隔中所有36个块的频率幅度值

其中A_i第i个间隔的频率幅度；它代表了第i个间隔快速面部运动的范围；以同样的方式，获得所有间隔频率信息；对应于间隔的最大频率幅度的峰值间隔表示快速面部运动的最高强度帧，选择间隔的中间帧作为峰值帧；

记录所有表情序列中的峰值帧序号，之后从微表情序列中提取对应的峰值帧，把峰值帧集合作为训练集，其余的微表情一般帧集合作为测试集。

与现有技术相比，本发明的有益效果是：

①本发明能自动定位峰值帧，能够快速和准确的定位峰值帧，与人工提取峰值帧相比极大地提高了效率。

②充分发挥深度学习的自我学习优势，机器自动学习良好的特征；当输入微表情序列时能快速准确地提取特征，避免了人工提取特征的局限性。

③将峰值帧和深度森林相结合，解决传统方法训练模型时间长，识别准确率不高等问题。

附图说明

图1为本发明一种基于峰值帧和深度森林的微表情识别方法的步骤图；

图2为本发明一种基于峰值帧和深度森林的微表情识别方法的流程图；

图3本发明一种基于峰值帧和深度森林的微表情识别方法的深度森林框架示意图；

图4本发明一种基于峰值帧和深度森林的微表情识别方法在SMIC数据集上的识别结果；

图5为本发明一种基于峰值帧和深度森林的微表情识别方法在在CASMEⅡ数据集上的识别结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～5，本发明实施例中，一种基于峰值帧和深度森林的微表情识别方法，包括以下步骤：

步骤S1：微表情样本预处理；

步骤S2：峰值帧定位及处理；

步骤S3：深度森林模型训练；

步骤S4：微表情识别。

所述步骤S1包括：

①微表情序列中的每一帧均由RGB图像转化为灰度图像；

②每一帧灰度图像转化为二维矩阵；

所述步骤S2包括：

②选取频率最高的区间，此区间的中间帧即为峰值帧；

③将峰值帧作为训练集，将其他帧即一般帧作为测试集；

所述步骤S3包括：

①使用VGG-Face网络对训练集和测试集进行特征提取；

d.将最后一层森林输出的类向量做平均，输出最大值；

e.调试超参数并对比分类结果，选择最优超参数；

所述步骤S4包括：

所述步骤S1:微表情样本预处理,具体步骤包括：选择每一组由多帧图片组成的RGB彩色图像微表情序列，将RGB图像转化为灰度图像，每张灰度图像保存为一个二维矩阵H×W，H和W分别代表高和宽，将源自同一组微表情序列中的所有灰度二维矩阵按照数据集中的原始顺序连接为一个三维矩阵H×W×N，N代表帧数。

所述步骤S2，峰值帧定位及处理,具体步骤包括：

采用高频带滤波器(HBF)去除较低频率，减少了帧中不变像素的影响；高频滤波器

定义为公式1，其中D₀是阈值；

按照公式2过滤频域中的块，

在本发明的实施中，通过在SMIC数据集和CASMEⅡ数据集上测试本发明的识别结果，并分别通过图4和图5展示。

由此图4和图5的数据可以证明，本发明可以自动定位峰值帧；充分发挥深度学习的自我学习优势，机器自动学习良好的特征；训练模型时间短，识别准确率高的技术效果。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内；不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于峰值帧和深度森林的微表情识别方法，其特征在于：包括以下步骤：

步骤S1：微表情样本预处理；

步骤S2：峰值帧定位及处理；

步骤S3：深度森林模型训练；

步骤S4：微表情识别。

2.根据权利要求1所述的一种基于峰值帧和深度森林的微表情识别方法，其特征在于：所述步骤S1包括：

①微表情序列中的每一帧均由RGB图像转化为灰度图像；

②每一帧灰度图像转化为二维矩阵；

3.根据权利要求1所述的一种基于峰值帧和深度森林的微表情识别方法，其特征在于：所述步骤S2包括：

②选取频率最高的区间，此区间的中间帧即为峰值帧；

③将峰值帧作为训练集，将其他帧即一般帧作为测试集；

4.根据权利要求1所述的一种基于峰值帧和深度森林的微表情识别方法，其特征在于：所述步骤S3包括：

①使用VGG-Face网络对训练集和测试集进行特征提取；

d.将最后一层森林输出的类向量做平均，输出最大值；

e.调试超参数并对比分类结果，选择最优超参数；

5.根据权利要求1所述的一种基于峰值帧和深度森林的微表情识别方法，其特征在于：所述步骤S4包括：将测试集的特征输入到训练好的深度森林模型中，输出识别准确率。

6.根据权利要求2所述的一种基于峰值帧和深度森林的微表情识别方法，其特征在于：所述步骤S1:微表情样本预处理,具体步骤包括：选择每一组由多帧图片组成的RGB彩色图像微表情序列，将RGB图像转化为灰度图像，每张灰度图像保存为一个二维矩阵H×W，H和W分别代表高和宽，将源自同一组微表情序列中的所有灰度二维矩阵按照数据集中的原始顺序连接为一个三维矩阵H×W×N，N代表帧数。

7.根据权利要求3所述的一种基于峰值帧和深度森林的微表情识别方法，其特征在于:所述步骤S2，峰值帧定位及处理,具体步骤包括：

定义为公式1，其中D₀是阈值；

按照公式2过滤频域中的块，