CN108921042B

CN108921042B - 一种基于深度学习的人脸序列表情识别方法

Info

Publication number: CN108921042B
Application number: CN201810587517.3A
Authority: CN
Inventors: 卿粼波; 周文俊; 吴晓红; 何小海; 熊文诗; 滕奇志; 熊淑华
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2019-08-23
Anticipated expiration: 2038-06-06
Also published as: CN108921042A

Abstract

本发明提供了一种基于深度学习的人脸序列的表情分析方法,主要涉及利用多尺度人脸表情识别网络对人脸序列表情进行分类。该方法包括：构建多尺度人脸表情识别网络(其中包括处理128×128，224×224，336×336等不同分辨率的三个通道)，并利用该网络并行提取不同分辨率的人脸序列中的特征，最后融合这三种特征，得到人脸序列表情的分类。本发明充分发挥深度学习的自我学习能力，避免了人工提取特征的局限性，使得本发明方法的适应能力更强。利用多流深度学习网络的结构特征，并行训练及预测，最后融合多个子网络的分类结果，提高了准确率及工作效率。

Description

一种基于深度学习的人脸序列表情识别方法

技术领域

本发明涉及视频分析领域中的人脸序列表情识别问题，尤其是涉及一种基于深度学习的多流神经网络对人脸序列表情分类的视频分析方法。

背景技术

人脸表情是人类情感识别的重要特征之一。达尔文在《人与动物的情感表达》一书中介绍了这一领域作为研究领域。人脸表情识别是指从给定的静态图像或动态视频序列中分离出特定的表情状态，从而确定被识别对象的心理情绪。目前，人脸表情自动识别有着广泛的应用，如数据驱动动画、神经营销、交互式游戏、社交机器人以及许多其他人机交互***。

而人脸表情识别又可分为基于静态图片的表情识别和基于视频序列的表情识别。视频大量存在于现实生活之中，如无人机视频监控，网络共享视频，3D视频等。相比于静态图片中的人脸表情分析，通过对视频中人脸表情进行分析将有助于动态的了解视频中的人的情感及情绪的变化，有着广阔的应用前景。比如疲劳驾驶，通过分析人表情的变化，人脸表情识别程序可分析出驾驶员是否处于疲劳状态，以防止交通事故的发生。

传统人脸表情识别方法中人工提取的特征维数过大，特征单一，计算复杂，且识别的效果直接与选取的特征有关。为避免人为因素对模型的影响，本文选择深度学习模型进行人脸表情识别的研究。深度学习(Deep Learning)是一个近几年备受关注的研究领域，在机器学习中起着重要的作用。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取，从而能够解释外部数据。深度学习强调网络结构的深度，通常有多个隐藏层，以用来突出特征学习的重要性。与人工规则构造特征的浅层结构相比，深度学习利用大量的数据来学习特征，更能够描述数据特有的丰富的特征信息。我们还可以通过学习一种深层非线性网络，实现复杂模型的逼近，表征输入数据分布式表示。

发明内容

本发明的目的是提供一种视频序列中人脸表情识别的方法，将深度学习与视频人脸表情相结合，充分发挥深度学习自我学习的优势，可以解决目前浅层学习的参数难以调整，需要人工选取特征，准确率不高等问题。

为了方便说明，首先引入如下概念：

人脸序列表情分类：对于视频序列中个体的情绪进行分析，将每个个体划分到正确的情绪类别之中。根据实际需求不同，可定义不同的人脸表情类别。

卷积神经网络(CNN)：受视觉神经机制的启发而设计的，是为识别二维形状而设计的一种多层感知器，这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。

长短记忆型递归神经网络(LSTM)：为了解决循环神经网络在时间上的梯度消失问题，机器学习领域发展出了长短时记忆单元LSTM，通过门的开关实现时间上记忆功能，防止梯度消失。

长效递归卷积神经网络(Long-term Recurrent Convolutional Networks,LRCN)^[1]：结合了CNN与LSTM单元，首先，以视频单帧图像作为CNN的输入，实现对图像的空间信息建模，然后以视频连续帧作为LSTM的输入，实现对象的时序特征提取。

VGG-Face+LSTM：采用LRCN网络结构，其中CNN单元采用VGG-Face网络结构。

多尺度人脸序列表情识别网络：通过多个并行的子神经网络提取人脸序列不同分辨率的特征，然后将多个子神经网络进行加权融合形成多流神经网络。

数据集：其中包括YouTube Face数据集，AEFW 6.0数据集。

本发明具体采用如下技术方案：

提出了一种基于深度学习的人脸序列表情识别方法，该方法的主要特征在于：

1).将人脸序列处理成不同的分辨率；

2).采用不同的神经网络处理不同分辨率的人脸序列；

3).采用加权的方法对上述2中的多个网络通道进行融合，得到多尺度人脸序列表情识别网络模型；

该方法主要包括以下步骤：

A.多尺度人脸序列表情识别网络的训练，其具体包括：

A1.对视频序列进行预处理，其中通过人脸检测跟踪等视频分析技术获取人脸序列，将每个人脸序列处理为三个不同的分辨率，其中包括128×128，224×224，336×336；最后将上述人脸序列数据集分为训练集、测试集和验证集，并贴上定义好的几个情绪类别标签；

A2.采用LRCN结构的3通道多尺度人脸序列表情识别网络(Coarse Resolution通道，Normal Resolution通道，Fine Resolution通道等)分别对上述三种分辨率的人脸序列进行分析，其中Coarse Resolution通道(CS-stream)处理分辨率为128×128的人脸序列，Normal Resolution通道(NS-stream)处理分辨率为224×224的人脸序列，FineResolution通道(FS-stream)处理分辨率为336×336的人脸序列；

A3.训练时先将训练集和验证集中三种不同分辨率的人脸序列分别输入三个通道，完成整个网络的训练，最后融合，保存生成的网络与网络参数模型，以用于预测；

B.利用多尺度人脸序列表情识别网络与训练好的网络参数模型进行视频的人脸序列表情分类：

B1.提取步骤A1中生成的测试集视频的不同分辨率人脸图像序列，为分类做准备；

B2.利用多尺度人脸表情识别网络和步骤A中生成的网络参数模型，以步骤B1中计算的不同分辨率人脸图像序列作为输入，并融合三通道的分类结果，来预测该视频的人脸表情类别。

优选地，在步骤A1中的情绪类别标签包括bored、excited、frantic、relaxed。

优选地，在步骤A1中数据预处理包括：对每一个人脸序列进行采样得到三种不同分辨率的人脸序列。

优选地，在步骤A2中利用VGG-Face+LSTM网络作为CS-stream通道和NS-stream通道的基础网络模型；利用Deeper VGG-Face+LSTM作为FS-stream通道的基础网络模型。

优选地，在步骤B中预测时对人脸序列的三种不同分辨率分别分类处理，然后对三个通道的分类结果采用2：5：3的比例加权融合得到最终的人脸表情类别预测结果。

本发明的有益效果是：

(1)充分发挥深度学习的自我学习优势，机器自动学习良好的特征。当输入人脸序列时能够快速准确地提取特征，加权融合分类，避免了人工提取特征的局限性，适应能力更强。

(2)利用多尺度人脸序列表情识别网络的结构特征，对网络进行训练，预测，最后对结果进行融合，可以大大的减少训练所需时间，增加工作效率。

(3)结合多流深度学习网络，融合视频序列不同分辨率的特征，使分类结果更加准确、可靠。

(4)将深度学习与视频人脸表情识别相结合，解决传统方法准确率不高等问题，提高研究价值。

附图说明

图1为本发明的基于深度学习的人脸序列表情识别方法的流程图；

图2为多尺度人脸序列表情识别网络的组成图；

图3为本发明方法在本文测试集上将三通道的分类结果按2：5：3的比例融合的混淆矩阵。

具体实施方式

下面通过实例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

图1中，基于深度学习的人脸序列表情识别方法，具体包括以下步骤：

(1)通过人脸检测跟踪等视频分析技术获取视频中的人脸序列，将人脸序列数据集分为bored，excited，frantic，relaxed四个不同的人脸表情类别，将分好等级的数据集按8:1:1的比例分为训练集、测试集和验证集，并制作数据标签。

(2)分别将上述步骤(1)中各数据集的视频序列进行采样处理，每个视频序列分别得到3种不同的分辨率人脸序列(包括128×128，224×224，336×336)。

(3)利用不同的网络通道处理不同分辨率下的人脸序列，本方法具体使用CS-stream通道处理分辨率为128×128的人脸序列，NS-stream通道分辨率为224×224的人脸序列；利用FS-stream通道处理分辨率为336×336的人脸序列，最后采用2:5:3的权重融合三个通道得到本方法的多尺度人脸序列表情识别网络。

(4)训练：其中采用VGG-Face+LSTM作为CS-stream通道与NS-stream通道的基础网络，Deeper VGG-Face+LSTM在VGG-Face+LSTM网络的基础上添加了两个卷积层作为FS-stream通道的基础网络，对三通道网络加权融合得到多尺度人脸表情识别网络，然后从上述步骤(2)处理过的训练集和验证集中取1/10的数据对多尺度人脸序列表情识别网络微调，验证输入数据是否有效，如果无效则重新生成输入数据。接着利用步骤(2)中训练集和验证集对多尺度人脸序列表情识别网络进行训练。这里先对网络的CNN部分进行训练，然后用CNN提取的特征对LSTM部分进行训练，最后得到训练完成的网络的参数模型，用于预测网络。

(5)多尺度人脸表情识别网络加载步骤(4)中得到的网络参数模型。

(6)将上述步骤(2)的验证集视频的不同分辨率序列分别输入预测网络的三个通道。

(7)将三个通道得到的结果采用2:5:3的权重融合得到预测结果。

参考文献

[1]Donahue J,Anne Hendricks L,Guadarrama S,et al.Long-term recurrentconvolutional networks for visual recognition and description[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition.2015:2625-2634.

Claims

1.一种基于深度学习的人脸序列表情识别方法，其特征在于：

1).将人脸序列处理成不同的分辨率分别处理；

2).采用不同的神经网络处理不同分辨率的人脸序列；

3).采用加权的方法对上述2)中的多个网络通道进行融合，得到多尺度人脸序列表情识别网络模型；

该方法包括以下步骤：

A.多尺度人脸序列表情识别网络的训练，其具体包括：

A1.对视频序列进行预处理，其中通过人脸检测跟踪的视频分析技术获取人脸序列，将每个人脸序列处理成三种不同的分辨率，这三种不同的分辨率包括128×128,224×224,336×336；最后将上述三种不同分辨率的人脸序列分为训练集、测试集和验证集，并贴上定义好的情绪类别标签；

A2.采用长效递归卷积神经网络(Long-term Recurrent Convolutional Networks,LRCN)结构的三通道多尺度人脸序列表情识别网络分别对上述三种不同的分辨率的人脸序列进行分析，所述三通道是指Coarse Resolution通道即CS-stream，Normal Resolution通道即NS-stream，Fine Resolution通道即FS-stream，其中CS-stream处理分辨率为128×128的人脸序列，NS-stream处理分辨率为224×224的人脸序列，FS-stream处理分辨率为336×336的人脸序列；

A3.训练时先将训练集和验证集中三种不同分辨率的人脸序列分别输入多尺度人脸序列表情识别网络的三个通道，完成整个网络的训练，最后融合三通道并保存生成的网络与网络参数模型，以用于预测；

所述步骤A中利用不同网络提取不同分辨率的人脸序列中的时空特征，采用VGG-Face+LSTM作为CS-stream通道与NS-stream通道的基础网络，Deeper VGG-Face+LSTM在VGG-Face+LSTM网络的基础上添加了两个卷积层作为FS-stream通道的基础网络，对三通道网络采用2:5:3的权重融合得到多尺度人脸表情识别网络；

B1.提取步骤A1中生成的测试集中的不同分辨率的人脸序列，为分类做准备；

B2.利用多尺度人脸表情识别网络和步骤A中生成的网络参数模型，以步骤B1中提取的不同分辨率人脸序列作为输入，并融合三通道的分类结果，预测该视频的人脸表情类别。

2.如权利要求1所述的基于深度学习的人脸序列表情识别方法，其特征在于步骤A1中的情绪类别标签包括bored,excited,frantic,relaxed。

3.如权利要求1所述的基于深度学习的人脸序列表情识别方法，其特征在于步骤B中预测时对人脸序列的不同分辨率分别分类处理，然后对三个通道的分类结果采用2:5:3的权重融合得到最终的人脸表情识别预测结果。