CN111582059A

CN111582059A - 一种基于变分自编码器的人脸表情识别方法

Info

Publication number: CN111582059A
Application number: CN202010313704.XA
Authority: CN
Inventors: 董红斌; 许劲; 张万松; 杨磊
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-25
Anticipated expiration: 2040-04-20
Also published as: CN111582059B

Abstract

本发明属于视觉图像处理领域，尤其涉及人脸表情识别技术领域，具体涉及一种基于变分自编码器的人脸表情识别方法。本发明首先利用卷积神经网络预测输入人脸图像的面部姿势，并且通过改进损失函数和调整人脸边界框的边距大小提高面部姿势估计的准确度，然后将经过处理的人脸图像输入到变分自编码器中，通过给定人脸图像中姿势和表情属性的概率分布，生成不同姿势和表情的人脸图像来扩充表情识别模型的训练集，从而解决模型在训练的过程中，由于头部姿势偏转造成的识别精度不高和缺乏足够的训练数据造成的过拟合问题。最后利用生成图像和原始图像一起作为训练数据对分类器模型进行训练，实现非正面人脸表情识别。

Description

一种基于变分自编码器的人脸表情识别方法

技术领域

本发明属于视觉图像处理领域，尤其涉及人脸表情识别技术领域，具体涉及一种基于变分自编码器的人脸表情识别方法。

背景技术

人脸表情识别是人脸识别技术的重要组成部分，现已广泛应用于处理各种计算机视觉任务。人脸表情识别是指利用计算机技术获取人脸表情图像、检测人脸表情区域、提取表情特征和对表情特征进行分类的过程。目前，人脸表情识别的方法主要分为两大类，即传统的人脸表情识别方法和基于深度学习的人脸表情识别方法。

传统的人脸表情识别方法主要包括主成分分析法(PCA)、独立分量分析法(ICA)、几何法、光流法、模型法。传统的人脸表情识别方法主要根据人脸产生表情时的人脸形状和纹理的不同来区分不同的面部表情，具有易于理论证明和实现简单等优点，然而识别精度并不理想，不能很好地推广到现实的各种应用场景中。

基于深度学习的人脸表情识别方法在计算机视觉处理方面不断取得突破，由于深度学习中的神经网络，特别是卷积神经网络(CNN)，能够有效地从人脸表情图像中提取表情特征信息，并且对于提取的表情特征能够进行有效地预测分类，大大提高了人脸表情识别的效率和准确率。目前，基于深度学习的人脸表情识别研究中，还可以通过对网络层的卷积神经网络层，递归神经网络层和全连接层等进行组合形成新的网络形式。

然而，现有的人脸表情识别研究面临着五大难题，它们分别是面部姿势的偏转、面部的配准误差、面部上有遮挡物、光照的变化和不同身份的差异。其中，面部姿势的偏转是造成配准误差和面部遮挡的一个重要原因。但是大多数方法在解决人脸表情识别时没有考虑到非正面人脸图像的特殊性，当涉及到人脸检测和面部姿势估计时又分开进行处理，无法构成一个统一的完整***，不是一种端到端的方法。并且在非正面的人脸表情识别模型的训练过程中，由于缺乏足够的训练样本，容易导致过度拟合问题。

发明内容

本发明的目的在于提供解决非正面人脸表情识别研究过程中由于头部姿势偏转、配准误差带来人脸信息的缺失以及缺乏足够的训练样本而造成的过拟合问题，提高人脸表情识别的准确度的一种基于变分自编码器的人脸表情识别方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入待识别的人脸图像数据集，取部分人脸图像构建训练集；

步骤2：通过Lib人脸检测算法对训练集中人脸图像进行处理，获得每幅图像中人脸的方形边界框；

步骤3：从训练集中选择一幅带有方形边界框的人脸图像，在边界框的基础上基于不同的边距对人脸图像进行裁剪，获得不同边距的人脸方形边界框图像；

步骤4：将不同边距的人脸方形边界框图像输入到预先训练好的卷积神经网络模型中，卷积神经网络模型输出人脸图像的三个欧拉角，即左右翻转角、平面旋转角、上下俯仰角；

步骤5：通过组合损失函数，比较不同边距下人脸图像欧拉角的平均误差，确定最优的边距K；将最优边距K时卷积神经网络模型输出的三个欧拉角作为人脸图像的面部姿势；

步骤6：判断是否完成训练集中全部人脸图像的面部姿势提取；若未完成，返回步骤3；

步骤7：将训练集中的人脸图像输入到变分自编码器中进行训练；

步骤8：变分自编码器训练完成后，在正态分布N(0,I)下进行采样，将采样到的隐变量向量输入到变分自编码器的解码器中进行重构，生成不同姿势和表情的人脸图像；

步骤9：将步骤8中生成的图像与步骤7中训练集的原始图像共同作为训练样本输入到分类器模型中进行训练，学习不同姿势和表情的人脸图像的特征信息；

步骤10：将待识别的人脸图像数据集中其他人脸图像输入到训练好的分类器模型中，通过分类器模型中的全连接层对特征信息进行分类，实现非正面条件下不同姿势的人脸表情识别。

本发明还可以包括：

所述的步骤7中将训练集中的人脸图像输入到变分自编码器中进行训练的方法具体为：

步骤7.1：通过变分自编码器对人脸图像的特征进行学习，获得人脸图像的均值向量和方差向量；

步骤7.2：将人脸图像的均值向量和方差向量按照正态分布N(0,I)进行采样，得到包含不同姿势和表情潜在属性的隐变量向量；

步骤7.3：构建模型的反向传播；计算生成的隐变量向量的数据分布与正态分布N(0,I)的距离，同时计算生成数据与原始数据间的交叉熵损失；将两种损失值放在一起，通过Adma的随机梯度下降算法来实现在训练中的优化参数。

所述的步骤4中预先训练好的卷积神经网络模型为在ImageNet数据集上预先训练的ResNet50卷积神经网络，在最后的平均池化层后面放置3个模块，分别用于输出翻转角，偏转角和俯仰角三个欧拉角的预测；将[-90°,+90°]区间分为181类，每一类对应一个角度值；ResNet50对图像中人脸姿势的翻转角，偏转角和俯仰角分别使用离散数和连续数来预测同一个角度，三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048；通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字，使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率。

所述的步骤5中的组合损失函数具体为：

其中，α是权衡两个损失的权重；回归损失函数L_MSE表示的是均方误差；L_MSE的公式如下所示：

其中，y_i是第i个样本的真实角度；

是第i个样本的预测角度；

分类损失函数L_S采用温度缩放的方式使得每个类的分数分布更广；L_S的公式如下所示：

其中，W_j是最后一个全连接层的第j列；T是温度缩放参数。

本发明的有益效果在于：

本发明首先利用卷积神经网络预测输入人脸图像的面部姿势，并且通过改进损失函数和调整人脸边界框的边距大小提高面部姿势估计的准确度，然后将经过处理的人脸图像输入到变分自编码器中，通过给定人脸图像中姿势和表情属性的概率分布，生成不同姿势和表情的人脸图像来扩充表情识别模型的训练集，从而解决模型在训练的过程中，由于头部姿势偏转造成的识别精度不高和缺乏足够的训练数据造成的过拟合问题。最后利用生成图像和原始图像一起作为训练数据对分类器模型进行训练，实现非正面人脸表情识别。

附图说明

图1为一种基于变分自编码器的人脸表情识别方法的框架图。

图2为一种基于变分自编码器的人脸表情识别方法的流程图。

图3为一种基于变分自编码器的人脸表情识别方法的裁剪示例图。

图4为一种基于变分自编码器的人脸表情识别方法中实现人脸姿势估计的架构图。

图5为一种基于变分自编码器的人脸表情识别方法中变分自编码器生成图像的原理图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提出了一种基于变分自编码器的人脸表情识别方法，为了解决非正面人脸表情识别研究过程中由于头部姿势偏转、配准误差带来人脸信息的缺失以及缺乏足够的训练样本而造成的过拟合问题，从而提高人脸表情识别的准确度。本发明首先利用卷积神经网络(CNN)预测输入人脸图像的面部姿势，并且通过改进损失函数和调整人脸边界框的边距大小提高面部姿势估计的准确度。然后将经过处理的人脸图像输入到变分自编码器中，通过给定人脸图像中姿势和表情属性的概率分布，生成不同姿势和表情的人脸图像来扩充表情识别模型的训练集，解决由于缺乏足够的训练数据造成的过拟合问题。最后利用生成图像和原始图像一起作为训练数据对分类器模型进行训练，实现非正面人脸表情识别。

一种基于变分自编码器的人脸表情识别方法，利用CNN模型对人脸图像的进行预处理，估计人脸图像的面部姿势，然后输入到变分自编码器中生成不同姿势和表情的面部图像，最后利用生成图像和原始图像对分类器模型进行训练从而实现高精度的非正面人脸表情识别。

步骤1：通过人脸检测算法对人脸图像进行处理，获得图像中人脸的方形边界框；

步骤2：获得人脸方形边界框后，将使用不同的边距对图像进行裁剪，并且将裁剪后的人脸图像输入到CNN模型中；

步骤3：将CNN模型对人脸图像进行处理并改进模型中的损失函数，输出人脸图像的左右翻转角、平面旋转角、上下俯仰角；

步骤4：通过组合损失函数，比较不同边距的人脸边界框的平均误差大小，确定人脸边界框的最优边距；

步骤5：通过训练CNN模型获得最优边距下面部姿势的三个欧拉角，解开人脸图像中的面部姿势；

步骤6：将经过上述步骤处理的人脸图像输入到变分自编码器中，编码器学习图像中的特征信息，通过均值方差计算模块得到人脸图像的均值向量和方差向量；

步骤7：均值向量和方差向量通过正态分布的随机采样生成包含不同姿势和表情潜在属性的隐变量；

步骤8：将采样到的隐变量输入变分自编码器的解码器中，并且和编码器同时进行训练，从而生成不同姿势和表情的人脸图像；

步骤9：生成图像和原始图像共同作为训练样本输入到分类器模型中进行训练，学习不同姿势和表情的人脸图像的特征信息；

步骤10：通过分类器模型中的全连接层对特征信息进行分类，实现非正面条件下不同姿势的人脸表情识别。

本发明对卷积神经网络进行训练获得人脸图像的三个欧拉角(翻转角、旋转角、俯仰角)，从而估计人脸图像的面部姿势。并将获得面部姿势的人脸图像输入到变分自编码器中生成不同姿势和表情的面部图像，丰富人脸表情识别模型的数据集。从而解决模型在训练的过程中，由于头部姿势偏转造成的识别精度不高和缺乏足够的训练数据造成的过拟合问题。具体来说，首先通过Lib人脸检测算法检测人脸并获得方形边界框，通过比较不同边距的人脸边界框的平均误差，裁剪出最优边距的人脸图像；将裁减后的图像输入到基于ResNet50的卷积神经网络进行学习人脸的特征信息并得到三个欧拉角，估计图像中的人脸姿势。将上述处理过的图像输入到变分自编起码中，通过调节模型中的隐变量参数，生成不同姿势和表情的人脸图像；最后用生成图像和原始图像共同训练基于VGG-19网络的人脸表情分类器，提高非正面人脸表情识别的准确度。

步骤(1)：人脸图像的预处理：将ImageNet数据集中的人脸图像输入到基于ResNet50的CNN模型中进行面部姿势的估计，输出结果为人脸图像的三个欧拉角(翻转角、旋转角、俯仰角)。对于输入的每张人脸图像，都要进行以下预处理操作：

步骤(1.1)：获得人脸图像的边界框：通过Lib人脸检测算法对人脸图像{X₁,X₂,...,X_n}进行处理，获得人脸图像的方形边界框；

步骤(1.2)：裁剪人脸图像：在原有人脸图像的方形边界框上使用不同的边距K对图像进行裁剪，以找到合适的边距；

步骤(1.3)：估计面部姿势：将裁剪好的不同边距的所有人脸图像输入到基于ResNet50的卷积神经网络中进行学习人脸特征信息，然后输出人脸图像的三个欧拉角，分别是翻转角、旋转角、俯仰角。

步骤(1.4)：通过实验给定的组合损失函数，比较不同边距K下人脸图像欧拉角的平均误差，确定最优的边距K；

步骤(1.5)：在最优边距K下训练CNN模型得到面部姿势的三个欧拉角，解开人脸图像中面部姿势；

步骤(2)：生成不同姿势的人脸图像：将经过步骤(1)处理的人脸图像{X₁,X₂,...,X_n}输入到变分自编码器进行以下操作：

步骤(2.1)：计算人脸图像的均值向量和方差向量：通过变分自编码器中编码器的均值方差计算模块学习输入图像的特征信息，得到图像的均值向量μ和方差向量σ²；

步骤(2.2)：通过正态分布N(0,I)进行采样：将人脸图像{X₁,X₂,...,X_n}的均值向量和方差向量按照标准正态分布N(0,I)进行采样，得到包含不同姿势和表情潜在属性的隐变量向量；

步骤(2.3)：生成不同姿势的人脸图像：将采样的隐变量向量输入到变分自编码器的解码器中进行重构，生成不同姿势和表情的人脸图像用于分类器模型的训练；

步骤(3)：训练分类器模型：将步骤(2)中带标签的生成图像和原始图像作为数据集对分类器模型进行训练。避免在非正面人脸表情识别模型的训练过程中，由于缺乏足够的训练样本而造成的过拟合问题，提高识别准确率。主要包括以下几个步骤：

步骤(3.1)：人脸图像的特征提取：将步骤(2)中的生成图像和原始图像输入到基于VGG19的卷积神经网络中进行训练，提取非正面条件下人脸图像的特征信息；

步骤(3.2)：全连接层进行分类：分类器模型中的全连接层将最后池化层输出的特征图转化为一维特征向量，得到6个预测值，分别代表惊讶、高兴、悲伤、愤怒、厌恶和恐惧，输入到softmax激活函数中进行分类，实现不同姿势的人脸表情识别。

实施例1：

1.通过Lib人脸检测算法检测出ImageNet数据集中的人脸图像，获得224×224大小的人脸方形边界框；

2.在原有边界框的基础上基于不同的边距对人脸图像进行裁剪，边距K分别取值{0.0,0.2,0.4,0.6,1.0},获得不同边距的人脸方形边界框图像；

3.将(2)中裁剪后的图像输入到在ImageNet数据集上预先训练的ResNet50卷积神经网络中，在最后的平均池化层后面放置3个模块，分别用于输出翻转角，偏转角和俯仰角三个欧拉角的预测。将[-90°,+90°]区间分为181类，每一类对应一个角度值。ResNet50对图像中人脸姿势的翻转角，偏转角和俯仰角分别使用离散数和连续数来预测同一个角度，三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048。通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字，使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率；

4.训练CNN模型，对每个角度使用组合损失函数。回归损失函数L_MSE表示的是通过计算训练样本(i＝1,2,...,n)获得的均方误差。L_MSE定义如下所示：

其中y_i是真实角度，

是第i个样本的预测角度。分类损失函数L_S采用温度缩放的方式使得每个类的分数分布更广。L_S定义如下所示：

其中W_j是最后一个全连接层的第j列，

是第i个样本的输入，y_i是第i个样本的真实类；T是温度缩放参数，实验中参数值设置为2。经过上一步操作后，将两个损失相加，以计算出训练中使用的最终损失函数L。L定义如下所示：

其中α是权衡两个损失的权重，在整个实验中，将α设置为2。分类损失的额外使用将指导CNN获得更好的全局最优值，并且通过比较使用不同边距K的组合损失获得的欧拉角的平均误差来取最优的边距值K。

5.将经过上述步骤后处理过的人脸图像{X₁,X₂,...,X_n}输入到变分自编码器的编码器中。通过编码器对人脸图像的特征进行学习，获得人脸图像的均值向量μ和方差向量σ²。编码器处理后的人脸图像具有两个潜在属性，分别是表情和姿势。给定输入图像的潜在属性的概率分布，生成图像的隐变量Z，实验中使用的是正态分布N(0,I)进行采样。编码器中使用KL散度公式，来计算它所代表的集合与标准的高斯分布集合(均值是0，方差为I的正态分布)间的距离，将这个距离当成误差让它最小化从而来优化网络参数，KL散度公式如下所示：

其中p(x)和q(x)都是表示样本的概率分布。

6.构建模型的反向传播，比较生成的数据分布与标准高斯分布的距离，同时计算生成数据与原始数据间的交叉熵损失。最后将两种损失值放在一起，通过Adma的随机梯度下降算法来实现在训练中的优化参数；

7.设置训练参数，迭代次数为50，每个批次中训练样本的数量为128，每次循环取指定批次数据进行训练，训练时目标函数定义如下所示：

logp(X)-D_KL[q(Z|X)||p(Z|X)]＝E_z-q[logp(X|Z)]-D_KL[q(Z|X)||p(Z)]

其中p(Z|X)表示的是后验分布，p(Z)表示的是先验分布，p(X)、q(Z|X)、p(X|Z)表示的是固定概率分布；

8.变分自编码器模型训练完成后，在标准正态分布N(0,I)下进行采样，将其映射到模型中的隐变量Z中，然后通过解码器还原成真实人脸图像；

9.将步骤(8)中的生成图像和原始图像共同作为训练集输入到基于VGG19的卷积神经网络中进行训练，提取人脸图像的特征信息。卷积神经网络模型依次包括卷积层，池化层和全连接层的组合。卷积层用于提取人脸图像中的特征信息，池化层用于特征降维，压缩数据和参数的数量，减小过拟合，提高模型的容错性，全连接层用于对提取的特征进行分类。

10.通过全连接层将CNN模型中池化层输出的特征图转化为一维特征向量，得到6个预测值，经过softmax激活函数得到最终的输出，实现不同姿势下人脸表情的分类。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变分自编码器的人脸表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于变分自编码器的人脸表情识别方法，其特征在于：所述的步骤7中将训练集中的人脸图像输入到变分自编码器中进行训练的方法具体为：

3.根据权利要求1或2所述的一种基于变分自编码器的人脸表情识别方法，其特征在于：所述的步骤4中预先训练好的卷积神经网络模型为在ImageNet数据集上预先训练的ResNet50卷积神经网络，在最后的平均池化层后面放置3个模块，分别用于输出翻转角，偏转角和俯仰角三个欧拉角的预测；将[-90°,+90°]区间分为181类，每一类对应一个角度值；ResNet50对图像中人脸姿势的翻转角，偏转角和俯仰角分别使用离散数和连续数来预测同一个角度，三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048；通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字，使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率。

4.根据权利要求4所述的一种基于变分自编码器的人脸表情识别方法，其特征在于：所述的步骤5中的组合损失函数具体为：

其中，y_i是第i个样本的真实角度；

是第i个样本的预测角度；

其中，W_j是最后一个全连接层的第j列；T是温度缩放参数。