CN112818764B

CN112818764B - 一种基于特征重建模型的低分辨率图像人脸表情识别方法

Info

Publication number: CN112818764B
Application number: CN202110055946.8A
Authority: CN
Inventors: 田锋; 经纬; 南方; 洪振鑫; 郑庆华
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-05-02
Anticipated expiration: 2041-01-15
Also published as: CN112818764A

Abstract

本发明公开了一种基于特征重建模型的低分辨率图像人脸表情识别方法，属于人脸图像表情识别领域。本发明包括构建训练和测试数据集；之后训练特征重建模型的人脸表情识别模型，使用固定参数的特征提取网络提取图像表情特征，再采用生成对抗网络方式训练模型获得表情特征生成器和特征判别器，使用FSRG为输入图像重建特征得到F_SR；由全连接网络和softmax函数层组成的分类器对特征F_SR进行分类，并使用softmax层输出的样本对应的正确类别的概率值对样本损失进行重新加权；本发明对输入图像的分辨率不敏感，提升了较低分辨率下的识别准确率，且在各个分辨率上的识别效果更加稳定。

Description

一种基于特征重建模型的低分辨率图像人脸表情识别方法

技术领域

本发明属于人脸图像表情识别领域，尤其是一种基于特征重建模型的低分辨率图像人脸表情识别方法。

背景技术

面部表情是人类表达情绪的最直接、最自然的信号之一。人脸表情识别是人机自然交互、计算机视觉、情感计算和图像处理等研究的一个热点课题，在人机交互、远程教育、安全领域、智能机器人研制、医疗、动画制作等领域有着广泛的应用。

在不同场景下，由于设备、环境的变化以及针孔相机的成像原理，多人照相场景下的人物面部图像存在“近大远小”不同分辨率问题，在网络传输和存储中也会对图像进行压缩，降低图像的质量和分辨率。在低分辨率场景下算法的识别准确率会受到严重影响。为了更加准确的识别人物的表情，需要减少分辨率变化带来的影响。随着深度学习和图像超分辨率等技术的发展，在处理低分辨率输入图像时，多采用先对图像进行超分辨率重建，后进行识别的方法。重建图像的方法有如下缺点，第一：虽然相比直接使用低分辨率图像进行表情识别的方法相比有所提升，但时会造成计算量大量增加、效果不稳定等问题。第二：由于表情识别的对象是人脸，对人脸图像进行高分辨率重建容易导致隐私泄露问题，这一点在国际研究中越来越受到重视。

发明内容

本发明的目的在于克服重建人脸图像计算量大、隐私易泄露的缺点，提供一种基于特征重建模型的低分辨率图像人脸表情识别方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于特征重建模型的低分辨率图像人脸表情识别方法，包括以下步骤：

1)收集分辨率大于等于100x100像素的人脸表情图像并标注表情类型，作为原始图像I_HR；对原始图像进行2-8倍的整数倍率降采样，得到对应的低分辨率图像，所述低分辨率图像的表情类别标签和原始图像保持一致；将原始图像和对应的低分辨率图像划分为训练集和测试集；

2)采用生成式对抗网络方法训练神经网络模型；

将原始图像和各倍率的低分辨率图像输入到特征提取器E中，特征提取器E提取并计算原始图像的特征矩阵F_HR和各倍率的低分辨率图像特征矩阵F_LR；

低分辨率图像特征矩阵F_LR输入到表情特征生成器FSRG中，输出生成重建特征矩阵F_SR；

原始图像的特征矩阵F_HR和对应的低分辨率图像的重建特征矩阵F_SR输入到特征判别器FSRD中，比较两者在分布空间上的差异，通过反向传播优化特征判别器FSRG；

重建表情特征F_SR输入到双层全连接的表情分类器C中进行分类，表情分类器C计算样本被分为各个类别的概率，并用每个样本被正确分类的概率值计算权重系数对所述样本的损失进行重加权，加速神经网络的收敛；

重复以上训练过程，直至得到训练好的神经网络模型；

3)将待识别表情的人脸图像输入到训练好的神经网络模型中，特征提取器E提取输入图像的特征矩阵F，特征生成器FSRG生成重建后的特征矩阵F_SR，分类器C计算并输出识别结果的类别标签。

进一步的，步骤2)中的特征提取器E由多个卷积层和非线性激活层组合而成，为经原始图像数据集预训练的表情识别模型的特征提取部分。

进一步的，步骤2)中的特征提取器E中特征提取的过程为：

对于输入图像I，提取三维特征张量T，特征张量T的大小为w*h*n，其中，w和h为特征张量的长和宽，n为通道数；

计算特征张量T的协方差矩阵M：

其中，f_i代表特征张量T的一个通道，

为特征张量各通道的平均值，M∈^n*n，n为特征张量T的通道数；

对协方差矩阵M进行特征值矫正，得到矫正的协方差矩阵M⁺：

M⁺＝M+λ*trace(M)*I (2)

其中，λ是大于零的系数，I是单位矩阵，trace(M)是矩阵M的迹；

对矫正的协方差矩阵M⁺进行池化操作并对特征值取对数，得到特征矩阵F。

进一步的，对矫正的协方差矩阵M⁺进行池化操作并对特征值取对数，得到特征矩阵的过程为：

F_cov＝WM⁺W^T (3)

其中，

为池化参数矩阵，矩阵

对F_cov进行特征值分解和特征值矫正得到矩阵F⁺，具体操作如下：

F_cov＝U₁Σ₁U₁ ^T (4)

F⁺＝U₁max(εI,Σ₁)U₁ ^T (5)

其中，max()是对两矩阵对应元素取最大值；

对F⁺的进行特征值分解并对特征值取对数，得到特征矩阵F，具体操作为：

F⁺＝U₂Σ₂U₂ ^T (6)

F＝U₂log(Σ₂)U₂ ^T (7)

其中，log(Σ₂)指对特征值矩阵Σ₂的每个元素取对数的操作。

进一步的，步骤2)中的特征生成器FSRG是一个全卷积网络，由卷积神经网络和非线性激活层组成，特征生成器FSRG重建特征矩阵的过程为：

以低分辨率图像的特征矩阵F_LR为输入，输出重建的特征矩阵F_SR，重建前后的矩阵保持维度一致。

进一步的，步骤2)中特征判别器FSRD比较两者在分布空间上的差异，具体为：

特征判别器FSRD分别以同一张图像对应的特征矩阵F_SR和F_HR作为输入，输出对应的分值，分值之差的绝对值表示两者在特征空间中的Wasserstein距离。

进一步的，步骤2)的训练过程中，特征生成器FSRG的损失函数由对抗损失L_GAN、特征矩阵F_SR和F_HR之间的感知损失L_P和二范数损失L₂组成；

对抗损失L_GAN为：

其中，b是数据批次的大小；

特征感知损失L_P为：

其中，C_FC()表示分类器C的最后一层全连接层的输出；

二范数损失L₂为：

特征生成器FSRG的损失为三者的线性加和：

L_FSRG＝L_GAN+λ₁L_P+λ₂L₂ (11)

其中，λ₁和λ₂均为大于零的权重系数。

进一步的，步骤2)的训练过程，特征判别器FSRD的损失函数为：

其中，

θ是一个0到1之间的随机数，保证每个批次的数据中

是F_SR和F_HR的线性插值结果；p和k分别为

项的指数参数和系数参数。

进一步的，步骤2)中表情分类器C使用softmax计算样本属于各类别Class_i的概率值，i＝1,...,z，z为类别总数，利用其中真实类别对应的概率值对其损失进行重加权，具体操作为：

w＝(σ-logit)^r (13)

其中，logit是softmax函数输出的样本对应其真实类别的概率，参数σ和r分别设置为1.5和2。

与现有技术相比，本发明具有以下有益效果：

本发明的基于特征重建模型的低分辨率图像人脸表情识别方法，构建训练和测试数据集，对高分辨率人脸表情图像进行不同倍率降采样生成多个倍率的高-低分辨率图像对，同时保留类别标签；之后训练特征重建模型的人脸表情识别模型，使用固定参数的特征提取网络提取高分辨率图像表情特征F_HR，以及对应的低分辨率图像表情特征F_LR；再采用生成对抗网络方式训练模型获得表情特征生成器FSRG和特征判别器FSRD，并使用FSRG为输入图像重建特征得到F_SR；由全连接网络和softmax函数层组成的分类器C对特征F_SR进行分类，并使用softmax层输出的样本对应的正确类别的概率值对样本损失进行重新加权，加速模型收敛；识别过程为：模型提取输入图像的特征矩阵F，之后特征生成器FSRG生成重建后的特征矩阵F_SR并使用训练得到的分类器C计算并输出识别结果的类别标签。本发明提出结合深度学习对抗生成网络，重建图像特征的方法进行人脸表情识别。相较于传统方法，本发明对输入图像的分辨率不敏感，提升了较低分辨率下的识别准确率；相较于重建图像的方法，本发明在各个分辨率上的识别效果更加稳定且能够规避重建图像带来的计算量增加和可能的隐私泄露问题，具有重大的工业应用价值。

附图说明

图1为本发明基于特征重建模型的低分辨率图像人脸表情识别方法的整体网络；

图2为本发明的特征提取器的网络结构；

图3为本发明的特征生部分的网络结构，其中，图3(a)为特征生成器网络结构，图3(b)为密集连接块结构；

图4为本发明的特征判别器的网络结构。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提出结合深度学习对抗生成网络，重建图像特征的方法进行人脸表情识别。相较于传统方法，本发明的方法对输入图像的分辨率不敏感，提升了较低分辨率下的识别准确率；相较于重建图像的方法，本发明在各个分辨率上的识别效果更加稳定且能够规避重建图像带来的计算量增加和可能的隐私泄露问题，对教育分析与管理、娱乐领域具有重大的工业应用价值。

下面结合附图对本发明做进一步详细描述：

参见图1，图1为本发明基于特征重建模型的低分辨率图像人脸表情识别方法的整体网络；网络包含四个主要部分，分别是特征提取器、特征生成器、特征判别器和表情分类器。

参见图2，图2为本发明的特征提取器的网络结构；特征提取器包含六层卷积核均为3x3，步长为1的卷积层(Conv Layer)。每个卷积层的输出特征通道数依次为64、96、128、128和256，每个卷积层后接一层激活层，激活函数为ReLu函数。在第一、第二和第四个激活层之后各有一层池化层，采用的是最大化池化(MaxPooling Layer)，池化窗口大小为2x2，步长为2。

参见图3，图3(a)为特征生成器网络结构，图3(b)为密集连接块结构；由三个密集连接块的级联和输入输出间的残差连接组成，其中单个密集块的结构如图3(b)所示，包含五个卷积层-批规范化层(BatchNormalization，BN)组合，组间采用密集连接并添加LReLu函数作为激活层。

参见图4，图4为本发明的特征判别器的网络结构，由五个卷积块和两个全连接层级联组成，每个卷积块的输出通道数依次为8、16、32、64和64；每个卷积块由两个卷积层和两个激活层交替排列，其中前一个卷积层卷积核为3x3，步长为1，后一个卷积层卷积核为5x5，步长为2；最后的两个全连接层的输出维度依次为100维和1维。

本发明的基于特征重建模型的低分辨率图像人脸表情识别方法，实施过程如下：

模型训练部分：

步骤1：收集分辨率大于等于100x100像素的人脸表情图像并标注表情类型，作为原始图像I_HR；采用双三次插值方式对原始图像进行2到8倍的整数倍率降采样(图像的长和宽均变为原始分辨率的

到

)，得到多个低分辨率图像(I_LR-2到I_LR-8)；低分辨率图像的表情类别标签和原始图像保持一致；

步骤2：使用固定参数预训练的特征提取器E提取原始分辨率图像的特征矩阵F_HR和各倍率对应的低分辨率图像的特征矩阵F_LR，特征提取器E包含卷积层和非线性激活层。一次输入为一个高-低分辨率图像对，对于其中的一张图像I，均使用特征提取器提取对应三维特征张量T，特征张量T的大小为w*h*n，其中，w和h为对应特征张量的长和宽，n为通道数；

步骤3：计算各自特征张量T的协方差矩阵：

其中，f_i代表特征张量T的一个通道，

为特征张量各通道的平均值，M∈^n*n，n为特征张量T的通道数。

步骤4：为了保证矩阵的正定性，对每个协方差矩阵进行特征值矫正：

M⁺＝M+λ*trace(M)*I (2)

其中，λ是大于零的系数，由于协方差矩阵是对称半正定的，为了减少这步操作对特征矩阵的影响同时保证正定性，λ的取值为0.0001；I是单位矩阵。

步骤5：对协方差矩阵M⁺进行特征值进行池化操作并对特征值取对数，得到特征矩阵，具体操作为：

F_cov＝WM⁺W^T (3)

其中，

为池化参数矩阵，具体参数通过反向传播学习优化，矩阵

步骤6：对矩阵F_cov进行特征值分解并进行如下操作得到矩阵F⁺，具体操作如下：

F_cov＝U₁Σ₁U₁ ^T (4)

F⁺＝U₁max(εI,Σ₁)U₁ ^T (5)

其中，max()是对两矩阵逐元素取最大值。

步骤7：对矩阵的F⁺特征值取对数，得到最终的特征矩阵F，具体操作为：

F_cov＝U₂Σ₂U₂ ^T (6)

F＝U₂log(Σ₂)U₂ ^T (7)

其中，log(Σ₂)指对特征矩阵Σ₂的每个元素取对数的操作。

步骤7：模型结构初始化

特征生成器FSRG是一个全卷积网络，本发明中采用的是ResNet-50实现，以低分辨率图像的特征矩阵F_LR为输入，输出重建的特征矩阵F_SR，输入输出特征矩阵的维度要保持一致，因此移除ResNet中原有的池化操作；特征判别器FSRD在本发明中采用的是VGG-16网络分别以原始图像特征矩阵F_HR和其对应的倍率的低分辨率图像的特征矩阵F_SR为输入；表情分类器C由两层全连接层和softmax函数层组成，输出各个分类列别的概率。

步骤8：设置损失函数

在训练过程中，特征生成器FSRG的损失函数由对抗损失L_GAN、特征矩阵F_SR和F_HR之间的感知损失L_P和L2距离损失L₂组成，其中，L_GAN为：

其中，b是数据批次的大小，L_GAN的作用是约束特征生成器FSRG和特征判别器FSRD特征感知损失，L_P为：

其中，C_FC()表示分类器C的最后一层全连接层的输出。

特征生成器FSRG的损失为三者的线性加和：

L_FSRG＝L_GAN+λ₁L_P+λ₂L₂ (10)

其中，λ₁和λ₂均为大于零的可调节权重系数，本发明中两个系数均设置为0.1。

特征判别器FSRD的损失函数计算方式为：

其中，

θ是一个0到1之间的随机数，保证每个批次的数据中

是F_SR和F_HR的线性插值结果，p和k分别为

项的指数参数和系数参数，实验中p＝6和k＝2能获得最好的效果。

使用softmax计算样本属于各类别的概率并用对样本损失进行重新加权的具体操作为：

w＝(σ-logit)^r (12)

其中，logit是softmax函数输出的样本对应其真实类别的概率，参数σ和r分别设置为1.5和2；分类器C的损失函数设置为交叉熵损失。

步骤9：模型训练

使用Adam优化器更新梯度，学习率设置为0.00002，Adam的一介动量参数为0.1，二阶动量参数为0.999。数据集训练迭代次数(Epoch)设置为400次，数据批次大小(batchsize)设置为16。

模型使用部分：

使用特征提取器E提取图像特征张量T，再用特征生成器FSRG进行特征重建，得到对应的重建特征F_SR，之后由分类器C计算样本属于各个类别的概率，将样本分类为具有最大概率的类别。

参见表1，表1为不同方法在RAF-DB数据集各倍率降采样人脸图像上的表情识别平均准确率，本发明提出的方法对比直接对低分辨率图像进行Bicubic插值放大的方法有明显提升。对比重建图像的超分辨率方法RCAN和Meta-SR，本方法在分辨率较低的图像上效果更好，各尺度图像的平均识别准确率更高。本发明提出的方法对比直接对低分辨率图像进行Bicubic插值放大的方法有明显提升。对比重建图像的超分辨率方法RCAN和Meta-SR，本发明在分辨率较低的图像上效果更好，各尺度图像的平均识别准确率更高。

表1不同方法在RAF-DB数据集各倍率降采样人脸图像上的表情识别平均准确率

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。