CN113903063A

CN113903063A - 基于深度时空网络决策融合的人脸表情识别方法及***

Info

Publication number: CN113903063A
Application number: CN202111136083.3A
Authority: CN
Inventors: 陈宣池; 郑向伟; 张利峰; 郑法; 王涛
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-07

Abstract

本公开提供了一种基于深度时空网络决策融合的人脸表情识别方法，包括：对于原始人脸表情数据集的每张人脸表情图像进行预处理，针对预处理后的每张人脸表情图像，提取其面部标志点向量，并选出其峰值表情图像；根据面部标志点向量得到人脸表情的全局时序特征，对人脸表情的全局时序特征进行人脸表情分类，得到第一人脸表情分类结果；根据选取的峰值表情图像得到人脸表情的空间特征，对人脸表情的空间特征进行人脸表情分类，得到第二人脸表情分类结果；对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合，得到最终的人脸表情分类结果，利用人脸表情图像的全局时序特征和空间特征，得到最终的分类结果，取得了较好的人脸表情识别效果。

Description

基于深度时空网络决策融合的人脸表情识别方法及***

技术领域

本公开属于情绪识别技术领域中的人脸表情识别领域，尤其涉及一种基于深度时空网络决策融合的人脸表情识别方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

人脸表情是人类表达内心情感最常用的方式，是机器感知人类情感的关键因素。随着计算机计算能力的增长，人脸表情识别逐渐成为人机交互领域的研究热点。人脸表情识别(Facial Expression Recognition，FER)是指通过计算机捕获人脸表情及其变化过程，分析出人类内心的情感变化。它已被广泛应用于许多领域，如远程教育、公共安全和商业营销等。然而，FER是一项相当复杂的面部分析任务，即使是人类也难以通过单一的面部特征来准确识别他人的情绪。

当前的FER方法可以大致分为两类：基于单张静态图像的FER方法和基于动态图像序列的FER方法。基于单张静态图像的FER方法可以有效地提取空间特征，但它不能利用人脸表情变化过程中的动态信息。基于动态图像序列的FER方法可捕捉图像序列中连续几帧的面部动态变化过程，进而提取时序特征，但往往会忽略图像的空间信息。无论是基于单张静态图像的FER方法还是基于动态图像序列的FER方法，都只关注片面的面部表情特征，很难取得很高的识别准确率。所以，如何提取更高效的时序特征和空间特征并将它们运用到FER任务中，已经成为一个关键的挑战。

现有技术中存在以下技术问题：

卷积神经网络(Convolutional Neural Network，CNN)已经成为一种有效的人脸表情特征提取模型，但是人脸表情数据库的数据量太小往往是直接应用这些CNN模型来识别面部表情的一大障碍。有些研究者提出，减少神经网络的隐藏层深度是克服过拟合问题的可行方法，然而过浅的网络很难达到理想的效果，不利于提取深层次的特征。如何有针对性的在卷积神经网络的隐藏层中保留空间特征成为了一大技术难点。

人脸表情的产生可以被认为是人脸关键部位的动态变化，通过这些动态变化整体表现，形成整个面部表情的变化过程。传统的人脸表情识别方法通常是采用手工制作的描述符来提取隐藏在人脸图像中的时序特征。随着深度学习技术的广泛应用，有研究人员将人脸图像序列直接输入循环神经网络(Recurrent Neural Network，RNN)以提取人脸表情的时序特征，取得了良好的效果，但是这种方法不能有效地利用先验知识，也不能提取人脸表***帧之间的上下文信息。如何在人脸表***中捕捉人脸关键部分的动态信息是当前需要解决的一个技术问题。

发明内容

为了解决上述背景技术中存在的技术问题，本公开提供一种基于深度时空网络决策融合的人脸表情识别方法及***，其将人脸表情图像序列按照人脸区域划分成四个子序列，针对四个子序列分别构建BiLSTM模型以提取局部时序特征，可以更详细地捕捉面部表情的局部形态特征，最大限度地利用动态面部表情的时序特征；使用VGG网络提取峰值表情图像的浅层空间特征图并使用SENet对其分配通道权重，可以有针对性的保留有效空间特征，降低模型过拟合风险。

为了实现上述目的，本公开采用如下技术方案：

本公开的第一个方面提供一种基于深度时空网络决策融合的人脸表情识别方法，包括：

对于原始人脸表情数据集的每张人脸表情图像进行预处理，针对预处理后的每张人脸表情图像，提取其面部标志点向量，并选出其峰值表情图像；

根据面部标志点向量得到人脸表情的全局时序特征，对人脸表情的全局时序特征进行人脸表情分类，得到第一人脸表情分类结果；

根据选取的峰值表情图像得到人脸表情的空间特征，对人脸表情的空间特征进行人脸表情分类，得到第二人脸表情分类结果；

对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合，得到最终的人脸表情分类结果。

本公开的第二个方面提供一种基于深度时空网络决策融合的人脸表情识别***，包括：

数据预处理模块，被配置为对于原始人脸表情数据集的每张人脸表情图像进行预处理，针对预处理后每张人脸表情图像，提取其面部标志点向量，并选取峰值表情图像；

时序特征提取模块，被配置为根据面部标志点向量得到人脸表情的全局时序特征，对人脸表情的全局时序特征进行人脸表情分类，得到第一人脸表情分类结果；

空间特征提取模块，被配置为根据选取的峰值表情图像得到人脸表情的空间特征，对人脸表情的空间特征进行人脸表情分类，得到第二人脸表情分类结果；

决策融合模块，被配置为对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合，得到最终的人脸表情分类结果。

本公开的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。

本公开的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。

与现有技术相比，本公开的有益效果是：

本公开首先对原始人脸表情图像序列进行预处理，预处理步骤包括人脸裁剪、灰度处理、数据增强、面部标志点提取和峰值图像帧选取；第二，提出了一种基于双向长短时记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)的时序特征提取模块，将面部标志点按照不同的人脸区域分别输入BiLSTM中提取局部时序特征，对局部时序特征进行融合得到人脸表情的全局时序特征，将全局时序特征输入softmax计算人脸表情分类结果；第三，提出了一种基于VGG(Visual Geometry Group，VGG)和SENet(Squeeze andExcitation Networks，SENet)的空间特征提取模块，使用VGG网络提取峰值表情图像的浅层空间特征图，利用SENet对浅层空间特征图分配通道权重，将得到的加权特征图作为人脸表情的空间特征，将空间特征输入softmax计算人脸表情分类结果；第四，采用了一种加权平均的融合方式对时序特征提取模块和空间特征提取模块的人脸表情分类结果进行整合，得到最终的人脸表情分类结果。最终，采用公开数据集CK+(The Extended Cohn-KanadeDataset，CK+)和Oulu-CASIA(Oulu-CASIA NIR&VIS Facial Expression Database，Oulu-CASIA)评估方法性能。

本公开由4部分组成：数据预处理模块、时序特征提取模块、空间特征提取模块和决策融合模块。通过分析发现，人脸表情的产生往往可以看作是人脸关键部位(眉毛、眼睛、鼻子和嘴巴)的动态变化，通过这些动态变化整体表现，形成整个面部表情的变化过程。本公开提出一种时序特征提取模块，将人脸表情图像序列按照人脸区域划分成四个子序列，针对四个子序列分别构建BiLSTM模型以提取局部时序特征，可以更详细地捕捉面部表情的局部形态特征，最大限度地利用动态面部表情的时序特征。

另外，为了有针对性的在卷积神经网络的隐藏层中保留空间特征。本公开提出一种空间特征提取模块，使用VGG网络提取峰值表情图像的浅层空间特征图并使用SENet对其分配通道权重，可以有针对性的保留有效空间特征，降低模型过拟合风险。

最后，为了充分整合时序特征和空间特征的信息，本公开采用加权平均的方式对时序特征提取模块和空间特征提取模块的人脸表情分类结果进行融合，得到并输出最终的人脸表情分类结果。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一中的基于深度时空网络决策融合的人脸表情识别方法流程图；

图2是本公开实施例一中的基于深度时空网络决策融合的人脸表情识别方法流程实例图；

图3是本公开实施例二中的时序特征提取模块设计图；

图4是本公开实施例二中的空间特征提取模块设计图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和***的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种基于深度时空网络决策融合的人脸表情识别方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和***，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

步骤S1：针对原始人脸表情数据集D，对于数据集D中的每张图像进行人脸裁剪、灰度处理和数据增强后得到数据集D^*；

步骤S2：针对数据集D^*中的每一张灰度人脸图像，提取其面部标志点向量，并从数据集D^*的每个人脸表情图像序列中选出峰值表情图像；

步骤S3：将面部标志点向量按照人脸关键部位眉毛、眼睛、鼻子和嘴巴划分为四个子向量；将其分别输入到四个BiLSTM中，提取人脸表情的局部时序特征。融合局部时序特征得到人脸表情的全局时序特征F_benm，将F_benm送入softmax分类器计算人脸表情分类结果P_T；

步骤S4：使用VGG网络提取峰值表情图像的浅层空间特征，使用SENet对浅层空间特征图分配通道权重得到加权特征图，将加权特征图作为人脸表情的空间特征F_s，将F_s送入softmax分类器计算人脸表情分类结果P_S；

步骤S5：对P_T和P_S进行加权融合，计算并输出最终的人脸表情分类结果。

在实施例的步骤S1中，对原始的人脸表情识别数据集中的图像序列进行人脸裁剪处理，去除与人脸表情无关的图像，得到人脸表情图像序列；对人脸表情图像序列进行灰度处理，目的是为了避免光照和色彩等因素对分类结果的影响，只保留面部表情特征；对灰度处理后的图像序列进行数据增强，通过采用旋转和翻转的方式将数据集扩充14倍；针对扩充后的数据集中的每一张人脸表情图像，提取其面部标志点，并选出其峰值表情图像。

初始化输入原始人脸表情数据集D＝[S₁,S₂,…,S_N]，其中S₁,S₂,…,S_N为被试者的人脸表情图像序列，其中n∈N，N表示被试者数量，n为每个被试者的表情图像序列中的图像数量。对于数据集D中的每个被试者的人脸表情图像序列中的每张图像S_ni进行人脸裁剪和灰度处理，得到灰度人脸图像S_ni ^*，其中i∈I，I为人脸表情图像序列中包含的图像数量，本公开使用Dlib工具包对图像进行人脸裁剪和灰度处理操作，所裁剪的人脸图像大小为64×64像素；

然后，使用了一种离线的数据增强方法，将每张训练图像按照{-15°,-10°,-5°,0°,15°,10°,15°}的角度旋转，并将旋转后的图像在X轴上翻转并将S_ni ^*进行翻转和旋转扩充14倍后得到数据集D^*。

视频数据集大多会按照帧将视频切分成图像序列的形式保存。此处的数据集D中包含的是N个人的人脸表情图像序列(即N个人的表情变化视频数据被切分成了图像序列的形式)，S₁,S₂,…,S_N表示的是这N被试者的表情图像序列(每人一个)。每个被试者的表情图像序列中又包含若干张图像，用S_ni表示其中的任一张图像。

在本实施例的步骤S2中，本公开使用Dlib工具包对数据集D_*中的每一张灰度人脸图像提取68个面部标志点，并选取每个人脸表情图像序列中最后一张图像作为峰值表情图像；针对D^*中的每一张灰度人脸图像S_ni ^*，提取其面部标志点

其中M表示面部标志点的个数，并从数据集D^*的每个人脸表情图像序列中选出峰值表情图像S_npf ^*。

在本实施例的步骤S3中，将面部标志点向量按照人脸关键部位(眉毛、眼睛、鼻子和嘴巴)划分为四个子向量；其中四个子向量中面部标志点个数分别为10、12、9和22；首先，将四个子向量分别输入到四个BiLSTM中，提取人脸表情的局部时序特征；然后，融合局部时序特征得到人脸表情的全局时序特征F_benm；最后，将F_benm送入softmax分类器计算第一人脸表情分类结果P_T。

对于时序特征提取模块的设计，将面部标志点向量P_ni ^*按照人脸关键部位(眉毛、眼睛、鼻子和嘴巴)划分为四个子向量，得到眉毛、眼睛、鼻子和嘴巴的向量矩阵分别对应为V_eb、V_ey、V_no和V_mo；将四个向量矩阵各输入一个BiLSTM中，在BiLSTM的输出层得到眉毛、眼睛、鼻子和嘴巴的局部时序特征分别对应为F_eb、F_ey、F_no和F_mo，对局部时序特征进行特征融合得到人脸表情的全局时序特征F_benm，并将其送入softmax中进行人脸表情分类，并保存第一人脸表情分类结果P_T(0≤P_T(k)≤1)＝[P_T(1),P_T(2),…,P_T(K)]，其中k∈K，K为人脸表情分类类别个数。

以眉毛的局部时序特征F_eb为例，第t张输入图像的BiLSTM隐藏层的计算公式如下：

f_bt＝σ[w_bf(h_bt-1,x_bt)+b_bf] (1)

f_bt是遗忘门，它通过sigmoid激活函数决定前一状态有多少信息需要丢弃，w_bf是遗忘门的计算权重，b_bf表示遗忘门的计算偏置，x_bt是输入的向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果；

i_bt＝σ[w_bi(h_bt-1,x_bt)+b_bi] (2)

i_bt是输入门，它决定了当前时间节点需要保留的信息，其中σ是sigmoid激活函数，tanh是双曲正切激活函数，w_bi是输入门的计算权重，b_bi表示输入门的计算偏置，x_bt是输入向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果；

是当前备选更新单元，它包含当前时间节点的所有更新信息，具体保留多少信息则由当前更新单元c_bt决定，其中

是当前备选更新单元的计算权重，

表示当前备选更新单元的计算偏置，x_bt是输入向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果；

o_bt＝σ[w_bo(h_bt-1,x_bt)+b_bo] (5)

c_bt是当前更新单元，它不仅获取了备选更新单元的可用信息，还通过遗忘门f_bt获取了上一张图像c_bt-1的可用信息，并使用sigmoid激活函数来确定当前更新单元的输出。

o_bt表示输出门，将o_bt控制的输出信息与经过tanh处理后的c_bt相乘，得到第t张输入图像的前向LSTM隐藏层输出

其中w_bo是输出门的计算权重，b_bo表示输出门的计算偏置，x_bt是输入向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果。

其后向LSTM隐藏层输出

的计算公式与前向相同；

合并BiLSTM前向和后向的LSTM隐藏层输出

和

得到涵盖前后向信息的BiLSTM隐藏层输出h_bt，将其作为局部时序特征F_eb。

拼接眉毛、眼睛、鼻子和嘴巴分别对应的局部时序特征F_eb、F_ey、F_no和F_mo得到全局时序特征矩阵F_benm：

F_benm＝[F_eb；F_ey；F_no；F_mo] (10)

将特征矩阵F_benm输入softmax函数中进行人脸表情分类，P_T(k)表示当前被试的表情预测属于第k类的概率，k∈K，K为人脸表情分类类别个数，z表示softmax函数的输入向量，其公式定义为：

其中，z_j表示输出向量中第j个类别的计算输出值，z_k表示当前需要计算的类别输出值，其损失函数可定义为：

其中，k∈K，K为人脸表情分类类别个数，T_k表示当前被试真实的表情标签值；

在本实施例的步骤S4中，作为输入的是维度为64×64×1的峰值表情图像像素矩阵。首先，在VGG网络中经过2个3×3×64、2个3×3×128、4个3×3×256和1个3×3×512的卷积运算，得到维度为8×8×512的浅层空间特征图U。然后，使用SENet对浅层空间特征图的512个通道分配权重并进行加权运算，得到加权特征图。最后，将加权特征图作为人脸表情的空间特征F_s，并送入softmax计算第二人脸表情分类结果P_S。

对于空间特征提取模块的设计，首先，将峰值表情图像S_npf ^*输入VGG网络提取浅层空间特征图U^A×B×G，其中A×B×G为空间特征维度，G表示特征图通道数。然后，使用SENet对特征图通道之间的相互依赖关系进行显式建模，自动获得每个特征图通道的权重，分配特征图通道的权重得到面部表情的空间特征F_s。最后，将空间特征F_s送入softmax中进行人脸表情分类，并保存第二人脸表情分类结果为P_S(0≤P_S(k)≤1)＝[P_S(1),P_S(2),…,P_S(K)]。

使用SENet分配特征图通道权重的计算过程如下：

(1)针对特征图U^A×B×G的每一个特征图通道g，计算一个聚合统计量V_g，其中g∈G，则V_g的计算公式为：

其中A和B表示每一个特征通道g中的二维特征图的维度长和宽，u_g(a,b)表示浅层特征图U中第g个二维特征矩阵。

(2)通过利用V_g中聚合的信息训练参数w，用于给特征图通道分配权重，每一个特征图通道g的权重计算量S_g的计算过程为：

S_g＝σ(w₂δ(w₁V_g)) (14)

其中，δ代表relu激活函数，

r是一个超参数。

(3)将步骤(2)中得到的特征图通道g的权重计算量S_g和原始空间特征图U_g相乘可得加权特征图f_s(g)，其公式为：

f_s(g)＝S_gU_g (15)

(4)此时，面部表情的空间特征F_S＝[f_s(1),f_s(2),…,f_s(G)]，其中g∈G，f_s(g)表示第g个特征通道的二维特征图。此时，F_S表示维度为A×B×G的加权空间特征。

将空间特征F_S输入softmax函数中进行人脸表情分类，P_S(k)表示当前被试的表情预测属于第k类的概率，k∈K，K为人脸表情分类类别个数，z表示softmax函数的输入向量，其公式定义为：

在本实施例的步骤S5中，对于决策融合算法的设计，对P_S(k)和P_T(k)进行加权融合，计算并输出最终的人脸表情分类结果。其当前人脸表情分类结果Prediction(k)的计算公式为：

Prediction(k)＝argmax(αP_T(k)+(1-α)P_S(k)) (18)

其中，k∈K，K为人脸表情分类类别个数，α＝0.5，P_T(k)表示第一人脸表情分类结果，P_S(k)表示第二人脸表情分类结果。

实施例二

本实施例提供了一种基于深度时空网络决策融合的人脸表情识别***，包括：

此处需要说明的是，上述数据预处理模块、时序特征提取模块、空间特征提取模块、决策融合模块对应于实施例一中的步骤S1至S5，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度时空网络决策融合的人脸表情识别方法，其特征在于，包括：

2.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法，其特征在于，所述对于原始人脸表情数据集的每张人脸表情图像进行预处理，具体为：

对于原始人脸表情数据集的每张人脸表情图像进行人脸裁剪处理，去除与人脸表情无关的图像，得到人脸表情图像序列；

对人脸表情图像序列进行灰度处理，只保留面部表情特征；

对灰度处理后的人脸表情图像序列进行数据增强，采用旋转和翻转的方式将数据集扩充14倍。

3.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法，其特征在于，所述根据面部标志点向量得到人脸表情的全局时序特征，对人脸表情的全局时序特征进行人脸表情分类，得到第一人脸表情分类结果，具体为：

将面部标志点向量按照眉毛、眼睛、鼻子和嘴巴划分为四个子向量；

将四个子向量分别输入到四个双向长短时记忆网络BiLSTM中，分别提取人脸表情的局部时序特征；

融合人脸表情的局部时序特征得到人脸表情的全局时序特征；

利用softmax分类器对人脸表情的全局特征进行分类，得到第一人脸表情分类结果。

4.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法，其特征在于，所述根据选取的峰值表情图像得到人脸表情的空间特征，对人脸表情的空间特征进行人脸表情分类，得到第二人脸表情分类结果，具体为：

利用超分辨率测试序列提取缝制表情图像的浅层空间特征图；

利用SENet对浅层空间特征图分配通道权重，将加权特征图作为人脸表情的空间特征；

利用softmax分类器对人脸表情的空间特征进行分类，得到第二人脸表情分类结果。

5.如权利要求3所述的基于深度时空网络决策融合的人脸表情识别方法，其特征在于，所述将四个子向量分别输入到四个双向长短时记忆网络BiLSTM中，分别提取人脸表情的局部时序特征，具体为：

将四个子向量各输入一个BiLSTM中，在BiLSTM的输出层得到眉毛、眼睛、鼻子和嘴巴的局部时序特征，分别对应为F_eb、F_ey、F_no和F_mo；

f_bt＝σ[w_bf(h_bt-1,x_bt)+b_bf] (1)

f_bt是遗忘门，通过sigmoid激活函数决定前一状态有多少信息需要丢失，w_bf是遗忘门的计算权重，b_bf表示遗忘门的计算偏置，x_bt是输入的向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果；

i_bt＝σ[w_bi(h_bt-1，x_bt)+b_bi] (2)

i_bt是输入门，决定了当前时间节点需要保留的信息，其中σ是sigmoid激活函数，tanh是双曲正切激活函数，w_bi是输入门的计算权重，b_bi表示输入门的计算偏置，x_bt是输入向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果；

是当前备选更新单元的计算权重，

o_bt＝σ[w_bo(h_bt-1，x_bt)+b_bo] (5)

c_bt是当前更新单元，获取了备选更新单元的可用信息，通过遗忘门f_bt获取了上一张图像c_bt-1的可用信息，并使用sigmoid激活函数来确定当前更新单元的输出，o_bt表示输出门，将o_bt控制的输出信息与经过tanh处理后的c_bt相乘，得到第t张输入图像的前向LSTM隐藏层输出

其中w_bo是输出门的计算权重，b_bo表示输出门的计算偏置，x_bt是输入向量，h_bt-1表示以第t-1张图像为输入的BiLSTM隐藏层输出结果，其后向隐藏层输出

的计算方式与前向相同；

合并BiLSTM前向和后向的隐藏层输出

和

得到涵盖前后向信息的BiLSTM隐藏层输出h_bt，将其作为局部时序特征F_eb；

6.如权利要求4所述的基于深度时空网络决策融合的人脸表情识别方法，其特征在于，利用SENet对浅层空间特征图分配通道权重，具体过程为：

步骤(1)：针对特征图U^A×B×G的每一个特征图通道g，计算一个聚合统计量V_g，其中g∈G，则V_g的计算公式为：

其中A和B表示每一个特征通道g中的二维特征图的维度长和宽，u_g(a，b)表示浅层特征图U中第g个二维特征矩阵；

步骤(2)：通过利用V_g中聚合的信息训练参数w，用于给特征图通道分配权重，每一个特征图通道g的权重计算量S_g的计算过程为：

S_g＝σ(w₂δ(w₁V_g)) (14)

其中，δ代表relu激活函数，

r是一个超参数；

步骤(3)：将步骤(2)中得到的特征图通道g的权重计算量S_g和原始空间特征图U_g相乘可得加权特征图f_s(g)，其公式为：

f_s(g)＝S_gU_g (15)；

步骤(4)：面部表情的空间特征F_S＝[f_s(1)，f_s(2)，...，f_s(G)]，

其中g∈G，f_s(g)表示第g个特征通道的二维特征图；

此时，F_S表示维度为A×B×G的加权空间特征。

7.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法，其特征在于，对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合的计算公式为：

Prediction(k)＝argmax(αP_T(k)+(1-α)P_S(k)) (18)。

8.一种基于深度时空网络决策融合的人脸表情识别***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。