CN112800894B

CN112800894B - 一种基于时空流间注意力机制的动态表情识别方法及***

Info

Publication number: CN112800894B
Application number: CN202110061153.7A
Authority: CN
Inventors: 卢官明; 陈浩侠; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2022-08-26
Anticipated expiration: 2041-01-18
Also published as: CN112800894A

Abstract

本发明公开了一种基于时空流间注意力机制的动态表情识别方法及***。该方法首先采集面部表***片段，建立包含表情类别标签的人脸表***库；然后构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型，该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层；接着使用人脸表***库中的视频样本训练该模型；最后利用训练好的模型，对新输入的视频进行人脸表情识别。该方法通过在双流卷积神经网络中嵌入时空流间注意力机制模块，能够实现空域特征和时域特征的信息交互，从而捕捉空域特征和时域特征之间的动态关联信息，获得鉴别能力强的特征，提升人脸表情识别的准确性和鲁棒性。

Description

一种基于时空流间注意力机制的动态表情识别方法及***

技术领域

本发明属于机器学习与模式识别领域，涉及一种动态表情识别方法及***，特别涉及一种基于时空流间注意力机制的动态表情识别方法及***。

背景技术

随着计算机技术和人工智能的高速发展，人机交互的方式不断改变，这使得人们越来越倾向于与计算机进行直接的交流。在人的交流过程中，了解对方的情感状态很有必要，而在人类情感暴露的过程中，面部表情约占55％的信息比重。所以，通过计算机识别人脸表情已经成为一个非常热门的话题。

人脸表情识别是一个从图像或视频中提取面部表情特征，根据特征信息来判断表情类别标签的过程。人脸表情识别是一个横跨神经科学、心理学、计算机科学等多领域的交叉学科，它的潜在应用包括远程教育、安全驾驶和服务机器人等存在情感人机交互需求的领域。比如，目前部分智能手机的相机使用了微笑表情触发自动拍照的功能，高端汽车使用摄像头监测驾驶员的情绪状态并采取相应的安全提示措施。人脸表情识别技术研究的深入和计算机识别能力的提高，必将大大提高人类的生活质量。

目前，该领域的研究很大一部分是针对一幅静态人脸图像进行的。换句话说，这些方法只能捕捉到人脸表情的空域信息，而忽略了表情随时间的变化，而这些时域信息可能包含了更多的表情特征。相比基于静止图像的表情识别方法，双流卷积神经网络能够对动态表情进行识别。该网络分别使用空间流支路和时间流支路对从视频中提取的单帧人脸图像和表示表情变化的堆叠光流图进行特征提取，可以同时获得面部表情的空域特征和时域特征，具有时空信息互补的效果。

类似于人脸识别，非受控自然环境下人脸表情识别受人脸的遮挡和姿态影响较大。为了缓解这些因素对人脸表情识别的影响，利用人脸局部信息是比较公认的有效策略。根据人类视觉***和认知过程的相关研究可知，人类视觉***在处理图像数据时会优先处理其中较为重要的显著性区域的信息，并选择性忽略非显著性区域。在人脸表情识别任务中引入注意力机制，可以使卷积神经网络自适应地为人脸图像中的显著性区域赋予较高的权重信息，使这些区域的信息对下一阶段学习更高层次的深层特征产生更大的影响，而弱化那些非显著性区域，从而进一步提高表情识别的准确度。但是，对于双流卷积神经网络来说，现有的技术仅局限于在空间流支路和时间流支路中分别引入注意力机制，这虽然能发挥注意力机制最基本的作用，但无法充分利用空间流支路和时间流支路的互补优势，达到两条支路之间信息交互的目的。

中国专利申请“一种基于注意力机制模块的人脸表情识别方法”(专利申请号CN202010783432.X，公开号CN111967359A)，通过将裁剪出来的人脸图像送入一种基于注意力机制模块的网络模型，得到人脸图像注意力特征，然后采用两个卷积层进行特征提取操作，得到人脸图像的特征图，再利用全局平均池化层进行特征降维，最后利用Softmax分类器对降维特征进行分类识别，输出人脸表情识别结果。该方法存在的问题是只能对一幅静态人脸图像进行识别，这忽略了人脸表情的时域信息，难以达到最好的识别效果。

中国专利申请“基于时空融合网络的面部表情识别方法”(专利申请号CN202010221398.7，公开号CN111709266A)，对输入视频序列预处理后，使用DMF模块提取面部表情的空域特征，使用LTCNN模块提取面部表情的时域特征，最后使用基于微调的融合策略将两个模块学习到的表情时空特征进行融合。该方法存在的问题是使用DMF模块提取面部表情的空域特征和使用LTCNN模块提取面部表情的时域特征是两个独立的过程，没有做到充分的信息交互，这可能会影响最后的识别效果。

发明内容

发明目的：针对双流卷积神经网络分别使用空间流支路和时间流支路提取面部表情的空域特征和时域特征的过程相对独立这个问题，本发明的目的是提供一种基于时空流间注意力机制的动态表情识别方法及***，通过在双流卷积神经网络中嵌入时空流间注意力机制模块，捕捉空域特征和时域特征中的动态关联信息，在空间流支路和时间流支路之间建立联系，进一步发挥空间流支路和时间流支路的互补作用，获得鉴别能力强的特征，提升人脸表情识别的准确性和鲁棒性。

技术方案：本发明为实现上述发明目的采用以下技术方案：

一种基于时空流间注意力机制的动态表情识别方法，包括以下步骤：

步骤1：采集面部表***片段，建立包含表情类别标签的人脸表***库；

步骤2：构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型，该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层；

所述数据处理层，用于对输入视频进行预处理，预处理过程包括：对视频进行分帧处理，从得到的图像中按时间顺序，提取一个长度为u帧的图像序列，u为设定的序列长度；对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐，并对处理后的每幅图像进行归一化，得到一个长度为u帧的人脸表情图像序列；从所述长度为u帧的人脸表情图像序列中随机选取一幅图像，作为该输入视频对应的单帧人脸图像；计算所述长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图，将所得光流图按时间顺序在通道维上堆叠，作为该输入视频对应的堆叠光流图；

所述空间流支路，包括多个卷积模块，该支路的输入为数据处理层输出的单帧人脸图像，用于提取面部表情的空域特征；

所述时间流支路，包括与空间流支路相同数量的卷积模块，该支路的输入为数据处理层输出的堆叠光流图，用于提取面部表情的时域特征；

所述时空流间注意力机制模块，嵌入于空间流支路和时间流支路的各个卷积模块之间，该模块的输入为双流卷积神经网络中上一层卷积模块的输出，该模块的输出为双流卷积神经网络中下一层卷积模块的输入，用于对空域特征和时域特征进行信息交互；所述时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵，然后分别计算空域特征图和时域特征图的映射矩阵，并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图，最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图，将时域残差特征图与输入的时域特征图相加，得到输出的时域特征图；

所述特征融合层，用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作，并将得到的两个特征向量拼接后输出一个特征向量；

所述全连接层，用于全连接特征融合层与分类层；

所述分类层，用于计算输入视频中的人脸表情属于各表情类别的概率；

步骤3：使用建立的人脸表***库中的视频样本对构建的网络模型进行训练；

步骤4：利用训练好的网络模型，对新输入的视频进行人脸表情识别。

进一步地，所述空间流支路，包括顺序连接的多个卷积模块；所述卷积模块，包含一个或多个卷积层以及一个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₁个k₁×k₁的卷积核对上一层的输出进行卷积运算，其中，m₁在32、64、128、256、512数值中选取，k₁在3、5、7数值中选取；池化层选用k₂×k₂的池化核对上一层卷积层的输出进行下采样操作，其中，k₂在1、2、3数值中选取。

进一步地，所述时间流支路，包括顺序连接的与空间流支路相同数量的卷积模块；所述卷积模块，包含一个或多个卷积层以及一个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₂个k₃×k₃的卷积核对上一层的输出进行卷积运算，其中，m₂在32、64、128、256、512数值中选取，k₃在3、5、7数值中选取；池化层选用k₄×k₄的池化核对上一层卷积层的输出进行下采样操作，其中，k₄在1、2、3数值中选取。

进一步地，所述时空流间注意力机制模块，分别用X_S和X_T表示该模块输入的空域特征图和时域特征图，X_S和X_T的大小分别为H_S×W_S×C_S和H_T×W_T×C_T，该模块的计算步骤包括：

(1)计算空域特征图X_S和时域特征图X_T的关联度权重矩阵F₁和F₂：分别选用C_O个1×1卷积核对空域特征图X_S和时域特征图X_T进行卷积运算，得到两个大小分别为H_S×W_S×C_O和H_T×W_T×C_O的特征图；通过维度变换将这两个特征图的大小分别调整为H_SW_S×C_O和C_O×H_TW_T，得到两个二维矩阵，并将这两个二维矩阵相乘，得到一个大小为H_SW_S×H_TW_T的矩阵F；对矩阵F的每一个行向量执行Softmax操作，得到关联度权重矩阵F₁，对矩阵F的每一个列向量执行Softmax操作，得到关联度权重矩阵F₂；

(2)计算空域特征图X_S的映射矩阵G_S：选用C_O个1×1卷积核对空域特征图X_S进行卷积运算，得到一个大小为H_S×W_S×C_O的特征图，通过维度变换将该特征图的大小调整为C_O×H_SW_S，得到X_S的映射矩阵G_S；

(3)计算时域特征图X_T的映射矩阵G_T：选用C_O个1×1卷积核对时域特征图X_T进行卷积运算，得到一个大小为H_T×W_T×C_O的特征图，通过维度变换将该特征图的大小调整为H_TW_T×C_O，得到X_T的映射矩阵G_T；

(4)计算空域残差特征图Y_S：将矩阵F₁和矩阵G_T相乘，得到一个大小为H_SW_S×C_O的矩阵，通过维度变换将该矩阵的大小调整为H_S×W_S×C_O，再选用C_S个1×1卷积核对其进行卷积运算，得到大小为H_S×W_S×C_S的空域残差特征图Y_S；

(5)计算时域残差特征图Y_T：将矩阵G_S和矩阵F₂相乘，得到一个大小为C_O×H_TW_T的矩阵，通过维度变换将该矩阵的大小调整为H_T×W_T×C_O，再选用C_T个1×1卷积核对其进行卷积运算，得到大小为H_T×W_T×C_T的时域残差特征图Y_T；

(6)计算该模块输出的空域特征图Z_S：使用残差连接，将空域残差特征图Y_S与该模块输入的空域特征图X_S相加，得到该模块输出的空域特征图Z_S；

(7)计算该模块输出的时域特征图Z_T：使用残差连接，将时域残差特征图Y_T与该模块输入的时域特征图X_T相加，得到该模块输出的时域特征图Z_T。

基于相同的发明构思，本发明公开的一种基于时空流间注意力机制的动态表情识别***，包括以下模块：

数据预处理模块，用于采集面部表***片段，建立包含表情类别标签的人脸表***库；

网络构建模块，构建嵌入时空流间注意力机制模块的双流卷积神经网络模型，该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层；

所述全连接层，用于全连接特征融合层与分类层；

网络训练模块，用于使用建立的人脸表***库中的视频样本对构建的网络模型进行训练；

以及表情识别模块，用于利用训练好的网络模型，对新输入的视频进行人脸表情识别。

基于相同的发明构思，本发明公开的一种基于时空流间注意力机制的动态表情识别***，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种基于时空流间注意力机制的动态表情识别方法。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)本发明构建了一种深度学习网络模型，不需要进行繁琐的人工特征提取和特征降维等操作，通过训练网络模型自适应地调整参数，可以自主提取能够反映视频样本中人脸表情的特征，提取到的特征可以更好地表征人脸表情的变化，相比于传统的人脸表情识别，具有更强的拟合能力。

(2)本发明采用双流卷积神经网络，分别使用空间流支路和时间流支路对从视频中提取的单帧人脸图像和表示表情变化的堆叠光流图进行特征提取，可以同时获得面部表情的空域特征和时域特征，这将特征提取从静态图像拓展到视频，在利用面部表情的空域信息外还充分捕捉了面部表情的时域信息，具有更强的表征能力和泛化能力。

(3)本发明通过在双流卷积神经网络中的各个卷积模块之间嵌入时空流间注意力机制模块，能够让模型中各个阶段的空域特征和时域特征进行信息交互，学习对方特征中和自己有关的信息，忽略和自己无关的信息，从而捕捉空域特征和时域特征之间的动态关联信息(比如，当一个人微笑时，从空间上看，他的嘴角上扬，眼角下拉，这会引起光流图中的两处光流朝两个方向变化)，进一步发挥空间流支路和时间流支路的互补作用，可以得到更具有区分度和代表性的特征。

(4)本发明将时空流间注意力机制模块嵌入于双流卷积神经网络的两条支路之间，不但能使网络自适应地为人脸图像或光流图中的显著性区域赋予较高的权重信息，使这些区域的信息对下一阶段学习更高层次的深层特征产生更大的影响，而弱化那些非显著性区域更加关注图像局部重点特征，又能在空间流支路和时间流支路之间建立联系，实现两条支路互相学习对方的局部重点特征，可以获得鉴别能力强的特征，提升人脸表情识别的准确性和鲁棒性。

附图说明

图1是本发明实施例的方法流程图；

图2是本发明实施例中使用的网络模型结构图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。

如图1所示，本发明实施例提供的一种基于时空流间注意力机制的动态表情识别方法，主要包括如下步骤：

步骤1：采集面部表***片段，建立包含表情类别标签的人脸表***库。

本实施例选用AFEW人脸表***库。AFEW人脸表***库中的视频样本出自不同电影，共包含1809个视频样本，每个视频样本中的人物面部对应一种表情类别，包括生气、害怕、厌恶、高兴、悲伤、惊讶和中性七种类别。在实际中，也可以采用其他的人脸表***库，或自行采集面部表***，建立包含人脸表情类别标签的人脸表***库。

步骤2：构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型，该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层。

数据处理层，用于对输入视频进行预处理，预处理过程包括：对视频进行分帧处理，从得到的图像中按时间顺序，提取一个长度为u帧的图像序列，u为设定的序列长度；对图像序列中的每幅图像进行人脸检测、裁剪与对齐，并对处理后的每幅图像进行归一化，得到一个长度为u帧的人脸表情图像序列；从长度为u帧的人脸表情图像序列中随机选取一幅图像，作为该输入视频对应的单帧人脸图像；计算长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图，将所得光流图按时间顺序在通道维上堆叠，作为该输入视频对应的堆叠光流图。

空间流支路，包括多个卷积模块，该支路的输入为数据处理层输出的单帧人脸图像，用于提取面部表情的空域特征；卷积模块包含一个或多个卷积层以及一个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₁个k₁×k₁的卷积核对上一层的输出进行卷积运算，其中，m₁在32、64、128、256、512数值中选取，k₁在3、5、7数值中选取；池化层选用k₂×k₂的池化核对上一层卷积层的输出进行下采样操作，其中，k₂在1、2、3数值中选取。

时间流支路，包括与空间流支路相同数量的卷积模块，该支路的输入为数据处理层输出的堆叠光流图，用于提取面部表情的时域特征。卷积模块包含一个或多个卷积层以及一个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₂个k₃×k₃的卷积核对上一层的输出进行卷积运算，其中，m₂在32、64、128、256、512数值中选取，k₃在3、5、7数值中选取；池化层选用k₄×k₄的池化核对上一层卷积层的输出进行下采样操作，其中，k₄在1、2、3数值中选取。

时空流间注意力机制模块，嵌入于空间流支路和时间流支路的各个卷积模块之间，该模块的输入为双流卷积神经网络中上一层卷积模块的输出，该模块的输出为双流卷积神经网络中下一层卷积模块的输入，用于对空域特征和时域特征进行信息交互；时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵，然后分别计算空域特征图和时域特征图的映射矩阵，并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图，最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图，将时域残差特征图与输入的时域特征图相加，得到输出的时域特征图。

特征融合层，用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作，并将得到的两个特征向量拼接后输出一个特征向量。

全连接层，用于全连接特征融合层与分类层。

分类层，用于计算输入视频中的人脸表情属于各表情类别的概率。

本实施例构建的一种基于时空流间注意力机制的动态表情识别网络模型，如图2所示，具体结构如下：

(1)数据处理层，首先使用FFmpeg软件将输入视频进行分帧处理，从得到的图像中按时间顺序，提取一个长度为9帧的图像序列；然后采用Dlib人脸检测算法对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐，并将处理后的每幅图像归一化为224×224像素，得到一个长度为9帧的人脸表情图像序列；接着从所述长度为9帧的人脸表情图像序列中随机选取一幅图像，作为该输入视频对应的单帧人脸图像；最后用TVL1算法计算所述长度为9帧的人脸表情图像序列中每两幅相邻图像之间的光流图，将所得光流图按时间顺序在通道维上堆叠，作为该输入视频对应的堆叠光流图；

(2)空间流支路和时间流支路，采用两种结构相同、参数不同的卷积神经网络，分别包括顺序连接的5个卷积模块：

卷积模块A和卷积模块A′：包括2个卷积层和1个池化层，2个卷积层均选用64个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为224×224×64的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为112×112×64的特征图；

卷积模块B和卷积模块B′：包括2个卷积层和1个池化层，2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为112×112×128的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为56×56×128的特征图；

卷积模块C和卷积模块C′：包括3个卷积层和1个池化层，3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为56×56×256的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为28×28×256的特征图；

卷积模块D和卷积模块D′：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为28×28×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为14×14×512的特征图；

卷积模块E和卷积模块E′：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为14×14×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为7×7×512的特征图，该特征图即为对应支路的输出特征图；

(3)时空流间注意力机制模块，嵌入于空间流支路和时间流支路的各个卷积模块之间，因为空间流支路和时间流支路的卷积模块各有5个，所以一共嵌入4个时空流间注意力机制模块，下面以时空流间注意力机制模块A为例说明实施细节：

时空流间注意力机制模块A的输入为卷积模块A输出的空域特征图X_S和卷积模块A′输出的时域特征图X_T，X_S和X_T的大小均为112×112×64，该模块的操作步骤包括：

计算空域特征图X_S和时域特征图X_T的关联度权重矩阵F₁和F₂：分别选用32个1×1卷积核对X_S和X_T进行卷积运算，得到两个大小均为112×112×32的特征图；通过维度变换将这两个特征图的大小分别调整为112²×32和32×112²，得到两个二维矩阵，并将这两个二维矩阵相乘，得到一个大小为112²×112²的矩阵F；对矩阵F的每一个行向量执行Softmax操作，得到关联度权重矩阵F₁，对矩阵F的每一个列向量执行Softmax操作，得到关联度权重矩阵F₂；

计算空域特征图X_S的映射矩阵G_S：选用32个1×1卷积核对空域特征图X_S进行卷积运算，得到一个大小为112×112×32的特征图，通过维度变换将该特征图的大小调整为32×112²，得到X_S的映射矩阵G_S；

计算时域特征图X_T的映射矩阵G_T：选用32个1×1卷积核对时域特征图X_T进行卷积运算，得到一个大小为112×112×32的特征图，通过维度变换将该特征图的大小调整为112²×32，得到X_T的映射矩阵G_T；

计算空域残差特征图Y_S：将矩阵F₁和矩阵G_T相乘，得到一个大小为112²×32的矩阵，通过维度变换将该矩阵的大小调整为112×112×32，再选用64个1×1卷积核对其进行卷积运算，得到大小为112×112×64的空域残差特征图Y_S；

计算时域残差特征图Y_T：将矩阵G_S和矩阵F₂相乘，得到一个大小为32×112²的矩阵，通过维度变换将该矩阵的大小调整为112×112×32，再选用64个1×1卷积核对其进行卷积运算，得到大小为112×112×64的时域残差特征图Y_T；

计算该模块输出的空域特征图Z_S：使用残差连接，将空域残差特征图Y_S与该模块输入的空域特征图X_S相加，得到该模块输出的空域特征图Z_S，其大小为112×112×64，是卷积模块B的输入；

计算该模块输出的时域特征图Z_T：使用残差连接，将时域残差特征图Y_T与该模块输入的时域特征图X_T相加，得到该模块输出的时域特征图Z_T，其大小为112×112×64，是卷积模块B′的输入；

同样地，时空流间注意力机制模块B的输入为卷积模块B和卷积模块B′输出的特征图，大小均为56×56×128；时空流间注意力机制模块C的输入为卷积模块C和卷积模块C′输出的特征图，大小均为28×28×256；时空流间注意力机制模块D的输入为卷积模块D和卷积模块D′输出的特征图，大小均为14×14×512；其他实施细节与上述说明类似；

(4)特征融合层，输入为空间流支路输出的空域特征图和时间流支路输出的时域特征图，大小均为7×7×512，分别对这两个特征图进行全局平均池化操作，得到两个512维的特征向量，将这两个特征向量拼接，输出一个1024维的特征向量；

(5)全连接层，包含256个神经元，用于全连接特征融合层与分类层；

(6)分类层，采用Softmax分类器，包含7个神经元，输出一个7维向量，该向量每个维度的数值就是输入视频中的人脸表情属于各表情类别的概率，数值最大的元素对应的表情类别就是该网络模型对输入视频的识别标签。

步骤3：使用建立的人脸表***库中的视频样本对构建的网络模型进行训练。

基于相同的发明构思，本发明实施例公开的一种基于时空流间注意力机制的动态表情识别***，包括：数据预处理模块，用于采集面部表***片段，建立包含表情类别标签的人脸表***库；网络构建模块，构建嵌入时空流间注意力机制模块的双流卷积神经网络模型，网络训练模块，用于使用建立的人脸表***库中的视频样本对构建的网络模型进行训练；以及表情识别模块，用于利用训练好的网络模型，对新输入的视频进行人脸表情识别。

其中所构建的嵌入时空流间注意力机制模块的双流卷积神经网络模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层；具体地：数据处理层，用于对输入视频进行预处理；空间流支路，包括多个卷积模块，该支路的输入为数据处理层输出的单帧人脸图像，用于提取面部表情的空域特征；时间流支路，包括与空间流支路相同数量的卷积模块，该支路的输入为数据处理层输出的堆叠光流图，用于提取面部表情的时域特征；时空流间注意力机制模块，嵌入于空间流支路和时间流支路的各个卷积模块之间，该模块的输入为双流卷积神经网络中上一层卷积模块的输出，该模块的输出为双流卷积神经网络中下一层卷积模块的输入，用于对空域特征和时域特征进行信息交互；特征融合层，用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作，并将得到的两个特征向量拼接后输出一个特征向量；全连接层，用于全连接特征融合层与分类层；分类层，用于计算输入视频中的人脸表情属于各表情类别的概率。

基于相同的发明构思，本发明实施例公开的一种基于时空流间注意力机制的动态表情识别***，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于时空流间注意力机制的动态表情识别方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于时空流间注意力机制的动态表情识别方法，其特征在于，该方法包括以下步骤：

所述全连接层，用于全连接特征融合层与分类层；

2.根据权利要求1所述的一种基于时空流间注意力机制的动态表情识别方法，其特征在于，所述空间流支路，包括顺序连接的多个卷积模块；

所述卷积模块，包含一个或多个卷积层以及一个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₁个k₁×k₁的卷积核对上一层的输出进行卷积运算，其中，m₁在32、64、128、256、512数值中选取，k₁在3、5、7数值中选取；池化层选用k₂×k₂的池化核对上一层卷积层的输出进行下采样操作，其中，k₂在1、2、3数值中选取。

3.根据权利要求1所述的一种基于时空流间注意力机制的动态表情识别方法，其特征在于，所述时间流支路，包括顺序连接的与空间流支路相同数量的卷积模块；

所述卷积模块，包含一个或多个卷积层以及一个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₂个k₃×k₃的卷积核对上一层的输出进行卷积运算，其中，m₂在32、64、128、256、512数值中选取，k₃在3、5、7数值中选取；池化层选用k₄×k₄的池化核对上一层卷积层的输出进行下采样操作，其中，k₄在1、2、3数值中选取。

4.根据权利要求1所述的一种基于时空流间注意力机制的动态表情识别方法，其特征在于，所述时空流间注意力机制模块，分别用X_S和X_T表示该模块输入的空域特征图和时域特征图，X_S和X_T的大小分别为H_S×W_S×C_S和H_T×W_T×C_T，该模块的计算步骤包括：

5.一种基于时空流间注意力机制的动态表情识别***，其特征在于，该***包括以下模块：

所述全连接层，用于全连接特征融合层与分类层；

6.一种基于时空流间注意力机制的动态表情识别***，其特征在于，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的一种基于时空流间注意力机制的动态表情识别方法。