CN114360005B

CN114360005B - 一种基于AU区域和多层级Transformer融合模块的微表情分类方法

Info

Publication number: CN114360005B
Application number: CN202111530676.8A
Authority: CN
Inventors: 何双江; 项金桥; 赵俭辉; 董喆; 王斑; 曹洪斌; 张珣; 赵慧娟; 翟芷君; 靖娟
Original assignee: Huangshi People's Procuratorate Of Hubei Province; Wuhan Fiberhome Information Integration Technologies Co ltd
Current assignee: Huangshi People's Procuratorate Of Hubei Province; Wuhan Fiberhome Information Integration Technologies Co ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2024-03-22
Anticipated expiration: 2041-12-14
Also published as: CN114360005A

Abstract

本发明提供一种基于AU区域和多层级Transformer融合模块的微表情分类方法，建立微表情分类网络，分层级进行嵌入向量的学***均，得到融合后的嵌入向量。

Description

一种基于AU区域和多层级Transformer融合模块的微表情分类方法

技术领域

本发明属于机器学习中深度学习技术领域，具体是涉及一种基于AU区域和多层级Transformer融合模块的微表情分类方法。

背景技术

目前，用于序列帧分类的主流深度学习网络分为两大类：

第一大类是使用2D卷积与时间序列网络的组合，对图像序列中的各帧依次进行空间特征提取和时间特征提取。时间序列网络主要使用RNN/LSTM系列的网络，如近年提出的用于微表情分类的ELRCN网络(文献1)，其实验结果表明时间和空间特征在微表情识别中发挥着不同的作用，而好的识别效果依赖于二者的有效结合。

第二大类是使用3D卷积网络，同时对图像序列所有帧的图像进行特征提取和分类。3D卷积网络主要用于动作识别领域，由于动态表情分类与动作识别任务具有较高相似性，也有优秀的研究者将其应用于微表情图像序列的学习和分类，如3D-FCNN网络(文献2)，通过对2D卷积层扩展深度维，同时兼顾了空间域和时间域的特征提取，达到了较高精度。

但是时间序列网络需要逐步递归才能获取全局信息，且下一时刻信息要依赖于前面时刻的信息，即存在序列依赖关系，因此该系列网络的并行计算能力很差。而3D卷积网络虽然易于并行，但只能获取局部信息，通过叠加卷积层数来增大感受野，学习长依赖的能力较弱。

相关文献：

【文献1】H.Khor,J.See,R.C.Phan,W.Lin,“Enriched Long-term RecurrentConvolutional Network for Facial Micro-Expression Recognition,”Proceedings ofthe 2018International Conference on Automatic Face&Gesture Recognition(FG),2018,pp.667–674.

【文献2】J.Li,Y.Wang,J.See,W.Liu,“Micro-expression recognition based on3D flow convolutional neural network,”Pattern Analysis and Applications,2019,pp.1331–1339.

发明内容

针对现有微表情识别方法存在的上述不足，本发明以深度学习为基础，提出一种基于AU区域和多层级Transformer融合模块的微表情分类网络，以Transformer的基本模块学习表情图像序列的空间特征和时序特征，同时通过划分AU区域使网络的低层可以专注于不同AU特征的提取。并还提出一种Fusion模块，反向利用Attention机制计算每个嵌入向量在序列中的重要程度，将注意力信息引入融合过程。

本发明采用的技术方案为一种基于AU区域和多层级Transformer融合模块的微表情分类方法，建立微表情分类网络，以分层级进行嵌入向量的学习和融合，对最终得到的样本嵌入向量进行分类；设输入样本为t帧表情图像序列，实现过程如下，

(1)AU区域划分，包括先检测样本起始帧中的landmark点，以确定脸部特征的位置，根据预先定义的AU区域划分方式以及landmark点的位置提取出N个AU区域；所述AU表示人脸运动单元，landmark点表示人类特征点；N为预设的数值；

(2)生成嵌入向量，包括对每个AU区域，将其分成M×M个图像块，每个图像块经过Embedding层转换为一个嵌入向量；所述Embedding层为向量嵌入层；M为预设的数值；

(3)第一层级融合，包括对每个AU区域的M×M嵌入向量，通过Local Attn.模块和相应Fusion层模块进行学习和融合，得到一个包含AU区域特征的局部嵌入向量；所述LocalAttn.模块为局部注意力模块，Fusion层模块为向量融合层模块；

(4)第二层级融合，包括对每一帧的N个局部嵌入向量，通过Space Attn.模块和相应Fusion层模块进行学习和融合，得到一个包含该帧表情图像特征的全局嵌入向量；所述Space Attn.模块为空间注意力模块，Fusion层模块为向量融合层模块；

(5)第三层级融合，包括对每个样本的t个全局嵌入向量，通过Time Attn.模块和相应Fusion层模块进行学习和融合，得到一个包含该样本表情空间特征和时序特征的样本嵌入向量；所述Time Attn.模块为时序注意力模块，Fusion层模块为向量融合层模块；

(6)微表情分类，包括通过全连接层对最终输出的样本嵌入向量进行分类，得到预测结果；

每个Local Attn.模块、Space Attn.模块和Time Attn.模块分别由两个Transformer基本模块堆叠组成，

每个Fusion层模块中，反向利用Attention机制计算每个嵌入向量在序列中受重视的程度，以此为权重对不同嵌入向量的值向量进行加权平均，得到融合后的嵌入向量。

而且，所述Fusion层模块中，反向利用Transformer中Attention机制，用其他向量的查询向量点乘当前向量的键向量，以表示其他向量在编码过程中有多重视当前向量，取均值得到每个嵌入向量在序列中的重要程度；将所有嵌入向量的重要程度值经过缩放和softmax函数得到概率序列，以此为权重对不同嵌入向量的值向量进行加权平均，得到融合后的嵌入向量。

而且，所述的Transformer基本模块中，使用Transformer网络架构中的多头注意力层、全连接层和归一化层学习嵌入向量中所包含的特征信息，以及建模不同嵌入向量之间的依赖关系。

而且，N的取值为9。

而且，M的取值为5。

与现有技术相比，本发明具有以下优点和积极效果：

(1)本发明提出的AU区域划分方法可以让分类网络的低层专注于不同AU特征的提取，更有针对性地对嵌入向量进行编码和融合。从而使分类网络的高层可以根据不同AU区域的特征信息对微表情的类别进行分类。

(2)本发明提出的Fusion模块可以将注意力信息用于指导嵌入向量的融合，使得在序列中更受重视的嵌入向量在融合过程中发挥更大作用。

(3)本发明使用Transformer基本模块，可以更好地学习全局信息，建模长依赖，同时易于并行计算。

(4)本发明使用多层级学习和融合的方式，使Transformer模块逐步扩大感受野，在建模全局信息的同时关注局部特征，缓解过拟合现象。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步解释，示意图及其说明并不构成对本申请的不当限定。

图1是本发明实施例提出的基于AU区域和多层级Transformer融合模块的微表情分类网络的整体模块示意图；

图2是本发明实施例提出的基于AU区域和多层级Transformer融合模块的微表情分类网络的流程结构示意图；

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。需要理解的是，此处所描述的具体实施方式仅仅用于说明或解释本发明，不用于限制本发明。

本发明提供一种基于AU区域和多层级Transformer融合模块的微表情分类方法，建立微表情分类网络分层级进行嵌入向量的学***均，得到融合后的向量。

所述的微表情分类网络，第一层级的融合对象是根据人脸的landmark点裁剪出的N个AU区域，各个AU区域通过不同的局部模块分别进行学习和融合，对每一帧表情图像都得到N个包含AU区域特征的局部嵌入向量；第二层级的融合对象是第一层级融合后得到的局部嵌入向量，融合后得到t(每个表情序列所包含的帧数)个包含各帧表情图像特征的全局嵌入向量；第三层级的融合对象是第二层级融合后得到的t个全局嵌入向量，融合后得到1个包含整个表情图像序列特征的、用于分类的样本嵌入向量。具体实施时，N的取值可预先设定，实施例中优选设置为9。

所述的微表情分类网络中，对于嵌入向量的融合，该网络使用一种新的Fusion层模块，反向利用Transformer中Attention层的思路，用其他向量的查询向量点乘当前向量的键向量，以表示其他向量在编码过程中有多重视当前向量，取均值得到每个嵌入向量在序列中的重要程度。将所有嵌入向量的重要程度值经过缩放和softmax函数得到概率序列，以此为权重对不同嵌入向量的值向量进行加权平均，得到融合后的嵌入向量。

所述的微表情分类网络中，对于嵌入向量的学习，该网络使用Transformer的基本模块，包括多头注意力(Multi-head Attention)层、全连接层和归一化层。

可以认为，本发明提供的一种基于AU区域和多层级Transformer融合模块的微表情分类网络，包括AU区域划分模块、Transformer基本模块和Fusion层模块。其中：

所述的AU区域划分模块中，本发明根据表情图像中人脸的landmark特征点划分出N个AU区域，每个AU区域通过不同的局部模块分别进行第一层级的学习和融合，得到包含该AU区域特征信息的局部嵌入向量。

所述的Transformer基本模块中，本发明使用现有的Transformer(A.Dosovitskiy,L.Beyer,A.Kolesnikov,D.Weissenborn and N.Houlsby，“An image isworth 16x16 words:transformers for image recognition at scale，”In ICLR,2020.)网络架构中的多头注意力层、全连接层和归一化层学习嵌入向量中所包含的特征信息，以及建模不同嵌入向量之间的依赖关系。具体实施时，可以基于现有的Transformer编码器架构，以与其相同的方式连接多头注意力层、全连接层和归一化层，学习嵌入向量中所包含的特征信息，以及建模不同嵌入向量之间的依赖关系，但是不使用原Transformer编码器中的skip connection(残差连接)，以减缓过拟合程度。

所述的Fusion层模块中，本发明反向利用Attention机制计算每个嵌入向量在序列中受重视的程度，以此为权重对不同嵌入向量的值向量进行加权平均，得到融合后的嵌入向量。

如图1所示，本发明实施例提供基于AU区域和多层级Transformer融合模块的微表情分类网络的整体模块示意图，其中Embedding、Local Attn.、Space Attn.、Time Attn.和Fusion为各个模块的名称，分别表示向量嵌入层、局部注意力模块、空间注意力模块、时序注意力模块和向量融合层模块。每个注意力模块(包括局部注意力模块、空间注意力模块和时序注意力模块)都由两个Transformer基本模块堆叠组成，即两个Transformer基本模块顺序连接。

实施例中，输入样本为t帧表情图像序列，基于微表情分类网络的主要处理流程如下：

(1)AU区域划分：先使用dlib库检测样本起始帧中的68个landmark(人脸特征)点，以确定脸部特征(眼睛、眉毛、鼻子、嘴巴、脸部外轮廓)的位置。

根据预先定义的AU(人脸运动单元)区域划分方式以及样本起始帧中landmark点的位置提取出9个AU区域。具体实施时，可预先定义一个AU区域是由哪些landmark点围成的，再根据样本起始帧的landmark点的具***置裁剪出这个区域。例如，选取的第一个AU区域是由landmark点17、18、19、20、21、39、40、41、36所围成的多边形的外接矩形，将左边眼睛周围的人脸部分包围在内。

表情图像序列中后续帧的AU区域采用同样的位置划分。

(2)生成嵌入向量：对每个AU区域，将其分成M×M个图像块，每个图像块经过Embedding层转换为一个嵌入向量。M为预设的数值，具体实施时，优选取5×5。

(3)第一层级融合：对每个AU区域的25个嵌入向量，通过Local Attn.模块和相应Fusion层模块进行学习和融合，得到一个包含AU区域特征的局部嵌入向量。

(4)第二层级融合：对每一帧的9个局部嵌入向量，通过Space Attn.模块和相应Fusion层模块进行学习和融合，得到一个包含该帧表情图像特征的全局嵌入向量。

(5)第三层级融合：对每个样本的t个全局嵌入向量，通过Time Attn.模块和相应Fusion层模块进行学习和融合，得到一个包含该样本表情空间特征和时序特征的样本嵌入向量。

(6)微表情分类：通过全连接层对最终输出的样本嵌入向量进行分类，得到预测结果。

如图2所示，本发明提供基于AU区域和Transformer基本模块的微表情分类网络的流程结构示意图。该网络首先根据人脸的landmark点裁剪出的9个AU区域，然后分层级进行嵌入向量的学习和融合。第一层级的融合对象是各个AU区域，这一层级包含9个LocalAttn.模块和9个Fusion模块，分别构成9条独立的路径，第k个AU区域通过第k条路径进行学习和融合，得到包含AU区域特征的局部嵌入向量，k＝1,2,…9，图2中Local Attn.[i]、Fusion[i]和LocalAttn.[j]、Fusion[j]分别表示9条独立路径中的第i条和第j条路径上的模块；第二层级的融合对象是第一层级融合后得到的9个局部嵌入向量，这一层级包含1个SpaceAttn.模块和1个Fusion模块，不同帧通过同一条路径进行学习和融合，得到包含各帧表情图像特征的全局嵌入向量；第三层级的融合对象是第二层级融合后得到的t个全局嵌入向量，这一层级包含1个TimeAttn.模块和1个Fusion模块，不同样本通过同一条路径进行学习和融合，得到包含整个表情图像序列特征的样本嵌入向量。最后，该网络对所生成的样本嵌入向量进行表情分类。

本发明中的Fusion模块反向利用经典Transformer中的Attention机制。对于每一个嵌入向量，将其与训练好的权重矩阵W^Q，W^K，W^V点乘，得到3个向量，分别为查询向量，键向量和值向量。在原Attention层中是用当前向量的查询向量分别点乘其他向量的键向量，以反映当前向量的编码有多重视其他的向量，而在本发明中则相反，用其他向量的查询向量点乘当前向量的键向量，取均值，该分数反映了在编码其他向量的过程中有多重视当前向量。对所有嵌入向量分别计算得到相应分数后，将它们除以缩放向量并通过sofimax函数得到概率序列。分数越高，代表该向量在整个输入序列中越重要，通过sofimax函数后得到的概率值也越大。以概率序列为权重对所有嵌入向量的值向量加权求和，即得到一个融合后的嵌入向量。令D为嵌入向量的维数，h为多头注意力层中的头数，则每个头计算的维数d＝D/h，将待融合嵌入向量的查询向量、键向量和值向量分别合并为矩阵Q、K和V，融合后的嵌入向量可以通过以下公式得到：

Fusion(Q，K，V)＝Concat(head₁，…，head_h)，

其中，avg()函数计算矩阵中每一列的平均值，Q_i、K_i、V_i表示矩阵Q、K、V中嵌入向量维度的第i部分(共h个部分，i＝1，2，...h)，headi表示在多头注意力机制中对第i个头的部分计算得到的融合结果，Fusion(Q，K，V)表示根据矩阵Q、K、V进行融合得到整体结果向量，Concat()表示将多个向量连接为一个整体向量，softmax()表示归一化指数函数，上标T表示对矩阵的转置。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于AU区域和多层级Transformer融合模块的微表情分类方法，其特征在于：建立微表情分类网络，以分层级进行嵌入向量的学习和融合，对最终得到的样本嵌入向量进行分类；设输入样本为t帧表情图像序列，实现过程如下，

每个Local Attn.模块、Space Attn.模块和Time Attn.模块分别由两个Transformer基本模块堆叠组成；

2.根据权利要求1所述基于AU区域和多层级Transformer融合模块的微表情分类方法，其特征在于：所述Fusion层模块中，反向利用Transformer中Attention机制，用其他向量的查询向量点乘当前向量的键向量，以表示其他向量在编码过程中有多重视当前向量，取均值得到每个嵌入向量在序列中的重要程度；将所有嵌入向量的重要程度值经过缩放和softmax函数得到概率序列，以此为权重对不同嵌入向量的值向量进行加权平均，得到融合后的嵌入向量。

3.根据权利要求1所述基于AU区域和多层级Transformer融合模块的微表情分类方法，其特征在于：所述的Transformer基本模块中，使用Transformer网络架构中的多头注意力层、全连接层和归一化层学习嵌入向量中所包含的特征信息，以及建模不同嵌入向量之间的依赖关系。

4.根据权利要求1或2或3所述基于AU区域和多层级Transformer融合模块的微表情分类方法，其特征在于：N的取值为9。

5.根据权利要求1或2或3所述基于AU区域和多层级Transformer融合模块的微表情分类方法，其特征在于：M的取值为5。

6.根据权利要求4所述基于AU区域和多层级Transformer融合模块的微表情分类方法，其特征在于：M的取值为5。