CN113963421A

CN113963421A - 基于混合特征增强网络的动态序列非约束表情识别方法

Info

Publication number: CN113963421A
Application number: CN202111354855.0A
Authority: CN
Inventors: 童莹
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-01-21
Anticipated expiration: 2041-11-16
Also published as: CN113963421B

Abstract

本发明公开了基于混合特征增强网络的动态序列非约束表情识别方法，涉及面部表情识别技术领域，包括如下步骤，步骤1、对人脸表***数据进行人脸检测，截取人脸ROI区域，去除背景干扰，得到动态序列人脸表情数据；步骤2、将动态序列人脸表情数据以N帧为一组的分为多组序列，并对多组序列进行分析，提取它们的表情特征，且每组序列之间有N/2帧图像重叠；步骤3、将每组的N帧图像顺序输入单帧特征增强CNN网络和多帧特征增强自注意网络，得到N个2048维特征向量。本发明有效提高了动态序列面部表情特征的判别能力，缩小了非约束表情数据的类内差距；本发明提出的浅层特征增强模块通过增加网络宽度提高表情特征的判别能力，而且有效降低了计算复杂度。

Description

基于混合特征增强网络的动态序列非约束表情识别方法

技术领域

本发明涉及面部表情识别技术领域，特别是涉及基于混合特征增强网络的动态序列非约束表情识别方法。

背景技术

近年来随着人脸表情识别在实际应用中的需求越来越广泛，研究对象逐渐从实验室约束表情识别转向真实非约束表情识别，经历了从实验室摆拍到真实自发表达，从长时间持续的夸张表情到瞬时出现的微表情，从基础表情分类到复杂表情分析的巨大变化。这导致传统的人脸表情识别方法已不能胜任，具有强大学习能力的深度非约束表情识别网络快速发展，并取得了令人瞩目的效果。

现有的深度非约束表情识别网络主要分为两大类：基于静态图片的识别网络和基于动态序列的识别网络。相比于静态识别网络，基于动态序列的深度非约束表情识别网络能够实时的、更加精确地捕获人类情绪状态所映射的面部表情变化信息，具有更加广泛的应有前景和实用价值。

但在实际应用中，由于真实自发表情的复杂性，年龄、性别、种族等个体属性的差异性，以及光照、姿态、遮挡等非约束环境影响，采集的面部动态表情数据量少、数据标准难、质量参差不齐，这些因素均导致现有的动态非约束表情识别***远未达到实用化程度，***性能仍有很大提升空间。

发明内容

本发明的主要目的是为了提供基于混合特征增强网络的动态序列非约束表情识别方法，从单帧和多帧两个角度分别进行特征增强，用以克服真实人脸表情数据中的个体属性差异和非约束环境干扰，达到减少数据类内差距，提高非约束表情特征判别能力的目的。

本发明的目的可以通过采用如下技术方案达到：

基于混合特征增强网络的动态序列非约束表情识别方法，包括如下步骤

步骤1、对人脸表***数据进行人脸检测，截取人脸ROI区域，去除背景干扰，得到动态序列人脸表情数据；

步骤2、将动态序列人脸表情数据以N帧为一组的分为多组序列，并对多组序列进行分析，提取它们的表情特征，且每组序列之间有N/2帧图像重叠；

步骤3、将每组的N帧图像顺序输入单帧特征增强CNN网络和多帧特征增强自注意网络，得到N个2048维特征向量；

步骤4、将N个2048维特征向量相加，得到最终的2048维人脸表情深层特征，再经过两层全连接层将其映射到样本标记空间，实现面部表情分类；

步骤5、计算出同一个视频的多组序列所属表情的概率值，其中最大平均概率值对应的表情类别即为最终的识别标签；

步骤3中的单帧特征增强CNN网络采用VGG16网络作为单帧特征增强CNN网络的骨干网络，所述VGG16网络上设有浅层特征增强模块以及深层特征增强模块，且所述浅层特征增强模块和深层特征增强模块各自输出的特征相融合，用于获取不同层次的人脸表情空间信息；

所述浅层特征增强模块包括有并行使用的2个1*1卷积模块和2个3*3卷积模块。

优选的，步骤3具体包括

步骤3.1、向单帧特征增强CNN网络连续输入N帧图像，得到该N帧图像对应的特征向量x₁,x₂,...,x_N，且每个特征向量的维度为2048；

步骤3.2、将N帧图像对应的特征向量x₁,x₂,...,x_N同时输入多帧特征增强自注意网络，得到具有差异性的显著特征x₁ ^*,x₂ ^*,...,x_N ^*。

优选的，所述VGG16网络包括有依次分布的2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块；

所述单帧特征增强CNN网络的处理步骤包括

步骤Ⅰ、输入尺寸为224*224*3的人脸表情图像；

步骤Ⅱ、上述图像依次经过2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块，得到14*14*512大小的特征矩阵；

步骤Ⅲ、所述特征矩阵经过所述深层特征增强模块后，输出1*1*1024大小的深层语义增强特征；

步骤Ⅳ、在VGG16网络的3组3*3*256卷积模块后引出一条浅层特征增强支路，用于输出浅层增强特征，其输出的浅层增强特征与所述深层语义增强特征相拼接，得到最终的人脸表情特征向量，

所述人脸表情特征向量用于描述动态序列中每帧图像的面部表情空间信息，尺寸为1*1*2048。

优选的，所述多帧特征增强自注意网络的处理步骤包括

将单帧特征增强CNN网络输出的连续N帧图像的人脸表情特征表示为矩阵形式

大小为N*2048，采用Q＝W_qX，K＝W_kX，V＝W_vX，计算Q、K、V，即自注意机制的查询Query、键Key、值Value，得到

其中，W为不同的网络权值矩阵，大小为N*N，上述N＝10；

通过S*【QK^T】得到注意力权值大小，其中S是一个另外设置的一个超参数，用于抑制注意力权值大小，其中T表示矩阵转置运算，

QK^T描述了输入特征矩阵X中每帧特征向量间的相关性，即注意力权值矩阵，其中α是q向量和k向量相乘得到的数值，

使用Softmax函数将QK^T中每一行注意力权重归一化为0到1之间，再与V相乘，得到差异性的显著特征矩阵，公式如下，

这里α_ki为QK^T中任一数值，_αkj是矩阵中第k行，第j列的数值。

优选的，所述K、V、Q均是N*2048的权值矩阵，S设置为0.1，用于抑制注意力权重。

优选的，步骤4中所述2048维人脸表情深层特征经过两层全连接层之间还依次经过BN批标准化运算、ReLU激活函数运算和DropOut运算；

所述单帧特征增强CNN网络的每个卷积模块均依次进行卷积运算、BN批标准化运算、ReLU激活函数运算和Max pooling最大池化四种运算。

优选的，所述步骤3中的深层特征增强模块具有3*3*1024卷积模块，所述深层特征增强模块的3*3*1024卷积模块用于输出7*7*1024特征矩阵，

所述深层特征增强模块的3*3*1024卷积模块包含有卷积运算、BN批标准化运算、ReLU激活运算和Maxpooling最大池化四种运算，

所述7*7*1024特征矩阵经过全局平均池化(GAP)运算，得到1*1*1024的特征向量。

优选的，所述步骤3中使用两层全连接层(FC)以及ReLU激活函数和Sigmoid激活函数，得到1024个特征通道的权值，并将其与GAP输出特征向量相乘，用于根据特征通道重要程度赋予不同权值，并提高深度语义表情特征的准确性。

S＝F_ex(Z,W)＝σ(W₂δ(W₁Z)) (2)

F_scale(z_k,s_k)＝s_k·z_k(k＝1,2,..,C) (3)

步骤3具体还包括如下

①.求出输入特征张量U∈R^H*W*C的每个通道的全局平均值，计算公式如式(1)所示；

其中，H和M为特征张量的长和宽，C为特征张量的通道数，U_k为特征张量U的第k个通道特征图，z_k为U_k的全局平均值；

计算所有通道的全局平均值，得到平均向量Z＝[z₁,z₂,...,z_C]；

在深层特征增强模块中，式(1)用GAP模块实现；

②.分析特征通道的重要性并求其权值，计算公式如式(2)所示；首先用权值矩阵

对平均向量Z∈R^C×1进行降维运算，r为下降系数；

其次用δ(·)函数对W₁Z进行非线性运算；

然后再用权值矩阵

进行升维运算；

最后带入σ(·)函数计算得到权值向量S＝[s₁,s₂,...,s_C]；

③将平均向量Z的每个全局平均值z_k乘以对应的权值s_k，用以突出深度语义表情特征中的重要信息，提高判别能力，计算公式如式(3)所示。

本发明的有益技术效果：

本发明有效提高了动态序列面部表情特征的判别能力，缩小了非约束表情数据的类内差距。

本发明提出的浅层特征增强模块通过增加网络宽度提高表情特征的判别能力，而且有效降低了计算复杂度；

用多帧特征增强自注意网络代替多层LSTM网络，既可以有效避免因LSTM网络层数增加而造成的梯度消失问题，加速网络训练，又可以采用自注意力机制学习序列间的面部纹理变化信息，更加准确提取人脸表情显著特征。

本发明在四个公开数据集：CK+、AFEW7.0、FER2103、SFEW2.0上进行实验仿真，人脸表情的识别准确率均有显著提升；同时，本发明也大大降低了网络计算参数量，相比传统CNN-LSTM网络，本发明的训练时间显著减少。

本发明中从单帧和多帧两个角度分别进行特征增强，用以克服真实人脸表情数据中的个体属性差异和非约束环境干扰，达到减少数据类内差距，提高非约束表情特征判别能力的目的，为深度动态非约束表情识别网络的实用化发展提供理论指导和技术支持。

附图说明

图1为按照本发明的实施例的混合特征增强网络结构示意图；

图2为按照本发明的实施例的单帧特征增强CNN网络结构示意图；

图3为按照本发明的实施例的浅层特征增强模块结构示意图；

图4为按照本发明的实施例的深层特征增强模块结构结构示意图；

图5为按照本发明的实施例的压缩-激励工作原理示意图；

图6为按照本发明的实施例的自注意力机制模块示意图；

图7为按照本发明的实施例的数据库中部分样本示意图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1-图6所示，本实施例提供的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：包括如下步骤

步骤2、将动态序列人脸表情数据以N帧为一组的分为多组序列，并对多组序列进行分析，提取它们的表情特征，且每组序列之间有N/2帧图像重叠，重叠的效果为：一方面可以扩充样本的数据量，另一方面也可以避免因视频分组而造成的信息损失；

步骤3中的单帧特征增强CNN网络采用VGG16网络作为单帧特征增强CNN网络的骨干网络，VGG16网络上设有浅层特征增强模块以及深层特征增强模块，且浅层特征增强模块和深层特征增强模块各自输出的特征相融合，用于获取不同层次的人脸表情空间信息；

浅层特征增强模块包括有并行使用的2个1*1卷积模块和2个3*3卷积模块，增加了特征提取的多样性，提高了浅层表情特征的判别能力，上述中每个卷积模块也依次进行卷积运算、BN批标准运算、ReLU激活运算和Max pooling最大池四种运算，如图3所示，模块上方数值为该模块输出矩阵大小。

本实施例中，对比传统卷积模块的运算量，这里用传统7*7*1024卷积模块替换图3中虚线内运算模块，7*7*1024卷积模块的FLOPs参数量为7*7*256*56*56*1024，而本发明的FLOPs参数量为1*1*256*56*56*256*2+3*3*256*56*56*256*2，仅为7*7*1024卷积模块的10％，提高了模型运算效率，降低了训练时间。

在本实施例中，考虑真实环境采集的动态序列面部表情数据较少，使用DropOut随机“灭活”特征值(随机将输入的特征值中一定概率的特征值置零)，防止模型过拟合；Drop是一种强有力的网络优化方法，可视为特殊的正则化方法，防止网络训练过拟合。

在本实施例中，如图1所示，步骤3具体包括

步骤3.1、向单帧特征增强CNN网络连续输入10帧图像，得到该10帧图像对应的特征向量x₁,x₂,...,x₁₀，且每个特征向量的维度为2048；N可表示任意整数，范围1～视频总帧数，这里取10；

步骤3.2、将N帧图像对应的特征向量x₁,x₂,...,x₁₀同时输入多帧特征增强自注意网络，得到具有差异性的显著特征x₁ ^*,x₂ ^*,...,x₁₀ ^*。

在本实施例中，如图1所示，VGG16网络包括有依次分布的2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块；

单帧特征增强CNN网络的处理步骤包括

步骤Ⅰ、输入尺寸为224*224*3的人脸表情图像，尺寸为224*224且具有3个通道RGB的图像；

步骤Ⅱ、上述图像依次经过2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块，得到14*14*512大小的特征矩阵，如图2所示，图中每个卷积模块依次包含卷积运算、BN批标准化运算、ReLU激活运算和Maxpooling最大池化四种运算；以3*3,64为例，3*3表示卷积核的大小，64表示输出特征图的通道数；Maxpooling最大池化运算则会将图像尺寸缩小一半，所以经过上述卷积运算后，最后输出的特征图尺寸是14*14*512；

步骤Ⅲ、特征矩阵经过深层特征增强模块后，输出1*1*1024大小的深层语义增强特征，如图4所示；

步骤Ⅳ、在VGG16网络的3组3*3*256卷积模块后引出一条浅层特征增强支路，浅层特征增强支路输出的浅层增强特征与深层语义增强特征相拼接，得到最终的人脸表情特征向量，

人脸表情特征向量用于描述动态序列中每帧图像的面部表情空间信息，尺寸为1*1*2048。

在本实施例中，如图1所示，多帧特征增强自注意网络的处理步骤包括

K、V、Q均是N*2048的权值矩阵，其中，W为不同的权值矩阵，大小为N*N，本发明中N＝10；

通过S*【QK^T】得到注意力权值大小，T表示矩阵转置运算，其中S是一个另外设置的一个超参数，用于抑制注意力权值大小，可设置为0.1，

QK^T描述了输入特征矩阵X中每帧特征向量间的相关性，即注意力权值矩阵，其中α是q向量和k向量相乘得到的数值；

使用Softmax函数将注意力权重归一化为0到1之间，再与V相乘，得到差异性的显著特征矩阵X^*，公式如下：

这里α_ki为QK^T中任一数值，s_ki为将注意力权重归一化为0到1之间的运算，α_kj是矩阵中第k行，第j列的数值。

在本实施例中，如图1所示，步骤4中2048维人脸表情深层特征经过两层全连接层之间还依次经过BN批标准化运算、ReLU激活函数运算和DropOut运算；

如图2所示，单帧特征增强CNN网络的每个卷积模块均依次进行卷积运算、BN批标准化运算、ReLU激活函数运算和Max pooling最大池化四种运算；图中模块下方数值表示该模块重复次数，上方数值为该模块输出矩阵大小。

在本实施例中，如图4所示，步骤3中的深层特征增强模块具有3*3*1024卷积模块，深层特征增强模块的3*3*1024卷积模块用于输出7*7*1024特征矩阵，

深层特征增强模块的3*3*1024卷积模块包含有卷积运算、BN批标准化运算、ReLU激活运算和Maxpooling最大池化四种运算，

7*7*1024特征矩阵经过全局平均池化(GAP)运算，得到1*1*1024的特征向量；

最后使用两层全连接层(FC)以及ReLU激活函数和Sigmoid激活函数，得到1024个特征通道的权值，并将其与GAP输出特征向量相乘，用于根据特征通道重要程度赋予不同权值，并提高深度语义表情特征的准确性；

模块上方数值为该模块输出矩阵大小。

在本实施例中，如图5所示，描述了图4中虚线框中各个模块的工作原理，

S＝F_ex(Z,W)＝σ(W₂δ(W₁Z)) (2)

F_scale(z_k,s_k)＝s_k·z_k(k＝1,2,..,C) (3)

步骤3具体还包括如下

①.图中F_sq(·)为压缩运算，F_sq表示对输入数据进行全局平均运算的函数，即求出输入特征张量U∈R^H*M*C的每个通道的全局平均值，计算公式如式(1)所示；

在深层特征增强模块中，式(1)用GAP模块实现；

②.F_ex(·，W)为激励运算，F_ex表示对输入数据进行加权运算的函数，即分析特征通道的重要性并求其权值，计算公式如式(2)所示；

首先用权值矩阵

对平均向量Z∈R^C×1进行降维运算，R表示实数域，r为下降系数，可取16；

其次用δ(·)函数对W₁Z进行非线性运算，公式如下

δ(x)＝max(0,x)，其中x为任意整数；

然后再用权值矩阵

进行升维运算；

最后带入σ(·)函数计算得到权值向量S'＝[s₁,s₂,...,s_C]，公式如下取B＝W₂δ(W₁Z)＝[β₁,β₂,...,β_C]

则对B中所有元素用σ(·)函数计算，公式如下，其中e是指数：

得到S＝σ(W₂δ(W₁Z))＝[s₁,s₂,...,s_C]；

在深层特征增强模块中，降维和升维运算用全连接层(FC)实现，δ(·)用ReLU模块实现，σ(·)用Sigmoid模块实现，如图4所示；

③.F_scale(·，·)将平均向量Z的每个全局平均值z_k乘以对应的权值s_k，用以突出深度语义表情特征中的重要信息，提高判别能力，计算公式如式(3)所示。

需要强调的是，浅层特征增强模块和深层特征增强模块中均使用了全局平局池化(Global average Pooling，GAP)模块，其原理是求取每个特征通道的平均值，输出维度只与特征通道数有关，与特征尺寸无关。相比全连接层中将多维特征拉成一维特征的复杂操作，GAP大大降低了模型的参数计算量。

数据库介绍：

本发明在AFEW、CK+、SFEW、FER2013四个公共人脸表情数据库上进行实验仿真，其中，AFEW和CK+为视频数据库，SFEW和FER2013为图像数据库。

AFEW、SFEW和FER2013中样本均来源于真实非控环境，样本受环境光照、姿态变化、遮挡、配饰、分辨率、拍摄角度、复杂背景等多种因素混合干扰，且因个体文化差异，受试者表现同类情感的程度也各不相同；CK+中样本来源于实验受控环境，样本中人脸正面姿态、无遮挡，且受试者根据实验要求夸张的表现各类情感。

部分样本图像如图7所示。

(1)AFEW数据库

AFEW(Acted Facial Expression in the Wild)数据库由不同电影中节选的视频片段组成，受试者具有自发的人脸表情，且受真实环境光照、姿态变化、遮挡、配饰、拍摄角度、分辨率、复杂背景等多种因素混合干扰。

部分样本如图7(a)所示。

AFEW7.0数据库分为三个部分：训练集(773个样本)，验证集(383个样本)和测试集(653个样本)，其目的是为了确保三个数据集中受试者无重叠，由此验证人脸身份对人脸表情识别的影响。

图7(a)中每一行是连续5帧的人脸表情图像，且自上而下的表情标签分别为生气(anger)、厌恶(disgust)、害怕(fear)、开心(happiness)、中性(neutral)、悲伤(sadness)、惊讶(surprise)。

(2)CK+数据库

CK+数据库是用于评估人脸表情识别***最广泛的实验室数据库，包含来自123个受试者的593个视频。视频持续时间从10帧到60帧不等，并且从中性表情一直变化到最夸张表情为止，如图7(b)所示。

其中，来自118名受试者的327个视频采用面部动作编码***(FACS)被标记了七种基本情绪标签：生气(anger)，蔑视(contempt)，厌恶(disgust)，害怕(fear)，高兴(happiness)，悲伤(sadness)，惊讶(surprise)。由于CK+没有给定训练集和测试集，本发明将327个视频划分成长度为10帧的视频序列，共978个，取其中80％进行训练，20％进行测试，交叉验证5次得到实验结果。

(3)SFEW数据库

SFEW(Static Facial Expression in the Wild)由AFEW数据库中静态单帧图像组成，通过计算视频中人脸关键点变化选择表情关键帧获取，部分样本如图7(c)所示。

SFEW数据库也分为三个数据集：训练集(958个样本)、验证集(436个样本)和测试集(372个样本)，且表情类别与AFEW一致，分别为生气(anger)、厌恶(disgust)、害怕(fear)、开心(happiness)、中性(neutral)、悲伤(sadness)、惊讶(surprise)七类基本情绪。

(4)FER2013数据库

FER2013数据库是用Google Image Search API从互联网上采集人脸表情图像构建而成，包含28709张训练样本，3589张验证样本和3589张测试样本，图像大小为48*48像素，部分样本如图7(d)所示。FER2013仍包含七类基本表情：生气(anger)、厌恶(disgust)、害怕(fear)、开心(happiness)、中性(neutral)、伤心(sadness)、惊讶(surprise)七类基本表情。

首先分析本发明在视频数据集(AFEW和CK+)上的有效性。

从表1和表2可以看出，相比传统CNN-LSTM网络，本发明的识别准确率均有显著提升。

在AFEW数据库上，本发明的识别准确率最高，为46.12％，提升了8.78％；

在CK+数据库上，本发明的识别准确率也最高，为98.41％，相比传统CNN-LSTM网络提升了2.4％。

同样的，若仅使用单帧特征增强CNN网络或多帧特征增强自注意网络进行识别，在AFEW和CK+两个数据集上识别效果也有提升。以AFEW为例，单帧特征增强CNN网络+LSTM网络的识别率比传统CNN-LSTM网络提升了3.01％，而传统CNN+多帧特征增强自注意网络的识别率比传统CNN-LSTM网络也提升了4.13％。

由此可见，本发明提出的单帧特征增强CNN网络和多帧特征增强自注意网络均可以更准确提取出动态面部表情数据中的空间信息和时间信息，将两者结合效果更佳。

同样的，本发明在图像数据集(SFEW和FER2013)上也是有效的。

由于SFEW和FER2013中处理数据为单帧图像，因此这里仅使用本发明提出的单帧特征增强CNN网络进行识别，实验结果如表3和表4所示。

相比传统CNN网络(例如，VGG16、ResNet34、DenseNet121和DenseNet169)，本发明在SFEW和FER2013两个数据集均有明显提升，分别达到了56.91％和76.10％的识别结果。

表1.AFEW数据集上识别结果比较(％)

模型	F1分数	准确率
			AFEW baseline	—	38.81
ELRCN	31.00	40.00
			MIMAMO Net	33.13	41.20
传统CNN-LSTM网络	33.99	37.34
			单帧特征增强CNN网络+LSTM网络	37.00	43.32
传统CNN+多帧特征增强自注意网络	38.12	44.39
			本发明	42.28	46.12

表2CK+数据集上识别结果比较(％)

模型	准确率
		ELRCN	95.92
MIMAMO Net	96.77
		传统CNN-LSTM网络	96.01
单帧特征增强CNN网络+LSTM网络	97.47
		传统CNN+多帧特征增强自注意网络	97.95
本发明	98.41

表3SFEW数据集上识别结果比较(％)

模型	准确率
		VGG16	53.40
ResNet34	53.79
		DenseNet121	54.01
DenseNet169	54.54
		单帧特征增强CNN网络	56.91

表4FER2013数据集上识别结果比较(％)

模型	准确率
		VGG16	72.80
ResNet34	73.10
		DenseNet121	73.25
DenseNet169	73.76
		单帧特征增强CNN网络	76.10

(2)与先进算法的比较

为了进一步说明本发明提出的混合特征增强网络的先进性，分别在视频数据集CK+和图像数据集SFEW上进行实验，与现有先进算法进行比较，结果如表5和表6所示。从表中结果可以看出，本发明性能优于其他先进算法。

表5在CK+数据库上的识别结果比较(％)

方法	准确率(％)
		3DCNN-DAP[1]	92.35
STM-ExpLet[2]	93.88
		DTAGN[3]	96.43
本发明	98.41

表6在SFEW数据库上的识别结果比较(％)

方法	准确率(％)
		DL-GPLVM[4]	24.7
AUDN[5]	26.14
		STM-ExpLet[2]	31.73
Inception[6]	47.7
		本发明	56.91

(3)计算复杂度比较

表7为采用本发明提出的混合特征增强网络与传统CNN-LSTM网络端到端训练和测试一张样本的运行时间。

从表中可以看出，本发明从①多帧特征增强自注意网络代替多层LSTM网络；②全局平均池化层代替全连接层；③单帧特征增强CNN网络中小尺度卷积代替大尺度卷积三个方面进行网络结构改进，有效降低了网络的计算复杂度，训练和测试时间明显降低。

表7本发明与传统CNN-LSTM网络的训练和测试时间(ms)

综上所述，在本实施例中，本实施例提供的从单帧和多帧两个角度分别进行特征增强，用以克服真实人脸表情数据中的个体属性差异和非约束环境干扰，达到减少数据类内差距，提高非约束表情特征判别能力的目的，为深度动态非约束表情识别网络的实用化发展提供理论指导和技术支持。

以上所述，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：包括如下步骤

其中，步骤3中的单帧特征增强CNN网络采用VGG16网络作为单帧特征增强CNN网络的骨干网络，所述VGG16网络上设有浅层特征增强模块以及深层特征增强模块，且所述浅层特征增强模块和深层特征增强模块各自输出的特征相融合，用于获取不同层次的人脸表情空间信息；

2.根据权利要求1所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：

步骤3具体包括

步骤3.1、向单帧特征增强CNN网络连续输入N帧图像，得到该N帧图像对应的特征向量x₁,x₂,...,x_N；

3.根据权利要求2所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：

所述VGG16网络包括有依次分布的2组3*3*64卷积模块、2组3*3*128卷积模块、3组3*3*256卷积模块、6组3*3*512卷积模块；

所述单帧特征增强CNN网络的处理步骤包括

步骤Ⅰ、输入尺寸为224*224*3的人脸表情图像；

4.根据权利要求2所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：

所述多帧特征增强自注意网络的处理步骤包括

所述K、V、Q均是大小为N*2048的权值矩阵，其中，W为不同的权值矩阵，大小为N*N；

通过S*【QK^T】得到注意力权值大小，其中S是一个另外设置的一个超参数，用于抑制注意力权值大小，

将QK^T中每一行注意力权重归一化为0到1之间，再与V相乘，得到差异性的显著特征矩阵。

5.根据权利要求3所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：

步骤4中所述2048维人脸表情深层特征经过两层全连接层之间还依次经过BN批标准化运算、ReLU激活函数运算和DropOut运算；

6.根据权利要求3所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：所述步骤3中的深层特征增强模块具有3*3*1024卷积模块，所述深层特征增强模块的3*3*1024卷积模块用于输出7*7*1024特征矩阵，

所述7*7*1024特征矩阵经过全局平均池化GAP运算，得到1*1*1024的特征向量。

7.根据权利要求6所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：所述步骤3中使用两层全连接层FC以及ReLU激活函数和Sigmoid激活函数，得到1024个特征通道的权值，并将其与GAP输出特征向量相乘，用于根据特征通道重要程度赋予不同权值，并提高深度语义表情特征的准确性。

8.根据权利要求7所述的基于混合特征增强网络的动态序列非约束表情识别方法，其特征在于：

S＝F_ex(Z,W)＝σ(W₂δ(W₁Z)) (2)

F_scale(z_k,s_k)＝s_k·z_k(k＝1,2,..,C) (3)

步骤3具体还包括如下

在深层特征增强模块中，式(1)用GAP模块实现；

②.分析特征通道的重要性并求其权值，计算公式如式(2)所示；

首先用权值矩阵

对平均向量Z∈R^C×1进行降维运算，r为下降系数；

其次用δ(·)函数对W₁Z进行非线性运算；

然后再用权值矩阵

进行升维运算；

最后带入σ(·)函数计算得到权值向量S＝[s₁,s₂,...,s_C]；

③.将平均向量Z的每个全局平均值z_k乘以对应的权值s_k，用以突出深度语义表情特征中的重要信息，提高判别能力，计算公式如式(3)所示。