CN111401116B

CN111401116B - 基于增强卷积和空时lstm网络的双模态情感识别方法

Info

Publication number: CN111401116B
Application number: CN201910743860.7A
Authority: CN
Inventors: 闫静杰; 朱康; 朱宇康; 吕方惠; 卢官明; 李海波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2022-08-26
Anticipated expiration: 2039-08-13
Also published as: CN111401116A

Abstract

本发明公开了一种基于增强卷积和空时LSTM网络的双模态情感识别方法，使用预训练VGG16和LSTM网络，构建出本发明的基于立方体Attention的增强卷积和空时LSTM网络结构，包括以下步骤：(1)截取数据库中视频的主要部分，满足相同长度并对其分帧；(2)检测数据库中每个视频人脸、动作的空时特征点，根据每帧图片设置对应特征点处的权重值，形成立方体Attention部分权重图；(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络；(4)通过上述步骤处理的表情、动作视频分别提取特征，将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层，输出得到分类结果。提取到含有表情和姿态信息特征进行双模态分类，获得比传统特征学习方法更好的情感识别效果。

Description

基于增强卷积和空时LSTM网络的双模态情感识别方法

技术领域

本发明涉及一种基于表情和姿态双模态结合的情感识别方法，属于情感计算技术领域。

背景技术

随着人工智能和情感计算技术在学术界和工业界的快速发展，情感识别技术也得到越来越广泛的关注和认同，尤其是在智能人机交互领域，情感识别技术将在人和计算机之间的智能感知和识别方面扮演非常重要的作用。过去的情感识别技术大多数都是只考虑人的单个通道情感信息，但近年来基于多通道情感信息的双模态和多模态情感识别技术得到了快速的发展并在智能人机交互中取得了更好的识别效果，尤其是基于表情和姿态双通道情感信息的双模态情感识别。基于表情和姿态的双模态情感识别通过从人的面部表情和身体姿态两个通道获得更加丰富和相关的信息并进行融合，从而提高情感识别的可靠性。

公开号为CN106295568A公开了一种基于表情和行为双模态的人类自然情感识别方法，该专利首先将提取的人体躯干运动特征与事先建立的人体躯干运动特征进行匹配比对，获得情感分类结果，然后从事先建立的人脸表情特征库找出去提取的人脸表情特征相匹配的人脸特征，输出对应的情感分类结果。该方法最大的问题是无法提取有效的人体躯干运动特征，难以建立有效的人体躯干运动特征库和人脸表情特征库。

发明内容

发明目的：针对现有技术的不足，本发明目的在于提出一种基于立方体Attention增强卷积和空时LSTM网络的双模态情感识别方法，对现有深度神经网络进行部分改造和结合，为提高计算机识别人类情感的正确率提供一种新方法。

技术方案：本发明是一种基于立方体Attention增强卷积和空时LSTM网络的双模态情感识别方法，包含以下步骤：

(1)截取数据库中视频的主要部分，满足相同长度并对其分帧；

(2)检测数据库中每个视频人脸、动作的空时特征点，根据每帧图片设置对应特征点处的权重值，形成立方体Attention部分权重图；

(3)构建出基于立方体Attention的增强卷积和空时LSTM的结合网络，包含三个处理单元如下：

(3.1)跨接立方体Attetion的VGG16的5个卷积单元。VGG16由5组卷积层组成，每组卷积层包括了2个或者3个卷积层以及1个池化层，为了简化表示使用CONV1、CONV2、CONV3、CONV4和CONV5五个卷积模块来简单表示VGG16网络。其中CONV1和CONV2分别含有两个卷积层和一个最大池化层，其参数分别如下所示：

CONV1:f＝3,p＝1,s＝1,d＝64

CONV2:f＝3,p＝1,s＝1,d＝128

Maxpooling:f＝2,s＝2

其中f表示卷积核或池化的大小,p为填充值,s表示卷积核或池化的步长,d表示卷积核数量。

在CONV3和CONV4个卷积模块上分别跨接一个立方体Attention模块用于强化提取兴趣区域的特征。两个卷积模块中的卷积层和池化层参数如下所示：

CONV3:f＝3,p＝1,s＝1,d＝64

CONV4:f＝3,p＝1,s＝1,d＝128

Maxpooling:f＝2,s＝2

(3.2)空间LSTM单元。通过上述的基于立方体Attention的增强VGG16网络可以获得跟表情或者姿态相关的增强深度纹理特征，但无法学习表情或者姿态图像各个区域之间的空间结构相关性，而这种相关性也能够提供重要的情感信息。因此我们在B1的模块之后加上空间LSTM模块，具体形式如图3所示。CONV5模块输出不经过池化，其卷积层参数如下所示：

CONV5:f＝3,p＝1,s＝1,d＝512

得到14*14*512的特征图，输出的特征图大小为14*14，有512个通道即有512张特征图，本发明中将14*14共196个位置上沿着通道方向构成196个特征向量，每个向量为512维，这196个特征向量对应着输入的一帧图像的一个小区域，将每一个特征向量作为LSTM的输入，这样通过空间LSTM就可以有效学习到表情或者姿态图像不同区域之间的空间结构相关性。通过空间LSTM学习后，每张原始的表情或者姿态图像可以获得融合区域相关性后的一个深度特征，再把这个深度特征作为下一步时间LSTM的输入。

(3.3)时间LSTM单元。空间LSTM部分输出的一组含有一张图片的不同区域相关信息的特征向量作为输入，输入到LSTM中，进一步提取时间上的相关性。

上述过程为一帧图像的处理过程，将一个视频分帧之后所有图像经过上述网络的处理，后一帧的图像在B3处综合本帧和上一帧的时间LSTM特征，最终得到一个表情或动作视频的增强情感特征。

(4)通过上述步骤处理的表情、动作视频分别提取特征，将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层，输出得到分类结果。

有益效果：本发明与现有技术相比，其显著优点是：1、充分利用空时特征点处的关键信息，使用LSTM获得图片特征的空间相关性和时间相关性；2、提取到含有表情和姿态关键信息的特征进行双模态分类，获得比基于传统特征学习的方法更好的情感识别效果。

附图说明

图1本发明的方法流程框图；

图2本发明的网络结构框架图；

图3立方体Attention单元结构框图；

图4空间LSTM单元结构框图；

图5部分FABO数据库序列图片。

具体实施方式

下面结合说明书附图对本发明实施方式作进一步详细说明。

如图1所示，本发明的实现包含以下步骤：

(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络；

步骤(2)中数据库视频预处理将FABO数据库中的视频分为七类，分别为anger,anxiety,boredom,disgust,fear,happiness以及uncertainty,将视频的主体部分截取出来至相同长度并进行分帧，使所有视频帧数一致为170帧。使用空时检测算法程序检测出数据库中每个视频中人脸或动作的空时特征点显示在每帧图片上，每帧图片对应的设置这些特征点处的权重值，得到立方体Attention部分的权重图。

如图2所示，构建出基于立方体Attention的增强卷积和空时LSTM的结合网络，各部分的功能如下：

(3.1)跨接立方体Attetion的VGG16的5个卷积模块。VGG16由5组卷积层和3个全连接层组成，每组卷积层包括了2个或者3个卷积层以及1个池化层，为了简化表示使用CONV1、CONV2、CONV3、CONV4和CONV5五个卷积模块来简单表示VGG16网络。其中CONV1和CONV2分别含有两个卷积层和一个最大池化层，其参数分别如下所示：

CONV1:f＝3,p＝1,s＝1,d＝64

CONV2:f＝3,p＝1,s＝1,d＝128

Maxpooling:f＝2,s＝2

CONV1:f＝3,p＝1,s＝1,d＝64

CONV2:f＝3,p＝1,s＝1,d＝128

Maxpooling:f＝2,s＝2

立方体Attention模块的结构如图3所示。CONV2输出的特征图跟立方体Attention图在对应位置进行点乘，获得带立方体Attention的特征图，然后和CONV3第3个卷积层的输出在对应位置进行相加，再经过CONV4重复一次特征强化提取，获得增强后的特征图。

(3.2)空间LSTM单元。通过上述的基于立方体Attention的增强VGG16网络可以获得跟表情或者姿态相关的增强深度纹理特征，但无法学习表情或者姿态图像各个区域之间的空间结构相关性，而这种相关性也能够提供重要的情感信息。因此我们在B1的模块之后加上空间LSTM模块，具体形式如图4所示。CONV5模块输出不经过池化，其卷积层参数如下所示：

CONV5:f＝3,p＝1,s＝1,d＝512

上述过程为一帧图像的处理过程，将一个视频分帧之后所有图像经过上述网络的处理，后一帧的图像在B3处综合本帧和上一帧的时间LSTM特征，最终得到一个表情或动作视频的增强情感特征，如图2中的OUT所示。以上步骤构建的网络都可基于python语言tensorflow框架的keras库进行搭建。

每个视频样本分帧后具有相同的170帧图像，将这些样本输入构建出的网络中进行训练，更新网络参数，训练结束后保存下验证效果最佳的网络模型。使用时将测试视频经过预处理后输入网络，经过图像的处理之后得到一组特征，最后将表情和姿态的特征串联融合后输入SVM分类器或是softmax层得到多分类的分类结果。

Claims

1.一种基于增强卷积和空时LSTM网络的双模态情感识别方法，其特征在于，包括如下步骤：

(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络；

(4)通过上述步骤处理的表情、动作视频分别提取特征，将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层，输出得到分类结果；

步骤(3)中结合网络包括的跨接立方体Attetion的VGG16卷积单元由5组卷积层组成，每组卷积层包括至少2个卷积层以及1个池化层，5组卷积层分别为CONV1、CONV2、CONV3、CONV4和CONV5，其中CONV1和CONV2分别含有两个卷积层和一个最大池化层，其参数分别如下所示：

CONV1：f＝3，p＝1，s＝1，d＝64

CONV2：f＝3，p＝1，s＝1，d＝128

Maxpooling：f＝2，s＝2

其中f表示卷积核或池化的大小，p为填充值，s表示卷积核或池化的步长，d表示卷积核数量，在CONV3和CONV4个卷积单元上分别跨接一个立方体Attention单元。

2.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法，其特征在于，步骤(3)中的结合网络包括三个处理单元：跨接立方体Attention的VGG16卷积单元、空间LSTM单元和时间LSTM单元。

3.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法，其特征在于，步骤(3)中结合网络包括的空间LSTM单元，通过基于立方体Attention的增强VGG16网络获取与表情姿态相关的增强深度纹理特征，其卷积层参数如下所示：

CONV5：f＝3，p＝1，s＝1，d＝512

得到14*14*512的特征图，输出的特征图大小为14*14，有512个通道即有512张特征图，将14*14共196个位置上沿着通道方向构成196个特征向量，每个向量为512维，这196个特征向量对应着输入的一帧图像的一个小区域，将每一个特征向量作为LSTM的输入，每张原始的表情或者姿态图像通过LSTM学习，获得融合区域相关性一个深度特征，作为下一步时间LSTM的输入。

4.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法，其特征在于，步骤(3)中结合网络包括的时间LSTM单元，空间LSTM输出一组含有一张图片的不同区域相关信息的特征向量作为输入，输入到LSTM中，进一步提取时间上的相关性。

5.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法，其特征在于，步骤(3)中结合网络的三个单元处理一帧图像，处理方法如下：将一个视频分帧后的所有图像经过上述网络的处理，后一帧的图像在时间LSTM单元处综合本帧和上一帧的时间LSTM特征，最终得到一个表情或动作视频的增强情感特征。