CN108921037B

CN108921037B - 一种基于BN-inception双流网络的情绪识别方法

Info

Publication number: CN108921037B
Application number: CN201810579049.5A
Authority: CN
Inventors: 卿粼波; 王露; 滕奇志; 何小海; 熊文诗; 吴晓红
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2022-06-03
Anticipated expiration: 2038-06-07
Also published as: CN108921037A

Abstract

本发明提供了一种基于姿态信息的个体情绪识别方法，主要涉及利用深度学习方法研究个体姿态以判断个体的情绪。该方法包括：首先引入基于BN‑inception双流网络模型，通过对原始图像和光流图像的学习，提取输入序列的静态和动态特征；然后在双流网络的基础上加入空间金字塔池化(Space Pyramid Pooling,SPP)，使图像以原始尺寸输入网络，从而减少因变形对模型性能造成的影响。本发明首先利用双流网络对输入序列进行时空特征的学习，并引入金字塔池化，以保留视频帧的原始信息，使得网络能有效地学习个体姿态情绪的特征，得到较高的识别率。

Description

一种基于BN-inception双流网络的情绪识别方法

技术领域

本发明涉及深度学习领域中的情绪识别问题，尤其是涉及一种基于BN-inception+SPP双流网络的情绪分析方法。

背景技术

情绪是综合了人的感觉、思想和行为的一种状态，在人与人的交流中发挥着重要作用。通常根据一个人面部表情即能判断其情绪状态，但是在某些特定的环境中，如监控视角、面部存在遮挡等情况下，我们不一定能够获取清晰的人脸面部表情。实际上，一个人的真实情绪不仅仅依靠人脸表情进行表达，个体的肢体动作也能表达一定的情绪信息。因此，本发明的研究主要集中在基于视频的个体姿态的情绪识别。

情绪识别是计算机视觉领域中的重要研究内容和方向，目前很多权威的国际期刊和顶级会议设有相关的主题和内容，且许多国外名校还开设了相关的课程。传统的基于视频的情绪识别方法主要依靠人工选取的特征，这一方法耗时耗力且取得的模型参数的泛化性能差，服务于情绪识别的程度有限。深度学习是人工智能领域发展的一个重要组成部分，近年来已成为人工智能领域非常热门的研究方向。它在许多领域(如图像识别、语音识别等)都取得了很大的突破，特别是在视频分析中已取得了较高的识别率和泛化能力。因此本专利利用深度学习在视频分析中的优势，对视频中个体情绪识别进行研究。

基于姿态信息的情绪识别在近几年才发展起来，相关的研究较少，主要集中于传统算法的研究。Li等^[1]提出了一种利用原始骨架坐标和骨架运动进行行为识别与分类；Piana等^[2]提出一个从全身运动出发的情绪自动识别模型和***，它用于帮助自闭症儿童学会识别和通过全身运动来表达情感。同样也有人将人体姿态的运动特征和高级的运动学几何特征进行组合，进行聚类进行分类。Crenn等^[3]利用人的3D骨架序列得到运行数据等低层特征，然后将特征分解为几何特征、运动特征和傅里叶特征三种，计算这些低层特征的元特征(如均值、标准偏差等)，最后采用分类器将元特征分类。深度学习不管在识别时间还是准确度上，与传统方法相比都有很大的提高，但是由于与姿态相关的情绪数据集的缺乏，采用深度学习进行基于姿态信息的个体情绪识别相关研究还很少。

发明内容

本发明的目的是提供一种基于姿态的个体情绪识别方法，将深度学习与视频中的人体姿态相结合，充分利用BN-inception+SPP网络结构的优越性，同时引入双流网络结构进行基于视频的个体情绪识别，有效学习个体姿态的情绪特征，得到较高的识别率。

为了方便说明，首先引入如下概念：

光流法：是一种简单实用的图像运动的表达方式，通常定义为一个图像序列中的图像亮度模式的表观运动，即空间物体表面上的点的运动速度在视觉传感器的成像平面上的表达。

卷积神经网络：一种多层前馈神经网络，每层由多个二维平面组成，每个平面的神经元独立工作，卷积神经网络包括卷积层和池化层。

双流卷积神经网络：针对视频行为特征的提取而设计，网络以单帧RGB原始图像和基于视频数据得到的光流图像分别作为两个输入，以实现对行为对象空间表观信息的表示及行为过程时序特征的提取。

空间金字塔池化(Space Pyramid Pooling,SPP)：是由多个降采样层组合而成，它能够对由粗到细的对输入特征图进行划分，并把特征图转换为一个长度固定的特征向量，所以SPP层能够提取各种局部信息。

本发明具体采用如下技术方案：

提出了基于BN-inception双流网络的情绪识别方法，该方法的主要特征在于：

1.将个体姿态数据集划分为四个情绪类别：无聊(bored),激动(excited),生气(frantic),放松(relaxed)；

2.在BN-inception双流网络的全连接层之前加入空间金字塔池化(SpacePyramid Pooling,SPP)，对数据集分别进行时空网络的训练；

该方法主要包括以下步骤：

(1)将个体姿态序列数据集，划分为四个情绪类别：无聊，激动，生气，放松；

(2)采用文献[4]的光流算法生成数据集对应的光流图像序列，表示个体姿态的运动特征；

(3)将原始数据集和光流数据集分别按照比例划分为训练集、验证集和测试集；

(4)引入基于BN-inception的双流卷积神经网络模型，并在其全连接层之前加入SPP层优化BN-inception网络，利用训练集和验证集进行时空网络的训练，利用测试集进行验证；

(5)将基于BN-inception+SPP的空间流和时间流两通道网络进行平均融合，得到测试集上的准确度ACC(Accuracy)和宏平均精确度MAP(Macro Average Precision)。

附图说明

图1为本发明基于BN-inception+SPP双流网络的情绪识别整体框架示意图。

图2-a～图2-b为本发明在未加入SPP层时在测试集上得到的准确度混淆矩阵，其中，2-a为空间流BN-inception网络的测试矩阵，2-b为时间流BN-inception网络的测试矩阵。

图3-a～图3-b为本发明在加入SPP层时在测试集上得到的准确度混淆矩阵，其中，3-a为空间流BN-inception+SPP网络的测试矩阵，3-b为时间流BN-inception+SPP网络的测试矩阵。

图4为本发明将基于BN-inception+SPP的空间流和时间流两通道网络平均融合后，得到测试集上的ACC和MAP。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

图1中，一种基于BN-inception+SPP双流网络的情绪识别方法，包括以下步骤：

(1)首先在得到公共空间的中的个体数据集之后，采用文献[4]的光流算法生成原始数据集的光流图像序列，表示个体姿态的运动特征；

(2)按比例将原始数据集和得到的光流数据集分别划分为测试集、验证集和训练集三部分，并给定对应的情绪类别；

(3)去掉图1所示的SPP层，将训练集和验证集的数据分别输入时空网络进行学习，得到训练模型，利用测试集的数据进行测试验证其效果；

(4)加入SPP层，将训练集以原始尺寸分别输入时空网络进行学习，得到训练模型，利用测试集集的数据进行测试验证其效果；

(5)将基于BN-inception+SPP的空间流和时间流两通道网络平均融合后，得到测试集上的ACC和MAP；

本发明采用Caffe对空间流和时间流两个通道的卷积神经网络分开进行训练，通过实验对时间流和空间流网络的参数进行了设置，如表1所示。由于建立的个体姿态情绪数据集的样本数量较少，为防止过拟合现象，采用了数据扩充和在网络中加入Dropout层的方法。

表1训练参数设置

参考文献：

[1]Li C,Zhong Q,Xie D,et al.Skeleton-based Action Recognition withConvolutional Neural Networks[J].2017:597-600.

[2]Piana S,

A，Odone F,et al.Adaptive Body GestureRepresentation for Automatic Emotion Recognition[J].ACM Transactions onInteractive Intelligent Systems(TiiS),2016,6(1):6.

[3]Crenn A,Khan R A,Meyer A,et al.Body Expression Recognition fromAnimated 3D Skeleton[C]//International Conference on 3D Imaging.IEEE,2017:1-7.

[4]Brox T,Bruhn A,Papenberg N,et al.High Accuracy Optical FlowEstimation Based on A Theory for Warping[C]//European Conference on ComputerVision(ECCV),2004:25-36.

Claims

1.一种基于BN-inception+SPP双流网络的个体情绪识别方法，其特征在于：

a.将个体姿态数据集划分为四个情绪类别：无聊bored,激动excited,生气frantic,放松relaxed，给定每个序列的情绪类别；

b.在BN-inception双流网络的全连接层之前加入空间金字塔池化Space PyramidPooling，对数据集分别进行时空网络的训练；

c.该基于BN-inception+SPP的双流网络训练参数为基础学习率base_lr：0.00000001；学习率变化指数gamma：0.01；权重衰减weight_decay：0.005；最大迭代次数max_iter：150000；

该方法主要包括以下步骤：

(1)采用光流算法处理数据集生成对应的光流图像序列，表示个体姿态的运动特征；

(2)将数据集划分为训练集、验证集和测试集三部分，并给定每个序列的情绪类别；

(3)引入基于BN-inception的双流卷积神经网络模型，并在其全连接层之前加入SPP层优化BN-inception网络，利用训练集和验证集进行时空网络的训练，利用测试集进行验证；

(4)将基于BN-inception+SPP的空间流和时间流两通道网络进行平均融合，得到测试集上的准确度ACC和宏平均精确度MAP。

2.如权利要求1所述的基于BN-inception+SPP双流网络的个体情绪识别方法,其特征在于在步骤(3)中利用双流网络分别对数据集的时空特征进行学习。

3.如权利要求1所述的基于BN-inception+SPP双流网络的个体情绪识别方法,其特征在于在步骤(3)中首先在BN-inception双流网络的全连接层之前加入SPP层，使得训练集以原始尺寸输入网络，避免固定输入尺寸带来的运动信息丢失，接着再对数据集分别进行时空网络的训练。