CN114550057A

CN114550057A - 一种基于多模态表示学习的视频情绪识别方法

Info

Publication number: CN114550057A
Application number: CN202210175993.0A
Authority: CN
Inventors: 白明泽; 舒谦
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-27

Abstract

本发明属于人工智能、多模态情绪识别技术领域，具体涉及一种基于多模态表示学习的视频情绪识别方法，该方法包括：将有人脸的视频转换为三种模态特征表示，并对三种模态特征进行对齐；对三种特征进行自动编码表示；采用自动编解码网络对自动编码表示后的三种特征进行融合得到特征联合表示；将联合特征作为改进的神经网络的数据输入，得到情感分类结果；本发明首先对视频中多模态信息进行表示学习；将改进的经典卷积神经网络LeNet‑5s和transformer相结合，能够提取时序和空间信息的优点，从而能提取情绪识别的精度。

Description

一种基于多模态表示学习的视频情绪识别方法

技术领域

本发明属于人工智能、多模态情绪识别技术领域，具体涉及一种基于多模态表示学习的视频情绪识别方法。

背景技术

人脸识别(Facial Recognition,FR)技术是依据人脸生理特征来进行身份识别的一种生物特征识别技术。随着人工智能(Artificial Intelligence,AI)技术，特别是深度学习(Deep Learning，DL)技术的发展和人脸大数据的积累，基于人脸特征信息进行身份识别已经取得了巨大的进展。人脸表情是一门不分国界、种族及性别世界语，所有人都有着通用的表情。Ekman等在最早通过跨文化研究，定义了6种基础表情：生气、害怕、厌恶、开心、悲伤和吃惊，随后又加入了“蔑视”这一表情。这个开创性的工作和直观的定义，至今依然很流行。以FR为基础的人脸表情识别(Facial Expression Recognition,FER)已成为当前研究的热点之一。FER是涉及到心理学、生理学、生物特征识别、情感计算、人工心理理论及计算机视觉等多学科交叉研究，在疾病诊断、人机交互、远程教育及安全驾驶等多个领域有着广泛的应用。

人类认识世界是通过视觉、听觉、味觉、嗅觉和触觉等多个感觉器官来完成的。每一种信息的来源或者形式，都可以称为一种模态。当研究问题包括多种这样的形式时，研究问题被描述为多模态，例如人类情绪信息的媒介，有图像、语音、视频、文字等多模态。对于情绪识别(Emotion Recognition)的研究，传统的方法主要集中在人脸情绪识别、语音情绪识别、文本情绪识识别、脑电情绪识别等单个模态上。这些传统的单模态情绪识别虽然在各个领域中都已经获取了不少的进步，但是人的情感表现形式是多种多样的，如果单纯从一个模态一个表现形式去判定人的情感并不能完全确定一个人的情绪，通常会遗失很多重要的数据，单模态情绪识别仍然存在识别率低、鲁棒性差，应用到实际场景中的低成功率，而且单模态信息量不足且容易受到外界各种因素的影响，如面部表情容易被遮挡、语音容易受噪声干扰。为了使人工智能在理解人类情绪方面取得进展，需要一起解释这种多模态信号，因此对情绪识别的研究慢慢从单模态情绪识别转向双模态情绪识别和多模态情绪识别。这是一个充满活力的多学科交叉领域，具有十分重要的意义和非凡的潜力。

多模态情绪识别(Multimodal Emotion Recognition)的基础和前提是学习如何以一种利用多种模态的互补性和冗余性的方式表示和汇总多模态数据。由于多模态情绪数据的异构性，以计算模型可以使用的格式表示原始数据一直是机器学习中的一大挑战。联合和协调是目前主流多模态表示方法，本发明首先对视频中多模态信息进行表示学习；将改进的经典卷积神经网络LeNet-5s和transformer相结合，能够提取时序和空间信息的优点，从而能提取情绪识别的精度。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于多模态表示学习的视频情绪识别方法，该方法包括：获取待识别的视频数据，对获取的视频数据进行预处理，将预处理后的视频数据输入到训练好的改进的神经网络模型中，得到视频数据的情绪识别结果；

对改进的神经网络模型进行训练的过程包括：

S1：获取原始视频数据集，将原始视频数据集划分为训练集和测试集；

S2：将训练集中的数据转换为人脸图像模态特征、语音模态特征以及文字模态特征；

S3：采用自动编码网络对人脸图像模态特征、语音模态特征以及文字模态特征进行学习降维处理；

S4：采用自动编解码网络将降维后的对人脸图像模态特征、语音模态特征以及文字模态特征进行联合表示，得到联合特征；

S5：将处理过的联合多模态特征输入到改进后的LeNets-5-transformer模型中，得到情绪分类结果；

S6：根据情绪分类结果计算计算模型的损失函数，不断调整模型的参数，当损失函数最小时完成模型的训练。

优选的，对训练集中的数据进行转换的过程包括：

对视频帧进行人脸检测，截取人脸区域，进行尺寸归一化以及灰度化；检测出视频帧中的人脸并对视频帧中的人脸进行定位，将检测到的人脸裁剪为固定尺寸的大小，并做灰度化处理；每个视频中的视频帧分别选取固定帧作为一组视频序列，得到人脸图像模态特征；

将视频帧的语音信号转换成语谱图，语音信号进行分帧处理；把分帧后语音信号的时域转换成频域上的语谱图，得到语音模态特征；

提取视频帧的文本信息，即对视频中的语音信号进行语音识别，得到文本数据，将文本数据输入到预训练Glove word embeddings模型中，得到一个多维度的向量，从而得到文字模态特征。

优选的，采用自动编码网络对人脸图像模态特征、语音模态特征以及文字模态特征进行学习降维处理包括：自动编码器对输入的多模态特征x进行编码，得到新的特征y，且原始的输入特征x能通过新的特征y重构获得；生成新特征y的编码过程为：y＝f(Wx+b)，解码过程为：x′＝f(W′x+b′)；利用最小化负对数似然的损失函数L＝-logP(x|x′)训练模型，并通过降维获得降维后的特征。

优选的，采用自动编解码网络将降维后的对人脸图像模态特征、语音模态特征以及文字模态特征进行联合表示的过程包括：通过字级对齐的策略将人脸、语音和文本特征对齐；将多模态的特征串联得到联合特征。

优选的，改进后的LeNets-5-transformer模型包括transformer模块、LeNet-5s模型以及两个滤波器；LeNet-5s模型由四层卷积层、四层池化层和三层全连接层组成；在LeNet-5网络模型的基础上增加了两层滤波器为3*3的卷积层和两层滤波器为2*2的池化层，然后在每一个全连接层后加入L2正则化函数；transformer模块设置在LeNet-5s模型的第一层卷积层之后。

优选的，采用改进后的LeNets-5-transformer模型对输入数据进行处理包括：通过卷积神经网络获取空间信息，将联合多模态特征通过encoder输入到transformer中，通过注意力机制学习到时序信息；将空间信息和时序信息输入到解码器decoder中，并将解码后的信息输入到分类器中，得到情绪分类结果。

优选的，模型的损失函数表达式为：

其中，y_i'为实际的表情类别标签；y_i为当前模型训练的样本i预测的表情概率。

为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现任一上述基于多模态表示学习的视频情绪识别方法。

为实现上述目的，本发明还提供一种基于多模态表示学习的视频情绪识别装置，包括处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述一种基于多模态表示学习的视频情绪识别装置执行任一上述基于多模态表示学习的视频情绪识别方法。

本发明具有如下有益效果：

1.针对视频自身内容信息，将有人脸的视频转换为视频帧处理成人脸视觉模态、语音转化成声谱图听觉模态和语言模态三种模态特征表示，并对三种模态特征进行对齐；对三种特征进一步利用自动编码表示；进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的特征联合表示；

2.联合特征作为改进的神经网络(LeNet-5s)的数据输入，进行特征学习和模型训练，利用经典层数较少的卷积神经网络训练模型，降低了训练模型的难度；

3.在LeNet-5s模型中引入transformer，在提取特征能力远大于LSTM和循环网络(RNN)，解决了梯度***问题，降低了训练模型的难度，能够提取时序和空间信息的优点，从而能提取情绪识别的精度。

附图说明

图1为本发明的基于多模态表示学习的视频情绪识别方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于多模态表示学习的视频情绪识别方法，该方法包括：获取待识别的视频数据，对获取的视频数据进行预处理，将预处理后的视频数据输入到训练好的改进的神经网络模型中，得到视频数据的情绪识别结果。

如图1所示，对改进的神经网络模型进行训练的过程包括：

S6：根据情绪分类结果计算计算模型的损失函数，不断调整模型的参数，当损失函数最小时完成模型的训练

在本实例中，使用IEMOCAP数据集，数据集有对应的声音和图像数据，将数据中的视频转换为视频帧。

在本实施例中，采用MTCNN对视频帧进行人脸定位，并将检测到的人脸裁剪为固定尺寸大小，这里通过resize()将图像缩减到48*48并且对改变的图片做灰度化处理；将对应的语音数据，通过预处理，分帧，通过短时傅里叶变换实现声谱图，变成二维语音信号。通过融合，将视频的人脸数据和语音数据联合成需要训练的数据集。

使用自编码网络对三种模态进行联合表示：对于给定的文本中的一个“词语”，使用单独的网络对一个字段中的人脸图像和语谱图特征进行建模来计算视觉和听觉嵌入；计算加权平均值，对于三种模态的联合数据，先默认设置权重占比，人脸图像特征占比0.6，语音占比0.2，文本数据占比0.2，计算加权平均值，后期通过模型的微调，更改模型数据的权重占比对多模态的特征联合表示。

对训练集中的数据进行转换的过程包括：

首先以说话的文本为基准,人脸视频和语音序列与之对齐,文本序列表示为L,其中第i个单词表示为L⁽ⁱ⁾,i＝1,2,…,n；人脸视频序列表示为:V⁽ⁱ⁾＝[v₁ ⁽ⁱ⁾,v₂ ⁽ⁱ⁾,…,v_tvi ⁽ⁱ⁾]；声谱图序列表示为：A⁽ⁱ⁾＝[a₁ ⁽ⁱ⁾,a₂ ⁽ⁱ⁾,…,a_tai ⁽ⁱ⁾]。

改进的神经网络模型包括transformer模块、LeNet-5s模型以及两个滤波器；LeNet-5s模型由四层卷积层、四层池化层和三层全连接层组成；在LeNet-5网络模型的基础上增加了两层滤波器为3*3的卷积层和两层滤波器为2*2的池化层，然后在每一个全连接层后加入L2正则化函数，避免由于训练参数较多而产生过拟合的现象；transformer模块设置在LeNet-5s模型的第一层卷积层之后，从而构建一个LeNet-5s-transformer模型；最后在全连接层使用softmax分类器对情感进行分类。

采用改进后的LeNets-5-transformer模型对输入数据进行处理包括：通过卷积神经网络获取空间信息，将联合多模态特征通过encoder输入到transformer中，通过注意力机制学习到时序信息；将空间信息和时序信息输入到解码器decoder中，并将解码后的信息输入到分类器中，得到情绪分类结果。

构建神经网络时，将输入的联合向量特征和该向量的实际标签做交叉熵，使用交叉熵来作为模型的损失函数，通过softmax函数分类，计算loss判断模型的效果，模型的损失函数表达式为：

于本发明一实施例中，本发明还包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一所述基于多模态表示学习的视频情绪识别方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

一种基于多模态表示学习的视频情绪识别装置，包括处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述一种基于多模态表示学习的视频情绪识别装置执行任一上述基于多模态表示学习的视频情绪识别方法。

具体地，所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态表示学习的视频情绪识别方法，其特征在于，包括：获取待识别的视频数据，对获取的视频数据进行预处理，将预处理后的视频数据输入到训练好的改进的神经网络模型中，得到视频数据的情绪识别结果；

对改进的神经网络模型进行训练的过程包括：

2.根据权利要求1所述的一种基于多模态表示学习的视频情绪识别方法，其特征在于，对训练集中的数据进行转换的过程包括：

3.根据权利要求1所述的一种基于多模态表示学习的视频情绪识别方法，其特征在于，采用自动编码网络对人脸图像模态特征、语音模态特征以及文字模态特征进行学习降维处理包括：自动编码器对输入的多模态特征x进行编码，得到新的特征y，且原始的输入特征x能通过新的特征y重构获得；生成新特征y的编码过程为：y＝f(Wx+b)，解码过程为：x′＝f(W′x+b′)；利用最小化负对数似然的损失函数L＝-log P(x|x′)训练模型，并通过降维获得降维后的特征。

4.根据权利要求1所述的一种基于多模态表示学习的视频情绪识别方法，其特征在于，采用自动编解码网络将降维后的对人脸图像模态特征、语音模态特征以及文字模态特征进行联合表示的过程包括：通过字级对齐的策略将人脸、语音和文本特征对齐；将多模态的特征串联得到联合特征。

5.根据权利要求1所述的一种基于多模态表示学习的视频情绪识别方法，其特征在于，改进后的LeNets-5-transformer模型包括transformer模块、LeNet-5s模型以及两个滤波器；LeNet-5s模型由四层卷积层、四层池化层和三层全连接层组成；在LeNet-5网络模型的基础上增加了两层滤波器为3*3的卷积层和两层滤波器为2*2的池化层，然后在每一个全连接层后加入L2正则化函数；transformer模块设置在LeNet-5s模型的第一层卷积层之后。

6.根据权利要求1所述的一种基于多模态表示学习的视频情绪识别方法，其特征在于，采用改进后的LeNets-5-transformer模型对输入数据进行处理包括：通过卷积神经网络获取空间信息，将联合多模态特征通过encoder输入到transformer中，通过注意力机制学习到时序信息；将空间信息和时序信息输入到解码器decoder中，并将解码后的信息输入到分类器中，得到情绪分类结果。

7.根据权利要求1所述的一种基于多模态表示学习的视频情绪识别方法，其特征在于，计算模型的损失函数的过程包括将输入的联合向量特征和该向量的实际标签做交叉熵，使用交叉熵作为模型的损失函数；模型的损失函数表达式为：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行，以实现权利要求1至7中任一项基于多模态表示学习的视频情绪识别方法。

9.一种基于多模态表示学习的视频情绪识别装置，其特征在于，包括处理器和存储器；所述存储器用于存储计算机程序；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述一种基于多模态表示学习的视频情绪识别装置执行权利要求1至7中任一项基于多模态表示学习的视频情绪识别方法。