CN109508375A

CN109508375A - 一种基于多模态融合的社交情感分类方法

Info

Publication number: CN109508375A
Application number: CN201811376297.6A
Authority: CN
Inventors: 徐光侠; 李伟凤; 刘俊; 吴涛; 王天羿; 吴佳健
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-03-22

Abstract

本发明提出了一种基于多模态融合的社交情感分类方法，涉及音频、视觉和文本形式的信息。情感计算分析研究大部分仅通过分析单模信息来提取情感信息，忽视了信息源之间的联系。本发明对于视频信息，提出3DCLS(3D CNN‑ConvLSTM)模型，通过三维卷积神经网络(C3D)和卷积长短期记忆递归神经网络(ConvLSTM)的级联组合来为情感识别任务建立时空信息。对于文本信息，通过CNN‑RNN混合模型进行文本情感分类。利用决策级融合对视觉、音频、文本进行异质性融合。本发明学到的深时空特征有效地模拟了视觉外观和运动信息，在融合文本和音频信息后，有效的提高了情感分析的准确率。

Description

一种基于多模态融合的社交情感分类方法

技术领域

本发明涉及一种基于多模态融合的社交情感分类方法，主要从文本、视觉、音频信息源中提取情感特征，使用决策级融合对视觉、音频、文本进行异质性融合，产生最终的情感分类结果。

背景技术

情感在我们的日常生活中起着至关重要的作用。他们在以人为中心的环境中帮助决策，学***台上表达的意见。

在过去的几年里，文本情感分析已经取得了很大的进展，人们正逐渐从文本转换为视频表达对产品或服务的意见，因为他们现在更容易、更快地生产和共享多模式内容。例如，消费者倾向于使用网络摄像机记录他们对产品的评论和意见，并将其上传到YouTube或Facebook等社交媒体平台，向用户表达他们的观点。出于同样的原因，潜在客户现在更倾向于浏览他们感兴趣的产品的视频评论，而不是寻找冗长的文本评论。这样做的另一个原因是，可信的文本评论很难找到，但是搜索好的视频评论却很容易。

视频可以成为情感分析的绝佳资源，但媒体也面临着需要克服的重大挑战。例如，意见的表达在人与人之间差别很大，有些人委婉的表达自己的观点，有些人直观地表达意见，有些人则完全依赖逻辑表达情绪。当一个人用更多的声音调节来表达个人的意见时，音频数据通常会包含大部分表示意见的线索。当一个人通过面部表情表达个人意见时，情感分析所需的大部分数据往往可以通过面部表情分析来确定。因此，这些个人差异促使我们需要寻找一个通用的情感分析框架。

到目前为止，情感分析大多数先进的框架依赖于处理单一的模式，即文本，音频或视频。虽然最近的研究已经考虑了多模式方法，但大部分研究仅通过在特征或决策级别上简单融合视频和音频情感信息，忽视了文本情感信息。因此，这些说明了开发一个多模式态框架的重要性和可行性。通过开发一个多模态框架，可以应付以人为中心的环境中的所有三种传感模式-文本，音频和视频。人们通过不同的渠道交流和表达自己的情感，文本，音频和视觉形式被同时利用，以便能够有效地提取对话中传达的语义和情感信息。

传统的情感识别方法是基于人工设计的特征。随着大规模数据集越来越普及，深度学习已经成为机器学习的一种通用方法，在许多计算机视觉和自然语言处理任务中，机器学习产生了最先进的结果。最近，三维卷积神经网络(C3D)在处理各种视频分析任务方面取得了很大进展。C3D可以同时对外观和运动信息进行建模，采用线性分类器的C3D特征可以在不同的视频分析基准上实现良好的性能。对于基于视频的情感识别任务中，在现有的发明中，很少有将C3D网络用于自己的研究中。

发明内容

为了克服上述现有技术中存在的缺陷，本发明提供了一种基于多模态融合的社交情感分类方法，用于社交情感分类。

为了实现本发明的上述目的所提出的情感分类方法主要包括如下步骤：基于CNN-RNN混合模型的文本情感分类步骤，利用CNN-RNN混合模型提取文本信息中的情感特征并进行分类处理；基于3DCLS模型的视觉情感分类步骤，利用3DCLS模型提取视觉信息中的时空特征，卷积长短期记忆网络对时空特征序列进行分类处理；基于openSMILE的音频情感分类步骤；和决策融合步骤，将特征提取获得的结果利用决策融合方法进行异质性融合。鉴于此，本发明的具体步骤为：

(1)基于CNN-RNN混合模型的文本情感分类步骤

S11:对输入文本进行预处理，并将其标记为一个单词序列，每个单词都将从word2vec模型中查找得到对应的单词嵌入矩阵，这个字典(word2vec)为每个单词提供了一个300维向量，对于这个词典中没有的单词，使用随机向量。

S12:将句子向量视为图像，并通过线性过滤器对其进行卷积。

S13:对卷积后的每个输出序列t_j应用一个非线性激活函数f来产生一个特征映射c∈Rⁿ-h+¹，其中c_j＝f(t_j)，c_j表示每一个输出序列t_j所对应的特征映射，j＝1,…,n-h+1，h是滤波器的长度，f是一个非线性变换函数。

S14:特征向量可以被馈送到CNN(Convolutional Neural Network)的下一层以进一步卷积，卷积过程与S13一样，或者可以被用于不同自然与预处理任务的输出向量。这里，这个文本特征向量被用作RNN(Recurrent Neural Networks)的输入。

S15:将隐藏状态的输出看作是RNN的最后一步，使用softmax层对文本进行预测分类，然后将交叉熵损耗从RNN反向传播到CNN以更新CNN-RNN模型的权重。使用随机梯度下降(SGD)来加速收敛。

(2)基于3DCLS模型的视觉情感分类步骤

S21:使用C3D从输入视频中提取时空特征，每段视频剪辑为长度为16的序列片段，将序列片段作为输入信息。C3D网络有8个卷积，5个最大池化层和2个完全连接层，然后是一个softmax输出层。

S22:视频V划分为T个片段，V＝(v₁,v₂,…,v_t,…,v_T)，其中v_t是V的第t个片段，K是片段的长度，N表示帧数。接下来，使用3-D CNN网络对每个分割片段进行编码，从而产生图像帧序列X＝(x₁,x₂,…,x_T)。

S23:将隐藏状态的输出看作是LSTM(Recurrent Neural Networks)的最后一步，使用softmax层对视觉信息进行预测分类。

(3)基于openSMILE的音频情感分类步骤

从视频的每个注释片段中使用开源软件openSMILE自动提取音频特征，音频特征以30Hz的帧率提取，滑动窗口设置为100ms。最后将openSMILE提取的音频特征使用SVM进行情感分类预测。

(4)决策融合

S31:获得特征向量不是像特征级融合那样连接特征向量，而是为每种模态使用单独的分类器。

S32:从每个分类器中获得每个情感类别的概率分数。

S33:使用加权和法则，将每个情感类别的概率相加，然后选择最大的标签。

本发明提出了一种多模态情感识别框架，并发明了用于视觉特征提取和预测的3DCLS模型，这为传统的多模态情感识别框架性能提供了显著的改进，本发明框架能够有效地提取对话中传达的语义和情感信息。本发明利用决策级融合对视觉、音频、文本进行异质性融合。本发明学到的深时空特征有效地模拟了视觉外观和运动信息，在融合文本和音频信息后，有效的提高了情感分析的准确率。

附图说明

图1是本发明的模型框架图；

图2是本发明的文本情感分类图；

图3是本发明的视觉情感分类图。

具体实施方式

下面结合附图对本发明的具体实施作进一步的详细阐明。

图1是本发明的模型框架图。涉及音频、视觉和文本形式的信息特征提取和决策融合分类。

(1)基于CNN-RNN混合模型的文本情感分类：对于文本信息，使用CNN-RNN混合模型实现文本情感分析。CNN-RNN由两个部分组成：卷积神经网络提取文本特征，递归神经网络用于情感预测。

(2)基于3DCLS模型的视觉情感分类：3DCLS(3D CNN-ConvLSTM)由两个部分组成：三维卷积神经网络从输入视频中提取时空特征，卷积LSTM(LongShort-Term Memory)进一步学习长期的时空特征，并对提取的特征序列进行处理和情感预测。

(3)基于openSMILE的音频情感分类：openSMILE软件提取的特征由几个低级描述符(LLD)和它们的统计函数组成。部分函数为幅度均值，算术平均值，均方根平均值，标准差，平坦度，偏度，峰度，四分位数，四分位数间距，线性回归斜率等。因此，计算每个LLD的所有函数，得到6373个特征。最后将openSMILE提取的音频特征使用SVM(Support VectorMachine)进行情感分类预测。

(4)决策融合：获得特征向量不是像特征级融合那样连接特征向量，而是为每种模态使用单独的分类器，分类器分别对应音频、视觉和文本以上3点所描述的算法。从每个分类器中获得每个情感类别的概率分数。使用加权和法则，将每个情感类别的概率相加，然后选择最大的标签。

图2是本发明的基于CNN-RNN混合模型的文本情感分类图。使用CNN提取文本情感特征，最后利用RNN进行情感分类。

(1)基于词向量的CNN

CNN不需要传统监督分类器中使用的手工特征，能自动从训练数据中提取关键特征。传统文本分类做法常用词袋模型(Bag Of Words)或向量空间模型(Vector SpaceModel)，传统方法最大的不足是忽略文本上下文关系，每个词之间彼此独立，并且无法表达语义信息。CNN从句子中掌握上下文局部特征，经过多次卷积运算后，最终形成一个局部特征的全局特征向量。

(2)通过RNN进行文本情感分类

LSTM体系结构在每个时间步骤中都有一系列重复的模块，如标准的RNN。LSTM被认为是最成功的RNN变种之一，一个LSTM由三个门组成：输入门i、输出门o和忘记门f。三个门协作控制输入、输出和应该被遗忘的内容，这样就可以建模一些复杂的长期关系。

图3是本发明的基于3DCLS模型的视觉情感分类图。使用C3D提取视觉情感特征，最后利用卷积LSTM进行情感分类。

(1)3D卷积神经网络

在2D卷积神经网络中，卷积和池化操作仅在空间上应用于二维静态图像。C3D是一个有代表性的用于人类行为识别的三维卷积神经络，在3D ConvNets中，通过增加一个时间维度来进行时空的操作。因此，这样的C3D网络保留了输入信号的时间信息，从而产生更加独特的结果。

(2)卷积LSTM

三维卷积神经网络可以直接学习时空特征，LSTM/RNN更适合于学习长期的时间信息。因此，利用三维CNN学习短时空特征，利用LSTM/RNN长时间依赖应用来学习长时空特征将更加合理。一般采用完全连通的特征作为LSTM的输入，但保持LSTM过程中的空间相关性信息可以学习到更多的信息时空特征。

Claims

1.一种基于多模态融合的社交情感分类方法，其特征在于：包括情感特征提取和融合两个步骤；

所述情感特征提取步骤包括：利用CNN-RNN混合模型提取文本信息中的情感特征并进行分类处理；利用3DCLS模型提取视觉信息中的时空特征，卷积LSTM对时空特征序列进行分类处理；利用OpenSMILE工具提取音频特征，再进行情感分类预测；

所述融合步骤为将特征提取获得的结果利用决策融合方法进行异质性融合。

2.根据权利要求1所述一种基于多模态融合的社交情感分类方法，其特征在于：所述CNN-RNN混合模型对文本信息的处理包括以下步骤：

S11：对输入的文本信息进行预处理，并将其标记为一个单词序列；

S12：将句子向量视为图像，并通过线性过滤器对其进行卷积；

S13：对卷积后的每个输出序列t_j应用一个非线性激活函数f来产生一个特征映射；

S14：将S13进行特征映射后获得的特征向量馈送到CNN的下一层以进一步卷积，卷积过程与S13一样，将卷积后的结果作为RNN的输入；

S15：将隐藏状态的输出看作是RNN的最后一步，使用softmax层对文本进行预测分类，然后将交叉熵损耗从RNN反向传播到CNN以更新CNN-RNN模型的权重。

3.根据权利要求1所述一种基于多模态融合的社交情感分类方法，其特征在于：视觉信息提取的步骤如下：

S21：使用C3D从输入视频中提取时空特征，每段视频剪辑为长度为16的序列片段，将序列片段作为输入信息；

S22：视频V划分为T个片段，V＝(v₁,v₂,…,v_t,...,v_T)，其中v_t是V的第t个片段，K是片段的长度，N表示帧数，接下来，使用3-D CNN网络对每个分割片段进行编码，从而产生图像帧序列X＝(x₁,x₂,…,x_T)；

S23：将隐藏状态的输出看作LSTM的最后一步，使用softmax层对视觉信息进行预测分类。

4.根据权利要求3所述一种基于多模态融合的社交情感分类方法，其特征在于：所述C3D网络有8个卷积，5个最大池化层和2个完全连接层，然后是一个softmax输出层。

5.根据权利要求1到4任一项所述一种基于多模态融合的社交情感分类方法，其特征在于：提取音频情征的步骤包括，从视频的每个注释片段中使用开源软件openSMILE自动提取音频特征，然后将音频特征使用SVM进行情感分类预测。

6.根据权利要求1或2或3或4所述一种基于多模态融合的社交情感分类方法，其特征在于：所述决策融合方法：

S31：分别将三个分类处理的结果输入分类器；

S32：从每个分类器中获得每个情感类别的概率分数；

S33：使用加权和法则，将每个情感类别的概率相加，然后选择最大的标签。