CN111753549A

CN111753549A - 一种基于注意力机制的多模态情感特征学习、识别方法

Info

Publication number: CN111753549A
Application number: CN202010441528.8A
Authority: CN
Inventors: 薛艳飞; 张建明; 毛启容
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-10-09
Anticipated expiration: 2040-05-22
Also published as: CN111753549B

Abstract

本发明涉及一种基于注意力机制的多模态情感特征学习、识别方法，对音频、文本样本进行特征提取，得到FBank声学特征和词向量特征；将得到的特征分别作为音频情感特征编码器和文本情感特征编码器的原始输入特征，通过编码器提取不同模态的情感语义特征；对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习，提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征；将四种特征融合之后进行分类即可得到对应的情感类别。本发明解决了传统多模态情感识别中模态内情感无关因素和模态间情感语义不一致导致的情感识别率低的问题，能够有效地提高多模态情感识别准确率。

Description

一种基于注意力机制的多模态情感特征学习、识别方法

技术领域

本发明属于情感计算领域，具体涉及一种基于注意力机制的多模态情感特征学习、识别方法。

背景技术

在人们的日常交互中，情感往往扮演着非常重要的角色，情感信息的感知有助于人们理解彼此的心理状态和行为。同样，情感信息对于维持人类和机器之间的长期交互至关重要，自动语音情感识别是桥接人类和计算机之间沟通鸿沟的一种有效方法。随着互联网的快速发展和普及，人们对人机交互***提出了更高的要求，人们期望与之交互的机器也具有类似于人的观察、理解和生成情感特征的能力。因此，基于语音和文本的多模态情感识别对于改善智能人机交互***的用户体验至关重要，也是当前备受研究者们追捧的研究热点。

在R.Li等人，题为“Towards Discriminative Representation Learning forSpeech Emotion Recognition”的论文中，通过多头自注意力机制和上下文感知的注意力LSTM学习情感显著的特征表示，但该方法没有考虑语音和文本模态间的相互依赖关系。在S.Yoon等人，题为“Attentive Modality Hopping Mechanism for Speech EmotionRecognition”的论文中，利用模态跳变注意力机制对模态之间的依赖关系进行建模，通过融合音频、视频、文本三个模态对齐的情感特征来提高识别率，但忽略了单模态特有情感特征对识别率的影响。由于不同模态之间既存在各自的情感特性，即单模态独立特征，又存在多模态交互关系，即多模态交互特征。因此，如何利用单模态特征和多模态交互特征，高效地抽取文本、语音及其相互依赖的情感特征对多模态情感识别至关重要。

虽然传统的多模态情感识别方法通过融合不同模态的情感特征对最后的情感识别有一定的促进作用，但是大多数多模态情感识别方法没有综合考虑单模态特有的情感特性和多模态之间相互依赖关系对情感识别的影响。因此，本发明为了克服现有技术的缺陷，通过基于模态内注意力和模态跳变意力机制的深度神经网络对多模态情感特征进行学习得到：情感显著的音频特征、情感显著的文本特征、语义对齐的音频特征和语义对齐的文本特征，对这些特征进行融合可以得到多模态之间互补的情感信息。

发明内容

针对现有技术中存在的问题和不足，本发明提出了一种基于注意力机制的多模态情感特征学习、识别方法，训练得到的模型不受情感无关因素的干扰且能更高效地提取不同模态之间的情感依赖关系，从而高效地识别多模态的情感状态。

一种基于注意力机制的多模态情感特征学习、识别方法，包括以下步骤：

S1，预处理和特征提取：分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取，得到对应的FBank声学特征和词向量特征。

S2，情感特征编码器学习：分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取，进而得到音频情感语义特征

和文本情感语义特征

S3，情感显著特征的学习：对音频情感语义特征

和文本情感语义特征

分别使用模态内的注意力机制ESAM进行情感显著特征的提取，分别对

和

的输出特征

和

分配权重系数并对输出特征加权求和得到音频情感显著特征

和文本情感显著特征

S4，语义对齐的情感特征学习：对

和

分别使用模态间的注意力机制MHAM进行模态间情感语义对齐；使用

为

分配模态间情感相关的权重系数，并对

加权表征得到语义对齐的音频特征

使用

为

分配模态间情感相关的权重系数，并对

加权表征得到语义对齐的文本特征

S5，模型训练：将音频情感显著特征

文本情感显著特征

语义对齐的音频特征

和语义对齐的文本特征

融合得到最终的多模态情感特征

将H_mixed送入分类器中进行情感分类得到多模态样本的情感类别。

进一步，所述步骤S1中，对音频模态的样本进行预处理和特征提取的方法为：先对音频样本依次进行预加重、分帧、加窗的预处理；然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。

进一步，步骤S1中，对文本模态的样本进行预处理和特征提取的方法为：采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。

进一步，所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成；将FBank声学特征输入CBiLSTM，通过两层卷积神经网络提取FBank声学特征中情感相关的特征，并将该特征作为双向长短时记忆网络层的输入特征，进行上下文依赖的情感语义特征的提取，得到音频情感语义特征

进一步，所述文本情感特征编码器BiLSTM是由两层双向长短时记忆网络构成，将词向量特征输入BiLSTM，对词向量特征进行上下文相关的情感语义特征的提取，得到文本情感语义特征

进一步，分别采用神经网络自动学习得到

和

中每个输出特征

和

对应的权重系数

和

基于所得的权重系数分别对输出特征

和

加权求和，得到相应的音频情感显著特征

和文本情感显著特征

进一步，所述步骤S4中分别采用跨模态连接的神经网络层自动学习得到输出特征

和

对应的权重系数

和

基于所得的权重系数分别对输出特征

和

加权求和得到相应的语义对齐的音频特征

和语义对齐的文本特征

进一步，采用特征拼接的方式对多模态情感特征进行融合，然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类，得到对应样本所属的情感类别。

本发明具有有益效果

本发明的基于注意力机制的多模态情感特征学习、识别统一框架，通过引入模态内注意力机制，对情感特征编码器提取的情感语义特征进行情感显著特征的学习，使得模型免受情感无关特征的干扰；通过引入模态间注意力机制，对情感语义特征进行模态间的对齐，增强模型对模态交互特征的提取能力。本发明解决了传统多模态情感识别中单模态情感无关特征的影响和多模态情感交互特征抽取能力弱导致的情感识别率低的问题，能够有效地提高多模态情感识别的准确率。

附图说明

图1是本发明一种基于注意力机制的多模态情感特征学习、识别流程图；

图2是本发明所构建的音频模态情感注意力机制结构图；

图3是本发明所构建的文本模态情感注意力机制结构图；

图4是本发明所构建的音频模态跳变注意力机制结构图；

图5是本发明所构建的文本模态跳变注意力机制结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1给出了本发明的总体思路。首先，分别对音频模态的样本、文本模态的样本进行预处理和特征提取，得到音频样本的FBank声学特征和文本样本的词向量特征；其次，将得到的原始特征分别作为音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM的原始输入特征，通过对应的编码器可以提取不同模态的情感语义特征；然后，对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习，提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征；最后，将四种特征融合之后进行分类即可得到对应的情感类别。具体的实施步骤如下：

步骤一，预处理和特征提取：针对音频模态的样本数据，首先对原始音频信号依次进行预加重、分帧、加窗的预处理，帧长为25ms，帧移为15ms。将预处理后的音频信号依次经过快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换得到音频信号对应的FBank声学特征。其中，梅尔滤波器组的尺度为40，最终产生40×L维的FBank声学特征，L为音频样本的帧个数。

针对文本模态的样本数据，采用Google的预训练词向量模型GoogleNews对文本数据进行词向量特征的提取，最终产生300×N维的词向量特征，N为词向量长度。

步骤二，情感特征编码器学习：针对音频和文本模态的数据分别构建音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM。其中，音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成。其中，两层卷积神经网络层的卷积核大小分别为7×7和20×7、特征图个数为128，卷积层之后依次连接了批归一化层、ReLU非线性激活层和最大池化层，最大池化层的核尺寸分别为2×2和1×5。通过卷积操作将得到74×128维的中间情感表征序列M＝[m₁,m₂,...,m_n,...,m_N]，m_n为特征图第n个位置的特征向量，通过两层卷积神经网络层提取FBank声学特征中情感相关的特征，并将该特征作为长短时记忆网络(Long-Short Term Memory,LSTM)层的输入特征，通过公式(1)～(5)可计算得到LSTM对应的输出序列h＝(h₁,h₂,...,h_n,...,h_N)。

f_n＝σ(W_fm_n+U_fh_n-1+b_f) (1)

i_n＝σ(W_im_n+U_ih_n-1+b_i) (2)

o_n＝σ(W_om_n+U_oh_n-1+b_o) (3)

其中，f_n，i_n，o_n和c_n分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量，σ是Sigmoid激活函数，W_f和U_f、W_i和U_i、W_o和U_o、W_c和U_c分别是输入门、遗忘门、输出门和记忆单元的权重矩阵；b_f、b_i、b_o、b_c分别是输入门、遗忘门、输出门和记忆单元的偏置向量；m_n为第n个时间步的输入特征；h_n-1为第n-1个时间步的输出特征；tanh是激活函数；

为哈达玛(Hadamard)积运算符号。

在音频编码器CBiLSTM中，使用两层双向长短时记忆网络(Bidirectional Long-Short Term Memory,BiLSTM)对输入的中间序列特征M进行时序关系建模。BiLSTM的隐向量表征分别来自正向和反向LSTM(使用

和

表示)，每层LSTM的隐藏层节点数为128，同时使用非线性激活可以得到最终的隐向量

N个时间步的输出序列共同组成音频情感语义特征

同样，将文本模态的词向量特征作为文本情感特征编码器BiLSTM的输入特征，表示为X＝[x₁,x₂,...,x_n,...,x_N]，x_n为第n个词向量特征；双向长短时记忆网络通过与音频模态相同的计算方式计算得到文本情感语义特征

其中，

为文本情感语义特征的第n个特征分量。

步骤三，情感显著特征的学习：在对音频和文本编码器生成的所有情感语义特征

和

进行情感分类时，每个时间步的输出特征对于情感识别任务通常并不都是同等重要的。因此，引入模态内注意力机制可以使模型专注于序列中情感显著特征的学习，从而提升情感识别的性能。在不同模态的特征编码器中，使用情感注意力机制对步骤二提取的特征序列进行情感相关的加权表征。图2和图3分别描述了音频模态和文本模态情感显著特征的学习过程，对于音频模态提取的音频情感语义特征

情感注意力层首先计算序列中第n时间步对应的输出特征

的权重

计算方式如公式(6)所示。

其中，exp为以自然常数e为底的指数函数，

W为可训练的参数。音频情感显著特征

是输入序列的加权之和，是对一段语音整体的情感表征，其加权求和的方法如公式(7)所示。

对于文本模态提取的文本情感语义特征

情感注意力层首先计算序列中第n时间步对应输出特征

的权重

计算方式如公式(8)所示。

其中，

W为可训练的参数。文本情感显著特征

是输入序列的加权之和，是对文本词向量整体的情感表征，其加权求和的方法如公式(9)所示。

最后，将得到的情感显著特征

送入下一层进行多模态情感融合。

步骤四，模态交互情感特征学习：使用模态跳变注意力机制MHAM对文本和音频模态间的情感依赖关系进行建模。图4和图5分别描述了音频模态和文本模态的模态交互情感特征学习过程，步骤二提取的音频情感语义特征

经过公式(10)计算得到语义对齐的音频情感特征

同样，步骤二提取的文本情感语义特征

经过公式(11)计算得到语义对齐的文本情感特征

步骤五，模型训练：通过以上步骤可以得到情感显著的特征

和模态间语义对齐的情感特征

将其融合得到最终的多模态情感特征

将H_mixed输入到全连接层进行情感分类得到多模态样本的情感类别。通过softmax激活函数得到模型最终预测的七类情感类别并采用公式(12)所示的多分类交叉熵损失函数对模型参数进行训练。

其中，

为模型预测的情感类别的概率向量，y_j,c为第j个样本的真实情感标签，

为模型预测第j个样本属于第c类的概率，W和b分别为分类器的可训练权重和偏置向量，

为目标函数，C是类别个数，N为训练样本数。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于注意力机制的多模态情感特征学习、识别方法，其特征在于，分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取，得到对应的FBank声学特征和词向量特征；分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取得到音频情感语义特征

和文本情感语义特征

对

和

分别使用模态内的注意力机制ESAM进行情感显著特征的提取得到音频情感显著特征

和文本情感显著特征

对

和

分别使用模态间的注意力机制MHAM进行模态间情感语义对齐，得到语义对齐的音频特征

和语义对齐的文本特征

将

和

融合得到最终的多模态情感特征

2.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法，其特征在于，对音频模态的样本进行预处理和特征提取的方法为：先对音频样本依次进行预加重、分帧、加窗的预处理；然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。

3.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法，其特征在于，对文本模态的样本进行预处理和特征提取的方法为：采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。

4.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法，其特征在于，所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成；将FBank声学特征输入CBiLSTM，通过两层卷积神经网络提取FBank声学特征中情感相关的特征，并将该特征作为双向长短时记忆网络层的输入特征，进行上下文依赖的情感语义特征的提取，得到音频情感语义特征