CN115510224A

CN115510224A - 一种基于视觉、音频与文本融合的跨模态bert情感分析方法

Info

Publication number: CN115510224A
Application number: CN202210825285.7A
Authority: CN
Inventors: 刘峰; 吴振国; 赵峥涞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-12-23

Abstract

一种基于视觉、音频与文本融合的跨模态BERT情感分析方法，将三种不同方式提取出的模态进行缩放并使用一个一维卷积网络控制其处于相同维度；分别对视觉、音频模态进行类Self‑Attention处理并加权融合生成双模态注意力矩阵；对文本进行相同处理后与双模态注意力矩阵进行进一步融合并通过Mask掩码模块和激活函数生成融合后的多模态权重矩阵；将多模态权重矩阵与文本预训练模型提取到的文本特征进行矩阵相乘处理后通过残差网络和归一化得到的情感分类结果来微调文本预训练模型。本方法结合来自文本、图像和语音模态的信息微调预先训练过的文本模型，采用Cross‑Multimodal作为其核心，通过跨模态交互作用动态调整单词的权重，能够有效提高文本预训练模型对于情感分类的准确性。

Description

一种基于视觉、音频与文本融合的跨模态BERT情感分析方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于视觉、音频与文本融合的跨模态BERT情感分析方法。

背景技术

情感在人类的人际交往中起着至关重要的作用。情绪分析作为人机交互的关键技术之一，影响着人工智能的发展，已广泛应用于许多应用场景，如人机对话、自动驱动等。文本是我们日常生活中的一种基本的方式，它通过词语、短语和关系来表达情感。在过去的几年里，文本情绪分析取得了很多成就，例如，TextCNN在针对句子级分类任务的预训练词向量之上进行训练，取得的不错的效果。

然而人们对世界的认知，对信息的处理是多模态的，大多的机器学习模型却是仅针对单模态的，例如普通的BERT模型，在某些情况下，很难通过文本信息来准确地判断情绪；而单一的图片情感分析或是语音情感分析也仅仅针对单一模态做处理。

发明内容

针对现有技术的不足，本发明目的在于提供一种可以同时利用文本信息、视觉信息、音频信息的多模态情感分析方法，提高了单一模态情感分析的准确率。

本发明为实现上述发明目的采用以下技术方案：

(1)从输入视频中提取出图像特征、语音特征与文本特征，并控制三种不同模态的特征到同一维度上，具体步骤如下：

(1.1)先通过MTCNN来提取对齐人脸，使用OpenFace Toolkit2.0 提取出共709维的图像特征；使用具有默认参数的Librosa提取共33 维的语音特征；使用预训练好的标准BERT模型提取768维的文本特征；

(1.2)将所述三种模态输入到一维卷积层控制其到相同的维度，并对三种模态进行缩放。

(2)将所述三种模态特征输入到Masked MultiModel Attention 网络，结合类Self-Attention方法对其进行处理，得到多模态注意力矩阵，具体分步骤如下：

(2.1)将所述处理后的视觉特征输入到类Self-Attention网络得到双模态注意力矩阵W_fva。

(2.2)将所述的文本特征与双模态注意力矩阵W_fva输入到类 Self-Attention网络得到多模态注意力矩阵W_f；

(3)将所述多模态注意力矩阵输入到Mask模块处理得到多模态权重矩阵，之后再与初始文本模态相乘，得到具有多模态权重的文本特征；

(3.1)将多模态注意力矩阵W_f输入到Mask模块中输出多模态权重矩阵W_m。

(3.2)通过MatMul层将多模态权重矩阵W_m与初始文本特征相乘输出得到X_att。

(4)将所述的具有多模态权重的文本特征输入到残差网络并进行归一化，输出得到情感分类结果。

与现有技术相比，本发明具备的有益效果为：

(1)对三种不同的模态进行缩放并通过一维卷积网络控制其处于相同纬度；在普通的BERT模型中引入了跨模态概念，加入了视频中视觉与音频特征；使用类Self-Attention网络对引入的图像与语音特征进行处理后与文本特征相结合得到多模态情感分析结果，并通过各模态之间的交互动态调整单词的权重

(2)本发明附加方面的优点将在下面的描述中部分给出，或从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例中的方法流程图。

图2是本发明实施例中的情感分析模型整体结构图。

图3是本发明实施例中的Cross-Multimodal BERT模型结构图。

图4是本发明实施例中的本方法在数据集CMU-MOSI数据集最终结果示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

步骤1：通过获取网上公开的CMU-MOSI数据集和CMU-MOSEI 数据集来构建数据样本，从数据集中的视频中提取出图像特征、语音特征与文本特征，并控制三种不同模态的特征到同一维度上；

(1)通过MTCNN提取对齐人脸，使用OpenFace Toolkit2.0提取出包括68个面部标志、17个面部动作单元、头部姿势、头部方向和眼睛注视等共709维的图像特征；

(2)使用具有默认参数的Librosa提取包括1维对数基频(log F0)、 20维梅尔频率倒谱系数(MFCC)和12维Constant-Q色谱图(CQT) 等共33维的语音特征；

(3)使用预训练好的标准BERT模型提取包括词向量编码、位置信息等共768维的文本特征；

(4)将所述三种模态的特征输入到一维卷积层Conv1D控制成相同的维度，并对三种模态的特征进行缩放防止量级过大。

步骤2：将步骤1所述三种模态特征输入到Masked MultiModel Attention网络，结合类Self-Attention方法对其进行处理，得到多模态注意力矩阵，具体分步骤如下：

(1)将处理后的图像特通过线性处理得到两个不同维度的矩阵，记为Q_v、K_v，语音特征记为Q_a、K_a，利用类Self-Attention得到双模态注意力矩阵。用α_v表示图像注意力矩阵，β_a表示语音注意力矩阵， Relu表示Relu激活函数，ω_v表示图像注意力矩阵权重，ω_a表示语音注意力矩阵权重，b表示偏置，输出双模态注意力矩阵W_fva：

W_fva＝ω_v*α_v+ω_a*β_a+b (3)

(2)将输入的文本特征记为Q_t、K_t，将W_fva输入到类 Self-Attention得到多模态注意力矩阵。其中γ_t表示文本注意力矩阵， Relu表示Relu激活函数，ω_t表示文本注意力矩阵权重，ω_f表示双模态注意力矩阵权重，b表示偏置，融合后得到多模态注意力矩阵W_f：

W_f＝ω_f*W_fva+ω_t*γ_t+b (5)

步骤3：将步骤2所述多模态注意力矩阵输入到Mask模块处理得到多模态权重矩阵，之后再与初始文本模态相乘，得到具有多模态权重的文本特征，具体分步骤如下：

(1)将步骤2得到的多模态注意力矩阵W_f输入到Mask模块中输出多模态权重矩阵W_m。其中M代表掩码矩阵，Softmax为Softmax 激活函数，使注意力矩阵变成多模态权重矩阵：

W_m＝Softmax(W_f+M) (6)

(2)通过MatMul层将多模态权重矩阵W_m与初始文本特征(即为图3中标记的Vm，图中其由TextSubNet输出，也就是图2中 TextSubNet部分得到的输出)相乘输出得到包含了其他模态信息的文本特征X_att。

步骤4：将所述的具有多模态权重的文本特征输入到残差网络并进行归一化，具体步骤如下，至此完成神经网络的构建：

(1)通过Residual Connection残差连接层，将步骤3的输出与初始文本特征进行拼接(将两个向量进行叠加)，使的深层网络中得到的结果不会比输入差。

(2)通过Layer Norm归一化层，将步骤(4.1)的输出归一化，使得后面进行反向传播时能够获取平衡的梯度；

(3)通过误差反向传播算法调整网络模型的参数至最优(这部分是模型自己通过得到的数据反馈根据梯度优化法来自己对参数进行优化)，固定训练好的参数，得到基于图像、语音与文本融合的跨模态BERT情感分析模型，将样本测试集输入到网络模型中，从而实现多模态文本情感分类。

本方法在数据集CMU-MOSI数据集最终得到的效果如图4所示，可以看到本方法的7分类准确率Acc7、二分类准确率Acc2、F1-Score、均方损失误差MAE均优于目前大部分方法，误差Corr也较小。

本发明提出一种基于图像、语音融合跨模态微调文本预训练模型的情感分析方法，一方面将视频中的图像、语音特征提取出来通过类Self-Attention网络进行处理，获得双模态的注意力矩阵；另一方面在对标准BERT模型提取出的文本特征做处理，并将其余双模态注意力矩阵做融合得到多模态权重矩阵，之后通过新的权重去进一步处理文本特征得到多模态文本特征；本发明能够有效预测在多模态下文本的情感倾向。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于视觉、音频与文本融合的跨模态BERT情感分析方法，其特征在于：包括以下步骤：

步骤(1)，从输入视频中提取出图像特征、语音特征与文本特征，并控制三种不同模态的特征到同一维度上；

步骤(2)，将所述三种模态特征输入到Masked MultiModel Attention网络，结合类Self-Attention方法对其进行处理，得到多模态注意力矩阵；

步骤(3)，将所述多模态注意力矩阵输入到Mask模块处理得到多模态权重矩阵，之后再与初始文本模态相乘，得到具有多模态权重的文本特征；

步骤(4)，将所述的具有多模态权重的文本特征输入到残差网络并进行归一化，并调整优化网络模型参数，输入待测数据集后，输出得到情感分类结果。

2.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法，其特征在于：步骤(1)提取初始三种模态特征具体包括如下步骤：

步骤(1.1)，先通过多任务卷积神经网络MTCNN提取出对齐的人脸，之后使用OpenFaceToolkit2.0提取图像特征；

步骤(1.2)，使用具有默认参数的语音处理包Librosa提取语音特征；

步骤(1.3)，使用预训练好的标准BERT模型提取文本特征；

步骤(1.4)，将所述三种特征输入到一维卷积层控制其到相同的维度，并对三种特征进行缩放防止量级过大。

3.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法，其特征在于：步骤(2)具体包括如下步骤：

步骤(2.1)，将处理后的图像特通过线性处理得到两个不同维度的矩阵，记为Q_v、K_v，语音特征记为Q_a、K_a，利用类Self-Attention得到双模态注意力矩阵；

步骤(2.2)，将输入的文本特征记为Q_t、K_t，将W_fva输入到类Self-Attention得到多模态注意力矩阵。

4.根据权利要求3所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法，其特征在于：步骤(2.1)中，用α_v表示图像注意力矩阵，β_a表示语音注意力矩阵，Relu表示Relu激活函数，ω_v表示视觉注意力矩阵权重，ω_a表示音频注意力矩阵权重，b表示偏置，输出双模态注意力矩阵W_fva：

W_fva＝ω_v*α_v+ω_a*β_a+b (3)。

5.根据权利要求3所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法，其特征在于：步骤(2.2)中，γ_t表示视觉注意力矩阵，Relu表示Relu激活函数，ω_t表示文本注意力矩阵权重，ω_f表示双模态注意力矩阵权重，b表示偏置，融合后得到多模态注意力矩阵W_f：

W_f＝ω_f*W_fva+ω_t*γ_t+b (5)。

6.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法，其特征在于：步骤(3)具体包括如下步骤：

步骤(3.1)，将步骤(2)得到的多模态注意力矩阵W_f输入到Mask模块中输出W_m；其中W_m代表多模态权重矩阵，M代表掩码矩阵，Softmax为Softmax激活函数：

W_m＝Softmax(W_f+M) (6)

步骤(3.2)，通过MatMul层将多模态权重矩阵W_m与初始文本特征相乘输出得到X_att。

7.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法，其特征在于：步骤(4)具体包括如下步骤：

步骤(4.1)，通过Residual Connection残差连接层，将步骤(3.2)的输出与初始文本特征进行拼接；

步骤(4.2)，通过Layer Norm归一化层，将步骤(4.1)的输出归一化，获得最终情感极性；

步骤(4.3)，通过误差反向传播算法调整网络模型的参数至最优，固定训练好的参数，得到基于图像语音与文本融合的跨模态BERT情感分析模型，将样本数据集输入到网络模型中，从而实现多模态文本情感分类。