CN115481679A

CN115481679A - 一种多模态情感分析方法及其***

Info

Publication number: CN115481679A
Application number: CN202211045970.4A
Authority: CN
Inventors: 范存航; 易国峰; 吕钊; 李太豪; 裴冠雄
Original assignee: Anhui University; Zhejiang Lab
Current assignee: Anhui University; Zhejiang Lab
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-16

Abstract

本发明属于多模态情感分析领域，公开了一种多模态情感分析方法及其***，包括S1：对语音、文本和图像模态序列进行编码，再经过1维卷积得到所有模态的特征表示，并将其作为双阶段特征融合的输入特征；S2：设计了一个堆叠Transformer，S3：第一阶段利用堆叠Transformer文本模态与视觉和声学两种非文本模态进行交互互补，并输出适应后的文本和非文本模态；S4：第二阶段将第一阶段输出的增强文本模态信息与原始输入联合表示，然后提取融合表示之间的潜在适应性；最后再融合两个阶段获得的相应信息以预测情感状态。本发明显著提升了多模态情感分析分类的准确率。

Description

一种多模态情感分析方法及其***

技术领域

本发明属于多模态情感分析领域，尤其涉及一种多模态情感分析方法及其***。

背景技术

近年来，随着社交网络的不断发展，我们见证了多模态数据的***式增长。越来越多的用户倾向于使用各种媒体形式(如文字+图像、文字+歌曲、文字+视频等)共同表达自己的态度和情感。从多模态数据中挖掘和理解这些情感元素，即多模态情感分析(MSA)，已成为一个热门研究课题。传统的单峰情感分析，如文本情感分析，依赖于单词、短语和它们之间的语义关系，这不足以识别复杂的情感信息。在向文本中添加面部表情和声调后，多模态信息(图像、语音和转录文本)提供了更生动的描述，并传达了更准确和丰富的情感信息。多模态融合是该研究领域的核心问题，其目的是将从不同单峰模态中提取的信息集成到多模态特征中以进行情感预测。

以前在这一领域的大部分工作集中在早期、晚期或混合融合。早期的融合在特征提取后立即集成(通常通过简单地连接它们的表示)。另一方面，晚期融合是在每一种模式做出决定(例如，分类或回归)后进行整合。最后，混合融合结合了上述两种方法的优点。

大量工作证实了无论哪种融合方式，建模不同模态之间相互作用对最终的融合均有积极作用，关于这一主题的一些工作侧重于单峰模式之间的相互作用，但这些工作忽略了融合表示之间的潜在适应性，这可能导致丢失实际信息的风险。

发明内容

本发明目的在于提供一种多模态情感分析方法及其***，以解决上述技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种多模态情感分析方法，基于双阶段堆叠Transformer，包括以下步骤：

S1：对语音、文本和图像模态序列进行编码，再经过1维卷积得到所有模态的特征表示，并将其作为双阶段特征融合的输入特征；

S2：设计一个堆叠Transformer，所述堆叠Transformer由双向跨模态Transformer和Transformer编码器组成，其是双阶段中模态间交互的核心组件，接受两个输入；

S3：第一阶段利用堆叠Transformer文本模态与视觉和声学两种非文本模态进行交互互补，并输出适应后的文本和非文本模态；

S4：第二阶段将第一阶段输出的增强文本模态信息与原始输入联合表示，然后提取融合表示之间的潜在适应性；最后再融合两个阶段获得的相应信息以预测情感状态。

2、根据权利要求1所述的多模态情感分析方法，其特征在于，步骤S1的具体步骤包括：

S101：使用COVAREP、FACE和BERT分别从音频和视觉原始数据中提取初始向量特征：

其中表示文h_t本初始向量特征，BERT是预训练语言模型，X_t是文本原始数据；

S102：接着通过1D时间卷积传递所有输入序列，以确保输入序列的每个元素对其邻域元素有足够的感知：

其中，k{t，a，v}表示卷积核大小；

3、根据权利要求1所述的多模态情感分析方法，其特征在于，步骤S2的具体步骤包括：

首先利用双向跨模态Transformer对输入的两个特征进行交互，定义多头跨模态注意的查询向量、键向量和值向量分别为

和

其中m∈{t，a}，文本向语音传递信息表示为：

其中，S_t→a代表得分矩阵，CA_i表示跨模态注意中的第i个头，跨模态注意中的n个头的计算方式为：

MH-CA(S_t→a，V_t)＝W′[CA₁，...，CA_n]^T

其中

是多头注意中的权重矩阵；利用权重累加机制，提高跨模态注意中文本模态对非文本模态的适应能力：

最后，经过跨模态Transformer交互后，输出特征再经过Transformer进行优化。

4、根据权利要求1所述的一种多模态情感分析方法，其特征在于，步骤S3的具体步骤包括：

以堆叠Transformer为核心，以文本模态为中心，分别与语音、图像模态进行交互，输出单峰模态间互补后的结果，

将文本模态相关的三个特征拼接起来，当作第二阶段的中心：

5、根据权利要求1所述的一种多模态情感分析方法，其特征在于，步骤S4的具体步骤包括：

堆叠Transformer的输入来自第一阶段的

和

其中

经过自注意力进行细化，再以其为中心，分别与融合文本信息的语音和图像的信息进行再交互。

6、一种基于双阶段堆叠Transformer的多模态情感分析***，其特征在于，包括多模态特征提取模块、双阶段特征融合模块和情感预测模块；

所述多模态特征提取模块，用于提取语音、文本与图像的初始特征，并对其进行编码作为双阶段的输入特征；

所述双阶段特征融合模块，用于对输入的多模态特征进行多阶段的融合，双阶段分别捕获单峰模态间的交互与潜在融合表征之间的互补；

所述情感预测模块，对双阶段融合后的输出特征进行最终的情感预测。

本发明的有益效果是：

(1)本发明设计了一种灵活的多阶段结构用于多模态情感分析任务，不仅捕获单峰模态间的交互，同时也关注潜在融合表征之间的互补性。

(2)此外，为了进一步提高文本模态从文本模态中提取信息的能力，我们提出了权重累加机制，其简单、有效的提高了堆叠Transformer的性能。

(3)本发明对多模态情感分析任务很有帮助，能够显著提高多模态情感分析的情感预测准确率。

附图说明

图1是本发明基于双阶段堆叠Transformer的多模态情感分析方法的流程图；

图2是所述基于双阶段堆叠Transformer的多模态情感分析方法及其***的模型示意图；

图3是所设计的堆叠Transformer整体结构示意图；

图4是所述基于双阶段堆叠Transformer的多模态情感分析***的结构框图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1、图2和图3，本发明实施例包括：

一种多模态情感分析方法，基于双阶段堆叠Transformer，简称为TSST，包括以下步骤：

提取初始多模态特征包括以下步骤：

S101：使用COVAREP、FACE和BERT分别从音频和视觉原始数据中提取初始向量特征。

其中表示文h_t本初始向量特征，BERT是预训练语言模型，X_t是文本原始数据。

S102：接着通过1D时间卷积传递所有输入序列，以确保输入序列的每个元素对其邻域元素有足够的感知

其中，k{t，a，v}表示卷积核大小；

S2：设计了一个堆叠Transformer，其由双向跨模态Transformer和Transformer编码器组成，其是双阶段中模态间交互的核心组件，接受两个输入，先对二者进行跨模态交互，再细化输出。

S201：首先利用双向跨模态Transformer对输入的两个特征进行交互，我们定义多头跨模态注意的查询向量、键向量和值向量分别为

和

其中m∈{t，a}，以文本向语音传递信息为例：

其中，S_t→a代表得分矩阵，CA_i表示跨模态注意中的第i个头。与此同时，跨模态注意中的n个头的计算方式为：

MH-CA(S_t→a，V_t)＝W′[CA₁，...，CA_n]^T

其中

是多头注意中的权重矩阵。此外，我们还利用了权重累加机制，进一步提高跨模态注意中，文本模态对非文本模态的适应能力：

最后，经过跨模态Transformer交互后，输出特征会再经过Transformer进行优化。

S3：第一阶段：以堆叠Transformer为核心，以文本模态为中心，分别与语音、图像模态进行交互，输出单峰模态间互补后的结果，

紧接着我们将文本模态相关的三个特征拼接起来，进一步当作第二阶段的中心。

多数步骤与S3类似，只不过本阶段关注的是融合表征之间的相互适应。堆叠Transformer的输入来自第一阶段的

和

其中

会经过自注意力进行细化，再以其为中心，分别与融合文本信息的语音和图像的信息进行再交互。

最终将第二阶段的输出经过全连接层后进行最后的情感预测。

需要说明的是，在步骤S2中,堆叠Transformer的两个部分：跨模态Transformer与细化Transformer均是可堆叠多层的。此外，本模型使用AdamW作为优化器，学习率设置为0.00005。结合图2，整个模型分为四大块，特征提取模块，第一阶段的单峰模态交互模块、第二阶段的融合表征互补模块与最终的预测模块。

本发明实施例中，参阅图4，还提供一种基于双阶段堆叠Transformer的多模态情感分析检测***，包括：

多模态特征提取模块，用于提取语音、文本与图像的初始特征，并对其进行编码作为双阶段的输入特征。

双阶段特征融合模块，用于对输入的多模态特征进行多阶段的融合，双阶段分别捕获单峰模态间的交互与潜在融合表征之间的互补。

情感预测模块，对双阶段融合后的输出特征进行最终的情感预测。

在本发明中，在两个公共数据集MOSI和MOSEI上进行了实验。为了定量评估双阶段堆叠Transformer(TSST)检测结果，二元分类精度(Acc-2)和平均绝对误差(MAE)被用作评估指标。

表1

表2

表1中所有模型都使用了BERT对文本进行了嵌入，从结果可以发现，与之前的工作相比，我们的框架在各种指标上都有了显著的改进。对于一些早期的工作，如“MulT”，它只捕捉单峰模式之间的相互适应，我们模型的所有指标在两个数据集上都得到了极大的改进。最重要的是，MOSEI数据集的二元分类精度提高了4％以上。与涉及Transformer的其他模型(“MISA”)相比，所有指标都已更新。此外，为了公平起见，我们还与最先进的模型进行了详细比较。我们在相同条件下重现最佳基线“MMIM”。我们的框架在Acc-2上实现了86.65％，比“MMIM”提高了1.45％。与Acc-2相似，我们在MAE方面获得了1.1％的改善。在较小的数据集MOSI上，我们的框架具有与SOTA方法类似的性能。

为了进一步探索TSST的贡献，我们对CMU-MOSEI数据集进行了消融研究。结果如表2所示。一方面，与单阶段相比，两阶段的指标明显更好：单阶段的Acc-2指标比两阶段低约1.4％，MAE也略有下降。这证明跨多个阶段的跨模态交互建模是有益的，融合表示的相互适应可以带来一些有用的信息。我们还探讨了权重累积机制的益处。结果表明，它对框架的性能有积极影响。当我们去除这两种情况时，模型的整体性能显著下降，二元分类精度下降约2.3％。这进一步说明了在这项工作中引入组件的有效性。

另一方面，我们也进行了两个以上的融合阶段。我们观察到进一步的增加导致性能下降，我们假设这是由于数据集的过度拟合。现有的多模态情感分析数据集由于费力的标记过程而非常小。例如，现有数据集的开发涉及多个注释器的数据整理和注释。有限的数据集大小增加了过度拟合的风险。

这些结果证明了本发明提出的方法的有效性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。