CN115481679A - 一种多模态情感分析方法及其*** - Google Patents

一种多模态情感分析方法及其*** Download PDF

Info

Publication number
CN115481679A
CN115481679A CN202211045970.4A CN202211045970A CN115481679A CN 115481679 A CN115481679 A CN 115481679A CN 202211045970 A CN202211045970 A CN 202211045970A CN 115481679 A CN115481679 A CN 115481679A
Authority
CN
China
Prior art keywords
modal
text
stage
mode
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211045970.4A
Other languages
English (en)
Inventor
范存航
易国峰
吕钊
李太豪
裴冠雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Zhejiang Lab
Original Assignee
Anhui University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University, Zhejiang Lab filed Critical Anhui University
Priority to CN202211045970.4A priority Critical patent/CN115481679A/zh
Publication of CN115481679A publication Critical patent/CN115481679A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明属于多模态情感分析领域,公开了一种多模态情感分析方法及其***,包括S1:对语音、文本和图像模态序列进行编码,再经过1维卷积得到所有模态的特征表示,并将其作为双阶段特征融合的输入特征;S2:设计了一个堆叠Transformer,S3:第一阶段利用堆叠Transformer文本模态与视觉和声学两种非文本模态进行交互互补,并输出适应后的文本和非文本模态;S4:第二阶段将第一阶段输出的增强文本模态信息与原始输入联合表示,然后提取融合表示之间的潜在适应性;最后再融合两个阶段获得的相应信息以预测情感状态。本发明显著提升了多模态情感分析分类的准确率。

Description

一种多模态情感分析方法及其***
技术领域
本发明属于多模态情感分析领域,尤其涉及一种多模态情感分析方法及其***。
背景技术
近年来,随着社交网络的不断发展,我们见证了多模态数据的***式增长。越来越多的用户倾向于使用各种媒体形式(如文字+图像、文字+歌曲、文字+视频等)共同表达自己的态度和情感。从多模态数据中挖掘和理解这些情感元素,即多模态情感分析(MSA),已成为一个热门研究课题。传统的单峰情感分析,如文本情感分析,依赖于单词、短语和它们之间的语义关系,这不足以识别复杂的情感信息。在向文本中添加面部表情和声调后,多模态信息(图像、语音和转录文本)提供了更生动的描述,并传达了更准确和丰富的情感信息。多模态融合是该研究领域的核心问题,其目的是将从不同单峰模态中提取的信息集成到多模态特征中以进行情感预测。
以前在这一领域的大部分工作集中在早期、晚期或混合融合。早期的融合在特征提取后立即集成(通常通过简单地连接它们的表示)。另一方面,晚期融合是在每一种模式做出决定(例如,分类或回归)后进行整合。最后,混合融合结合了上述两种方法的优点。
大量工作证实了无论哪种融合方式,建模不同模态之间相互作用对最终的融合均有积极作用,关于这一主题的一些工作侧重于单峰模式之间的相互作用,但这些工作忽略了融合表示之间的潜在适应性,这可能导致丢失实际信息的风险。
发明内容
本发明目的在于提供一种多模态情感分析方法及其***,以解决上述技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种多模态情感分析方法,基于双阶段堆叠Transformer,包括以下步骤:
S1:对语音、文本和图像模态序列进行编码,再经过1维卷积得到所有模态的特征表示,并将其作为双阶段特征融合的输入特征;
S2:设计一个堆叠Transformer,所述堆叠Transformer由双向跨模态Transformer和Transformer编码器组成,其是双阶段中模态间交互的核心组件,接受两个输入;
S3:第一阶段利用堆叠Transformer文本模态与视觉和声学两种非文本模态进行交互互补,并输出适应后的文本和非文本模态;
S4:第二阶段将第一阶段输出的增强文本模态信息与原始输入联合表示,然后提取融合表示之间的潜在适应性;最后再融合两个阶段获得的相应信息以预测情感状态。
2、根据权利要求1所述的多模态情感分析方法,其特征在于,步骤S1的具体步骤包括:
S101:使用COVAREP、FACE和BERT分别从音频和视觉原始数据中提取初始向量特征:
Figure BDA0003822403350000021
其中表示文ht本初始向量特征,BERT是预训练语言模型,Xt是文本原始数据;
S102:接着通过1D时间卷积传递所有输入序列,以确保输入序列的每个元素对其邻域元素有足够的感知:
Figure BDA0003822403350000022
其中,k{t,a,v}表示卷积核大小;
3、根据权利要求1所述的多模态情感分析方法,其特征在于,步骤S2的具体步骤包括:
首先利用双向跨模态Transformer对输入的两个特征进行交互,定义多头跨模态注意的查询向量、键向量和值向量分别为
Figure BDA0003822403350000023
Figure BDA0003822403350000024
其中m∈{t,a},文本向语音传递信息表示为:
Figure BDA0003822403350000025
Figure BDA0003822403350000026
其中,St→a代表得分矩阵,CAi表示跨模态注意中的第i个头,跨模态注意中的n个头的计算方式为:
MH-CA(St→a,Vt)=W′[CA1,...,CAn]T
其中
Figure BDA0003822403350000031
是多头注意中的权重矩阵;利用权重累加机制,提高跨模态注意中文本模态对非文本模态的适应能力:
Figure BDA0003822403350000032
最后,经过跨模态Transformer交互后,输出特征再经过Transformer进行优化。
4、根据权利要求1所述的一种多模态情感分析方法,其特征在于,步骤S3的具体步骤包括:
以堆叠Transformer为核心,以文本模态为中心,分别与语音、图像模态进行交互,输出单峰模态间互补后的结果,
Figure BDA0003822403350000033
将文本模态相关的三个特征拼接起来,当作第二阶段的中心:
Figure BDA0003822403350000034
5、根据权利要求1所述的一种多模态情感分析方法,其特征在于,步骤S4的具体步骤包括:
堆叠Transformer的输入来自第一阶段的
Figure BDA0003822403350000035
Figure BDA0003822403350000036
其中
Figure BDA0003822403350000037
经过自注意力进行细化,再以其为中心,分别与融合文本信息的语音和图像的信息进行再交互。
6、一种基于双阶段堆叠Transformer的多模态情感分析***,其特征在于,包括多模态特征提取模块、双阶段特征融合模块和情感预测模块;
所述多模态特征提取模块,用于提取语音、文本与图像的初始特征,并对其进行编码作为双阶段的输入特征;
所述双阶段特征融合模块,用于对输入的多模态特征进行多阶段的融合,双阶段分别捕获单峰模态间的交互与潜在融合表征之间的互补;
所述情感预测模块,对双阶段融合后的输出特征进行最终的情感预测。
本发明的有益效果是:
(1)本发明设计了一种灵活的多阶段结构用于多模态情感分析任务,不仅捕获单峰模态间的交互,同时也关注潜在融合表征之间的互补性。
(2)此外,为了进一步提高文本模态从文本模态中提取信息的能力,我们提出了权重累加机制,其简单、有效的提高了堆叠Transformer的性能。
(3)本发明对多模态情感分析任务很有帮助,能够显著提高多模态情感分析的情感预测准确率。
附图说明
图1是本发明基于双阶段堆叠Transformer的多模态情感分析方法的流程图;
图2是所述基于双阶段堆叠Transformer的多模态情感分析方法及其***的模型示意图;
图3是所设计的堆叠Transformer整体结构示意图;
图4是所述基于双阶段堆叠Transformer的多模态情感分析***的结构框图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1、图2和图3,本发明实施例包括:
一种多模态情感分析方法,基于双阶段堆叠Transformer,简称为TSST,包括以下步骤:
S1:对语音、文本和图像模态序列进行编码,再经过1维卷积得到所有模态的特征表示,并将其作为双阶段特征融合的输入特征;
提取初始多模态特征包括以下步骤:
S101:使用COVAREP、FACE和BERT分别从音频和视觉原始数据中提取初始向量特征。
Figure BDA0003822403350000041
其中表示文ht本初始向量特征,BERT是预训练语言模型,Xt是文本原始数据。
S102:接着通过1D时间卷积传递所有输入序列,以确保输入序列的每个元素对其邻域元素有足够的感知
Figure BDA0003822403350000042
其中,k{t,a,v}表示卷积核大小;
S2:设计了一个堆叠Transformer,其由双向跨模态Transformer和Transformer编码器组成,其是双阶段中模态间交互的核心组件,接受两个输入,先对二者进行跨模态交互,再细化输出。
S201:首先利用双向跨模态Transformer对输入的两个特征进行交互,我们定义多头跨模态注意的查询向量、键向量和值向量分别为
Figure BDA0003822403350000051
Figure BDA0003822403350000052
其中m∈{t,a},以文本向语音传递信息为例:
Figure BDA0003822403350000053
Figure BDA0003822403350000054
其中,St→a代表得分矩阵,CAi表示跨模态注意中的第i个头。与此同时,跨模态注意中的n个头的计算方式为:
MH-CA(St→a,Vt)=W′[CA1,...,CAn]T
其中
Figure BDA0003822403350000055
是多头注意中的权重矩阵。此外,我们还利用了权重累加机制,进一步提高跨模态注意中,文本模态对非文本模态的适应能力:
Figure BDA0003822403350000056
最后,经过跨模态Transformer交互后,输出特征会再经过Transformer进行优化。
S3:第一阶段:以堆叠Transformer为核心,以文本模态为中心,分别与语音、图像模态进行交互,输出单峰模态间互补后的结果,
Figure BDA0003822403350000057
紧接着我们将文本模态相关的三个特征拼接起来,进一步当作第二阶段的中心。
Figure BDA0003822403350000058
S4:第二阶段将第一阶段输出的增强文本模态信息与原始输入联合表示,然后提取融合表示之间的潜在适应性;最后再融合两个阶段获得的相应信息以预测情感状态。
多数步骤与S3类似,只不过本阶段关注的是融合表征之间的相互适应。堆叠Transformer的输入来自第一阶段的
Figure BDA0003822403350000059
Figure BDA00038224033500000510
其中
Figure BDA00038224033500000511
会经过自注意力进行细化,再以其为中心,分别与融合文本信息的语音和图像的信息进行再交互。
最终将第二阶段的输出经过全连接层后进行最后的情感预测。
需要说明的是,在步骤S2中,堆叠Transformer的两个部分:跨模态Transformer与细化Transformer均是可堆叠多层的。此外,本模型使用AdamW作为优化器,学习率设置为0.00005。结合图2,整个模型分为四大块,特征提取模块,第一阶段的单峰模态交互模块、第二阶段的融合表征互补模块与最终的预测模块。
本发明实施例中,参阅图4,还提供一种基于双阶段堆叠Transformer的多模态情感分析检测***,包括:
多模态特征提取模块,用于提取语音、文本与图像的初始特征,并对其进行编码作为双阶段的输入特征。
双阶段特征融合模块,用于对输入的多模态特征进行多阶段的融合,双阶段分别捕获单峰模态间的交互与潜在融合表征之间的互补。
情感预测模块,对双阶段融合后的输出特征进行最终的情感预测。
在本发明中,在两个公共数据集MOSI和MOSEI上进行了实验。为了定量评估双阶段堆叠Transformer(TSST)检测结果,二元分类精度(Acc-2)和平均绝对误差(MAE)被用作评估指标。
表1
Figure BDA0003822403350000061
表2
Figure BDA0003822403350000062
表1中所有模型都使用了BERT对文本进行了嵌入,从结果可以发现,与之前的工作相比,我们的框架在各种指标上都有了显著的改进。对于一些早期的工作,如“MulT”,它只捕捉单峰模式之间的相互适应,我们模型的所有指标在两个数据集上都得到了极大的改进。最重要的是,MOSEI数据集的二元分类精度提高了4%以上。与涉及Transformer的其他模型(“MISA”)相比,所有指标都已更新。此外,为了公平起见,我们还与最先进的模型进行了详细比较。我们在相同条件下重现最佳基线“MMIM”。我们的框架在Acc-2上实现了86.65%,比“MMIM”提高了1.45%。与Acc-2相似,我们在MAE方面获得了1.1%的改善。在较小的数据集MOSI上,我们的框架具有与SOTA方法类似的性能。
为了进一步探索TSST的贡献,我们对CMU-MOSEI数据集进行了消融研究。结果如表2所示。一方面,与单阶段相比,两阶段的指标明显更好:单阶段的Acc-2指标比两阶段低约1.4%,MAE也略有下降。这证明跨多个阶段的跨模态交互建模是有益的,融合表示的相互适应可以带来一些有用的信息。我们还探讨了权重累积机制的益处。结果表明,它对框架的性能有积极影响。当我们去除这两种情况时,模型的整体性能显著下降,二元分类精度下降约2.3%。这进一步说明了在这项工作中引入组件的有效性。
另一方面,我们也进行了两个以上的融合阶段。我们观察到进一步的增加导致性能下降,我们假设这是由于数据集的过度拟合。现有的多模态情感分析数据集由于费力的标记过程而非常小。例如,现有数据集的开发涉及多个注释器的数据整理和注释。有限的数据集大小增加了过度拟合的风险。
这些结果证明了本发明提出的方法的有效性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种多模态情感分析方法,基于双阶段堆叠Transformer,其特征在于,包括以下步骤:
S1:对语音、文本和图像模态序列进行编码,再经过1维卷积得到所有模态的特征表示,并将其作为双阶段特征融合的输入特征;
S2:设计一个堆叠Transformer,所述堆叠Transformer由双向跨模态Transformer和Transformer编码器组成,其是双阶段中模态间交互的核心组件,接受两个输入;
S3:第一阶段利用堆叠Transformer文本模态与视觉和声学两种非文本模态进行交互互补,并输出适应后的文本和非文本模态;
S4:第二阶段将第一阶段输出的增强文本模态信息与原始输入联合表示,然后提取融合表示之间的潜在适应性;最后再融合两个阶段获得的相应信息以预测情感状态。
2.根据权利要求1所述的多模态情感分析方法,其特征在于,步骤S1的具体步骤包括:
S101:使用COVAREP、FACE和BERT分别从音频和视觉原始数据中提取初始向量特征:
Figure FDA0003822403340000011
其中表示文ht本初始向量特征,BERT是预训练语言模型,Xt是文本原始数据;
S102:接着通过1D时间卷积传递所有输入序列,以确保输入序列的每个元素对其邻域元素有足够的感知:
Figure FDA0003822403340000012
其中,k{t,a,v}表示卷积核大小。
3.根据权利要求1所述的多模态情感分析方法,其特征在于,步骤S2的具体步骤包括:
首先利用双向跨模态Transformer对输入的两个特征进行交互,定义多头跨模态注意的查询向量、键向量和值向量分别为
Figure FDA0003822403340000013
Figure FDA0003822403340000014
其中m∈{t,a},文本向语音传递信息表示为:
Figure FDA0003822403340000021
Figure FDA0003822403340000022
其中,St→a代表得分矩阵,CAi表示跨模态注意中的第i个头,跨模态注意中的n个头的计算方式为:
MH-CA(St→a,Vt)=W′[CA1,...,CAn]T
其中
Figure FDA0003822403340000023
是多头注意中的杈重矩阵;利用杈重累加机制,提高跨模态注意中文本模态对非文本模态的适应能力:
Figure FDA0003822403340000024
最后,经过跨模态Transformer交互后,输出特征再经过Transformer进行优化。
4.根据权利要求1所述的一种多模态情感分析方法,其特征在于,步骤S3的具体步骤包括:
以堆叠Transformer为核心,以文本模态为中心,分别与语音、图像模态进行交互,输出单峰模态间互补后的结果,
Figure FDA0003822403340000029
将文本模态相关的三个特征拼接起来,当作第二阶段的中心:
Figure FDA0003822403340000025
5.根据权利要求1所述的一种多模态情感分析方法,其特征在于,步骤S4的具体步骤包括:
堆叠Transformer的输入来自第一阶段的
Figure FDA0003822403340000026
Figure FDA0003822403340000027
其中
Figure FDA0003822403340000028
经过自注意力进行细化,再以其为中心,分别与融合文本信息的语音和图像的信息进行再交互。
6.一种基于双阶段堆叠Transformer的多模态情感分析***,其特征在于,包括多模态特征提取模块、双阶段特征融合模块和情感预测模块;
所述多模态特征提取模块,用于提取语音、文本与图像的初始特征,并对其进行编码作为双阶段的输入特征;
所述双阶段特征融合模块,用于对输入的多模态特征进行多阶段的融合,双阶段分别捕获单峰模态间的交互与潜在融合表征之间的互补;
所述情感预测模块,对双阶段融合后的输出特征进行最终的情感预测。
CN202211045970.4A 2022-08-30 2022-08-30 一种多模态情感分析方法及其*** Pending CN115481679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045970.4A CN115481679A (zh) 2022-08-30 2022-08-30 一种多模态情感分析方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045970.4A CN115481679A (zh) 2022-08-30 2022-08-30 一种多模态情感分析方法及其***

Publications (1)

Publication Number Publication Date
CN115481679A true CN115481679A (zh) 2022-12-16

Family

ID=84421864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045970.4A Pending CN115481679A (zh) 2022-08-30 2022-08-30 一种多模态情感分析方法及其***

Country Status (1)

Country Link
CN (1) CN115481679A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758462A (zh) * 2023-08-22 2023-09-15 江西师范大学 一种情感极性分析方法、装置、电子设备及存储介质
CN117688936A (zh) * 2024-02-04 2024-03-12 江西农业大学 一种图文融合的低秩多模态融合情感分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758462A (zh) * 2023-08-22 2023-09-15 江西师范大学 一种情感极性分析方法、装置、电子设备及存储介质
CN117688936A (zh) * 2024-02-04 2024-03-12 江西农业大学 一种图文融合的低秩多模态融合情感分析方法
CN117688936B (zh) * 2024-02-04 2024-04-19 江西农业大学 一种图文融合的低秩多模态融合情感分析方法

Similar Documents

Publication Publication Date Title
TWI754033B (zh) 關注點文案的生成
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别***、方法及实验评价方法
CN112489635A (zh) 一种基于增强注意力机制的多模态情感识别方法
CN115481679A (zh) 一种多模态情感分析方法及其***
CN113255755A (zh) 一种基于异质融合网络的多模态情感分类方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索***及方法
CN115577161A (zh) 融合情感资源的多模态情感分析模型
Chen et al. A large scale speech sentiment corpus
CN114969458B (zh) 基于文本指导的层级自适应融合的多模态情感分析方法
CN115599894A (zh) 情绪识别的方法、装置、电子设备及存储介质
CN114417097A (zh) 一种基于时间卷积与自注意力的情感预测方法及***
CN116563751B (zh) 一种基于注意力机制的多模态情感分析方法及***
Zhang et al. Accent recognition with hybrid phonetic features
CN116401376A (zh) 一种面向工艺性检查的知识图谱构建方法及***
Zeng et al. Robust multimodal sentiment analysis via tag encoding of uncertain missing modalities
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN117036833A (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN114020871B (zh) 基于特征融合的多模态社交媒体情感分析方法
CN115858728A (zh) 一种基于多模态数据的情感分析方法
CN116484872A (zh) 基于预训练与注意力的多模态方面级情感判断方法和***
CN114998698A (zh) 动态时域卷积网络驱动的多模态情感识别方法
Jiang et al. Audio public opinion analysis model based on heterogeneous neural network
CN118114188B (zh) 基于多视角和分层融合的虚假新闻检测方法
CN117150320B (zh) 对话数字人情感风格相似度评价方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination