CN113312530B

CN113312530B - 一种以文本为核心的多模态情感分类方法

Info

Publication number: CN113312530B
Application number: CN202110652703.2A
Authority: CN
Inventors: 秦兵; 吴洋; 赵妍妍; 胡晓毓
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-02-15
Anticipated expiration: 2041-06-09
Also published as: CN113312530A

Abstract

一种以文本为核心的多模态情感分类方法，涉及自然语言处理技术领域，针对现有技术中将每个模态的语义信息看作一个整体，缺乏探索不同模态交互的能力，进而导致情感分类不准确的问题，包含两部分，一部分是跨模态预测模型，该模型以文本模态特征为输入，输出为语音/图像模态特征。利用该模型我们设计了共享特征与私有特征的判定规则，进而利用规则分辨出共享和私有特征。另一部分是情感预测模型，该模型利用跨模态注意力机制将文本模态特征与语音/图像的共享和私有特征进行融合，最后得到多模态融合特征进行情感分类。

Description

一种以文本为核心的多模态情感分类方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种以文本为核心的多模态情感分类方法。

背景技术

多模态情感分析是一个新兴的研究领域，其目的是使用文本和非文本的(视觉、声学)数据来了解人们的情感。这项任务最近引起了社会各界越来越多的关注，因为人们已经意识到，非文本线索对于检测情感和识别视频中的意见与情感有所帮助。

在多模态情感分析方面，有两条主要的工作路线。一种是专注于语篇级的多模态特征融合。这类方法使用了整个语篇的特征，首先提取帧级别的视觉或声音特征，然后将其平均化以获得最终的语篇级特征。语篇级的文本特征可以通过应用RNNs来获得。获得的语篇级特征被送入融合模型以获得多模态表示。目前已提出一些有效的多模态特征融合模型(Zadeh等人，2017；Liu等人，2018；Mai等人，2020)。语篇级的特征主要包含全局信息，可能无法捕捉到局部信息。因此，最近的工作主要集中在词级别的多模态特征上。为了提取词级别特征，第一步是获得每个词在视频中出现的时间戳，包括开始时间和结束时间。然后根据时间戳，将语料分割成一些视频片段。最后，通过对视频片段的帧级别特征进行平均化来获得词级别的视觉或声学特征。研究人员提出了很多方法来进行词级别的多模态特征融合(Zadeh等人，2018；Wang等人，2019；Tsai等人，2019；Vaswani等人，2017)。此外，还有一项相关的工作(Pham等人，2019)需要注意，该工作认为可以从源模态到目标模态的翻译中学习联合表征，并提出了多模态循环翻译网络(MCTN)来学习联合多模态表征。

已有的工作表明，与传统的文本情感分析相比(Liu，2012)，加入非文本数据可以提高情感分析的性能(Chen等人，2017；Zadeh等人，2018；Sun等人，2020)。这有两个原因，第一个原因是，三种模态可以传达一些共同的语义。在这种情况下，这些非文本的共同语义并不提供文本数据以外的额外信息，但其中的重复信息可以加强最终的性能，称之为共享语义。另一个原因是，三种模态都有与其他模态不同的自己特有的语义信息。这些语义信息是模态特有的，仅靠文本数据很难预测到，称之为私有语义。结合私有语义信息可以更准确地检测出最终的情感。

以前的工作通常不区分共享语义和私有语义，而是将每个模态的语义信息看作一个整体，缺乏探索不同模态交互的能力。

发明内容

本发明的目的是：针对现有技术中将每个模态的语义信息看作一个整体，缺乏探索不同模态交互的能力，进而导致情感分类不准确的问题，提出一种以文本为核心的多模态情感分析方法。

本发明为了解决上述技术问题采取的技术方案是：

一种以文本为核心的多模态情感分类方法，包括以下步骤：

步骤一：提取数据中的文本特征序列、视觉特征序列和声学特征序列，然后利用文本特征序列与视觉特征序列训练跨模态预测模型一，之后利用文本特征序列与声学特征序列训练跨模态预测模型二，当跨模态预测模型一和跨模态预测模型二损失函数值不再下降，则模型训练完毕；

步骤二：将待测文本特征序列输入跨模态预测模型一中，得到输出的视觉特征序列，然后根据输出的视觉特征序列得到视觉共享特征及视觉私有特征，

将待测文本特征序列输入跨模态预测模型二中，得到输出的声学特征序列，然后根据输出的声学特征序列得到声学共享特征及声学私有特征；

步骤三：将待测文本特征序列与视觉共享特征和声学共享特征进行融合，然后将融合结果再与视觉私有特征和声学私有特征进行融合，得到最终融合结果；

步骤四：将最终融合结果输入分类器中进行分类；

所述视觉共享特征和声学共享特征为相对于文本特征没有包含额外信息的特征，所述视觉私有特征和声学私有特征为包含了文本特征中不具有的信息的特征。

进一步的，所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到：

将待测文本特征序列输入跨模态预测模型一中，得到输出的视觉特征序列，进而得到输出的视觉特征序列中每个特征对应的N个注意力权重最大的文本特征，则视觉特征序列中该特征即为N个文本特征中每个文本特征对应的共享特征，最后对视觉特征序列中每一个特征执行上述步骤，直至得到每个文本特征对应的全部共享特征，即视觉共享特征；

将待测文本特征序列输入跨模态预测模型二中，得到输出的声学特征序列，进而得到输出的声学特征序列中每个特征对应的N个注意力权重最大的文本特征，则声学特征序列中该特征即为N个文本特征中每个文本特征对应的共享特征，最后对声学特征序列中每一个特征执行上述步骤，直至得到每个文本特征对应的全部共享特征，即声学共享特征；

N为3、4或5。

进一步的，所述N为5。

将待测文本特征序列输入跨模态预测模型一中，得到输出的视觉特征序列，然后得到输出的视觉特征序列中每个特征中注意力权重大于0.05的文本特征，则视觉特征序列中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征，最后对视觉特征序列中每一个特征执行上述步骤，直至得到每个文本特征对应的全部共享特征，即视觉共享特征；

将待测文本特征序列输入跨模态预测模型二中，得到输出的声学特征序列，然后得到输出的声学特征序列中每个特征中注意力权重大于0.05的文本特征，则声学特征序列中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征，最后对声学特征序列中每一个特征执行上述步骤，直至得到每个文本特征对应的全部共享特征，即声学共享特征。

进一步的，所述步骤二中私有特征通过以下步骤得到：

将待测文本特征序列输入跨模态预测模型一中，得到输出的视觉特征序列，然后得到输出的视觉特征序列中每个特征的损失函数值，然后取其中最大的五个损失函数值对应的特征作为私有特征，即视觉私有特征；

将待测文本特征序列输入跨模态预测模型一中，得到输出的声学特征序列，然后得到输出的声学特征序列中每个特征的损失函数值，然后取其中最大的五个损失函数值对应的特征作为私有特征，即声学私有特征。

进一步的，所述步骤二中私有特征通过以下步骤得到：

将待测文本特征序列输入跨模态预测模型一中，得到输出的视觉特征序列，然后得到输出的视觉特征序列中每个特征的损失函数值，然后取其中损失函数值大于0.02的特征作为私有特征，即视觉私有特征；

将待测文本特征序列输入跨模态预测模型一中，得到输出的声学特征序列，然后得到输出的声学特征序列中每个特征的损失函数值，然后取其中损失函数值大于0.02的特征作为私有特征，即声学私有特征。

进一步的，所述跨模态预测模型一和跨模态预测模型二包括编码器和解码器。

进一步的，所述编码器和解码器由LSTM或Transformer实现。

进一步的，所述步骤三中融合的具体步骤为：

步骤三一：将视觉特征序列输入第一LSTM中获取视觉特征表示序列，将文本特征输入第二LSTM中获取文本特征表示序列，将声学特征序列输入第三LSTM中获取声学特征表示序列；

步骤三二：使用跨模态注意力机制融合文本特征表示序列及视觉共享特征对应的视觉特征表示序列获得视觉共享表示序列；使用跨模态注意力机制融合文本特征表示序列及声学共享特征对应的声学特征表示序列获得声学共享表示序列；

步骤三三：将得到的视觉共享表示序列、声学共享表示序列与文本特征表示序列进行拼接，送入第四LSTM中得到共享融合表示，再使用自注意力机制对共享融合表示进行变换得到共享表征；

步骤三四：使用注意力机制融合视觉私有特征对应的视觉特征表示序列获得视觉私有表征，使用注意力机制融合声学私有特征对应的声学特征表示序列获得声学私有表征；

步骤三五：将共享表征、视觉私有表征以及声学私有表征进行拼接后得到最终融合结果。

进一步的，所述步骤四中分类器为softmax、Logistic或SVM。

本发明的有益效果是：

本申请提出的共享私有框架对多模态情感分析准确率高。此外，本申请从跨模态预测任务中获得的非文本模态的共享和私有特征可以为不同模态之间的交互提供更多可解释的线索。因此，这些非文本的共享-私有特征可以共同与文本特征进行融合，以改善多模态情感分析。本申请中共享掩码可以使情感回归模型获得模态共享的特征，从而形成一个更稳健的回归模型。私有掩码使回归模型专注于模态特有的特征，这为情感预测提供了额外的信息。在共享和私有掩码的帮助下，共享-私有框架中的回归模型可以将文本特征与两类非文本特征单独融合，更为有效。

附图说明

图1为本申请的整体结构示意图；

图2为本申请的共享及私有特征示意图；

图3为本申请的共享特征示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种以文本为核心的多模态情感分类方法，包括以下步骤：

步骤四：将最终融合结果输入分类器中进行分类；

为了解决现有技术中的问题，本申请提出了一个以文本为中心的多模态情感分析的共享-私有框架。在这个框架中，文本模态被认为是核心模态，本申请首先设计了一个跨模态预测任务，用于区分文本模态和非文本(视觉、声学)模态之间的共享和私有语义，然后提出一个包含了共享和私有模块的情感回归模型，将文本特征与两类非文本特征进行融合，用于情感分析。

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到：

N为3、4或5。

具体实施方式三：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述N为5。

具体实施方式四：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到：

具体实施方式五：本实施方式是对具体实施方式三或四进一步说明，本实施方式与具体实施方式三或四的区别是所述步骤二中私有特征通过以下步骤得到：

具体实施方式六：本实施方式是对具体实施方式三或四的进一步说明，本实施方式与具体实施方式三或四的区别是所述步骤二中私有特征通过以下步骤得到：

具体实施方式七：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述跨模态预测模型一和跨模态预测模型二包括编码器和解码器。

具体实施方式八：本实施方式是对具体实施方式七的进一步说明，本实施方式与具体实施方式七的区别是所述编码器和解码器由LSTM或Transformer实现。

具体实施方式九：本实施方式是对具体实施方式八的进一步说明，本实施方式与具体实施方式八的区别是所述步骤三中融合的具体步骤为：

具体实施方式十：本实施方式是对具体实施方式九的进一步说明，本实施方式与具体实施方式九的区别是所述步骤四中分类器为softmax、Logistic或SVM。

原理：

本申请是一个以文本为核心模态的用于多模态情感分析的共享私有框架，框架主要包含两部分，一部分是跨模态预测模型，该模型以文本模态特征为输入，输出为语音/图像模态特征。利用该模型本申请设计了共享特征与私有特征的判定规则，进而利用规则分辨出共享和私有特征。另一部分是情感预测模型，该模型利用跨模态注意力机制将文本模态特征与语音/图像的共享和私有特征进行融合，最后得到多模态融合特征进行情感分类。

跨模态预测模型由一个编码器和一个解码器组成，编码器和解码器的均由LSTM实现。编码器以输入的文本特征序列作为输入，输出编码后的文本表示，该表示中建模了文本特征中的信息。解码器的输入为编码器输出的文本表示，每个时间步输出一个目标模态的特征，每一步的输出依赖于之前时间步的输出以及编码器的输入。跨模态预测模型的训练目标是预测出输入文本特征对应的图像/音频特征。

为了挖掘文本模态与语音/图像特征之间的关系，本申请定义了共享特征和私有特征。共享特征相对与文本特征没有包含额外的信息，而是提供重叠的语音信息，这类特征可以使得模型预测更加鲁棒。该类特征的判定规则如下。首先从跨模态预测模型中获取生成目标特征时对输入文本特征序列的注意力权重，然后保留每一个生成的目标特征对应的注意力权重最大的5个文本特征，这样每个文本特征对应的目标特征则被称为文本特征对应的共享特征。私有特征则包含了文本特征中不具有的信息，该类特征很难通过文本特征进行预测出来。该类特征的判定规则是如果某一目标特征的预测损失很高则认为该特征是私有特征。通过这两类规则，可以通过跨模态预测模型将两类信息进行分辨出来，然后送入情感预测模型中进行情感预测。

情感预测模型由特征输入编码模块，共享特征编码模块，和私有特征编码模块组成。特征输入编码模块是使用LSTM对输入的文本，语音，图像特征进行编码，获取具有上下文信息的特征表示。共享特征编码模块利用了跨模态注意力模型，每个经过特征输入编码模块的文本表示对与其共享的语音/图像特征表示进行跨模态交互，获取非文本特征的共享表示。文本表示之后再与语音表示和图像表示进行拼接，拼接后的表示经过LSTM进行融合编码，为了更深层次的进行特征交互，后续又使用一层自注意力模块进行编码，最终取第一个位置的输出作为多模态共享特征表示。私有特征编码模块的输入是语音和图像的私有特征表示，该模块使用注意力机制进行给予更重要的特征更高的权重，最终得到模态私有特征表示。模态共享特征表示与模态私有特征表示拼接起来，送入到分类层中预测最终的特征表示。最后在实现过程中，私有特征与共享特征的选择均由掩蔽机制实现，即将未选择的位置的权重置0。分类结果包括正性、负性和中性(共享特征和私有特征如图2和图3所示)。

本申请提出了一个以文本为核心模态的用于多模态情感分析的共享私有框架，通过由编码器-解码器实现的跨模态预测模型从图像和语音特征挖掘出共享和私有特征，进一步在情感预测模型中，将文本特征与共享特征和私有特征进行融合，最终对情感标签进行预测。

本申请将提出的方法与几个基线方法进行比较，实验结果见表1。本申请的基础模型在MOSEI数据集的Acc、F1指标上未能获得最好的结果，表现不如RAVEN和MulT。然而，在跨模态预测任务的帮助下，本申请的以文本为中心的共享私有框架(TCSP)取得了最好的性能，且在两个数据集上都优于所有基线方法。这可以证明，本申请提出的共享私有框架对多模态情感分析是有效的。此外，可以看到，从跨模态预测任务中获得的非文本模态的共享和私有特征可以为不同模态之间的交互提供更多可解释的线索。因此，这些非文本的共享-私有特征可以共同与文本特征进行融合，以改善多模态情感分析。在MOSI数据集上，本申请的完整模型的性能和我们的基础模型之间有较大的差距。本申请将其归因于MOSI数据集的小数据量不够用于训练基础模型，但在完整模型中则模型还受益于共享和私有信息。

表1 在MOSI和MOSEI上的实验结果

表2 在MOSI和MOSEI上的消融实验结果

本申请进行了消融实验，以区分每个部分的贡献。如表2所示，对共享掩码或私有掩码进行消融都会损害模型的性能，这表明这两个部分对情感预测都是有用的。共享掩码可以使情感回归模型获得模态共享的特征，从而形成一个更稳健的回归模型。私有掩码使回归模型专注于模态特有的特征，这为情感预测提供了额外的信息。在共享和私有掩码的帮助下，共享-私有框架中的回归模型可以将文本特征与两类非文本特征单独融合，更为有效。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种以文本为核心的多模态情感分类方法，其特征在于包括以下步骤：

步骤四：将最终融合结果输入分类器中进行分类；

所述视觉共享特征和声学共享特征为相对于文本特征没有包含额外信息的特征，所述视觉私有特征和声学私有特征为包含了文本特征中不具有的信息的特征；

所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到：

N为3、4或5；

所述步骤二中私有特征通过以下步骤得到：

2.根据权利要求1所述的一种以文本为核心的多模态情感分类方法，其特征在于所述N为5。

3.根据权利要求1所述的一种以文本为核心的多模态情感分类方法，其特征在于所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到：

4.根据权利要求2或3所述的一种以文本为核心的多模态情感分类方法，其特征在于所述步骤二中私有特征通过以下步骤得到：

5.根据权利要求1所述的一种以文本为核心的多模态情感分类方法，其特征在于所述跨模态预测模型一和跨模态预测模型二包括编码器和解码器。

6.根据权利要求5所述的一种以文本为核心的多模态情感分类方法，其特征在于所述编码器和解码器由LSTM或Transformer实现。

7.根据权利要求6所述的一种以文本为核心的多模态情感分类方法，其特征在于所述步骤三中融合的具体步骤为：

8.根据权利要求7所述的一种以文本为核心的多模态情感分类方法，其特征在于所述步骤四中分类器为softmax、Logistic或SVM。