CN115858726A

CN115858726A - 基于互信息方法表示的多阶段多模态情感分析方法

Info

Publication number: CN115858726A
Application number: CN202211465914.6A
Authority: CN
Inventors: 侯金鑫; 李希城; 徐明成; 谢杰
Original assignee: Tianyi Electronic Commerce Co Ltd
Current assignee: Tianyi Electronic Commerce Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-28

Abstract

本发明提出了一种基于互信息方法表示的多阶段多模态情感分析方法，涉及人工智能领域。其包括通过原始多模态数据获取具有对应关系的文本、视觉和声音模态数据，并对原始多模态数据进行特征编码，得到模型输入特征；分别根据声音、语言和视觉不同模态的特点进行模态内高维特征提取；声音、语言、视觉和语言模态特征进行互信息最大化方法的多模态特征协同表示，得到模态间最大相关的特征表示；特征融合时采用一种新的融合网络结构用于不同模态间信息融合，对包含声音、文本和视觉特征的单模态、双模态和三模态间的相互作用分层次可调整化的建模。弥补各有关键信息丢失、噪声干扰和部分特征冗余等问题，提升多模态情感分析效果。

Description

基于互信息方法表示的多阶段多模态情感分析方法

技术领域

本发明涉及人工智能领域，具体而言，涉及一种基于互信息方法表示的多阶段多模态情感分析方法。

背景技术

随着社交媒体的普及，网络上图像和视频类数据逐渐增多，情感分析的研究任务，从单一的语言模态拓展到多模态形式的情感预测。网络上诸多数据蕴含视觉、语言和声音等多模态信息，这些数据中反应了用户的真实态度和情感状态，在票房预测、政治选举和舆情监督等现实场景具有很高的应用价值。因此，对多模态数据的有效融合与表示，提高情感分析的准确度，从而更真实的揭示用户的情感，已成为目前多模态情感分析的主要研究问题。

多模态情感分析以往发明重点集中于多模态数据的融合策略，主要包括从融合阶段划分的早期融合、后期融合与混合融合，以及从融合方法上划分的基于张量模型的融合、基于时序模型的融合与基于注意力模型的融合方法。目前，多模态情感分析通过融合方式的选择，提高了多模态情感分析任务的准确率，但仍存在需要改进的地方，如多模态特征在融合过程中可能存在关键信息丢失和特征噪声干扰等问题影响预测结果。

通过多模态表示方法可以在一定程度上弥补多模态融合策略的不足，捕捉不同模态间的联系，消除模态特征的噪声。多模态表示学习工作主要包括联合表示与协同表示，结构化协同表示中的互信息最大化的表示方法可以增强不同模态特征的依赖性，增强模态间的共有信息表示。然而多数多模态表示学习的相关工作对输出的多模态序列特征简单采用拼接或加权的方式输出，这可能会导致模态间交互不充分，出现特征冗余的情况。

发明内容

本发明的目的在于提供一种基于互信息方法表示的多阶段多模态情感分析方法，其能够针对单一多模态融合策略与单一多模态表示学习存在的不足，提出一种基于互信息方法表示的多阶段多模态情感分析方法。即在特征提取的基础上，采用一种互信息最大化的表示学习并创新性提出的多模态层次融合网络相结合，从而相互弥补各单一阶段存在的有关键信息丢失、噪声干扰和部分特征冗余等问题，进一步提升多模态情感分析效果。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种基于互信息方法表示的多阶段多模态情感分析方法，其包括如下步骤，步骤(1)：通过原始多模态数据获取具有对应关系的文本、视觉和声音模态数据，并对上述原始多模态数据进行特征编码，得到模型输入特征；步骤(2)：分别根据声音、语言和视觉不同模态的特点进行模态内高维特征提取；步骤(3)：声音、语言、视觉和语言模态特征进行互信息最大化方法的多模态特征协同表示，得到模态间最大相关的特征表示；步骤(4)：特征融合时采用一种新的融合网络结构用于不同模态间信息融合，对包含声音、文本和视觉特征的单模态、双模态和三模态间的相互作用分层次可调整化的建模；步骤(5)：经多次迭代训练，将所选评价指标最高的模型应用于多模态情感分析。

在本发明的一些实施例中，上述步骤(1)中，选取MOSI与MOSEI情感视频作为上述原始多模态数据。

在本发明的一些实施例中，上述步骤(1)中，在原始多模态数据特征编码的过程中，视觉模态采用Facet对视频中用于表达人物情感信息的动作进行特征捕捉；声音模态使用COVAREP采集音频中的特征；文本模态采用预训练BERT模型经大规模语料库训练后，多模态情感分析任务中采用BERT的输出作为特征编码。

在本发明的一些实施例中，上述视觉模态采集包括眼部闭合、颈部肌肉、头部动作、手部动作和腿部动作中的任意一种或多种特征；上述声音模态采集包括强度、音调、音频峰值斜率和浊清分段特征中的任意一种或多种特征。

在本发明的一些实施例中，上述步骤(2)中，模态内高维特征提取过程中，采用了两个独立的LSTM模型提取不同模态的时间特征。

在本发明的一些实施例中，上述步骤(3)中，多模态特征协同表示过程中，采用互信息最大化的表示方法学习不同模态间的投影表示；具体计算过程中，通过前馈神经网络优化互信息目标，输出使各模态最大相关的非线性投影；最大化模态间互信息的损失函数表示如下：

其中q(y_i|x_i)为多元Gaussian分布，N为训练中的批量大小，m₁，m₂为对两个目标模态的似然求和；经互信息方法优化表示为T_m＝D_m(H_m)，包括由各模态对应的双层前馈神经网络D_m输出表示的模态特征。

在本发明的一些实施例中，上述步骤(4)中，特征融合过程中，采用一种多模态层次融合网络完成模态特征间的融合交互；上述多模态层次融合网络的计算过程如下：T_[L,V]＝D_L,V(T_L,T_V)，T_[L,A]＝D_L,A(T_L,T_A)，T_[V,A]＝D_V,A(T_V,T_A)，T_[L,V,A]＝D_L,V,A(T_L,T_V,T_A,T_[L,V],T_[L,A],T_[V,A])，

其中/>

各自对应表示语言、视觉和声音各模态特征，/>

均表示双模态特征，分别对应不同模态特征经多个独立双层前馈神经网络D_L,V，D_L,A，D_L,A学习得到；/>

表示三模态特征由双模态特征

经双层前馈神经网络D_L,V,A学习得到；逐层学习后的单模态，双模态和三模态特征经D_f融合得到多模态融合特征Z。

在本发明的一些实施例中，上述多模态层次融合网络对单模态、双模态和三模态间的相互作用分层次建模，根据交互过程动态调整内部结构。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

第一，本发明在多模态特征表示阶段采用了互信息最大化的方法，可以捕捉不同模态的依赖，提高不同模态间的相关性表达，很大程度上消除了各模态特征的噪声；

第二，本发明在特征融合阶段提出一种多模态层次融合网络对不同模态间的相互作用逐层的交互融合，减少了过往低效融合带来的特征信息冗余问题；

第三，本发明采用多阶段建模的思想，将多模态表示学习与多模态融合方法的有效结合，可以很大程度上解决以往单一阶段存在的噪声干扰、关键情感信息丢失及特征信息冗余问题。

本发明针对上述单一多模态融合策略与单一多模态表示学习存在的不足，提出一种基于互信息方法表示的多阶段多模态情感分析方法。在特征提取的基础上，采用一种互信息最大化的表示学习并创新性提出的多模态层次融合网络相结合，相互弥补各单一阶段存在的有关键信息丢失、噪声干扰和部分特征冗余等问题，进一步提升多模态情感分析效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例基于互信息方法表示的多阶段多模态情感分析方法的流程图；

图2为本发明实施例基于互信息方法表示的多阶段多模态情感分析方法的模型图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1～图2，图1～图2所示为本申请实施例提供的基于互信息方法表示的多阶段多模态情感分析方法的示意图。基于互信息方法表示的多阶段多模态情感分析方法，其包括如下步骤，步骤(1)：通过原始多模态数据获取具有对应关系的文本、视觉和声音模态数据，并对上述原始多模态数据进行特征编码，得到模型输入特征；步骤(2)：分别根据声音、语言和视觉不同模态的特点进行模态内高维特征提取；步骤(3)：声音、语言、视觉和语言模态特征进行互信息最大化方法的多模态特征协同表示，得到模态间最大相关的特征表示；步骤(4)：特征融合时采用一种新的融合网络结构用于不同模态间信息融合，对包含声音、文本和视觉特征的单模态、双模态和三模态间的相互作用分层次可调整化的建模；步骤(5)：经多次迭代训练，将所选评价指标最高的模型应用于多模态情感分析。

本发明在多模态特征表示阶段采用了互信息最大化的方法，可以捕捉不同模态的依赖，提高不同模态间的相关性表达，很大程度上消除了各模态特征的噪声；在特征融合阶段提出一种多模态层次融合网络对不同模态间的相互作用逐层的交互融合，减少了过往低效融合带来的特征信息冗余问题；采用多阶段建模的思想，将多模态表示学习与多模态融合方法的有效结合，可以很大程度上解决以往单一阶段存在的噪声干扰、关键情感信息丢失及特征信息冗余问题。

其中/>

各自对应表示语言、视觉和声音各模态特征，/>

表示三模态特征由双模态特征

参照图1，应用时具体实现步骤如下：

步骤1、选择与获取原始多模态形式的数据：采用CMU-MOSI原始视频作为初始数据，包含2199段个人自述视频片段，每个单位片段持续约10秒。训练集、验证集和测试集上分别划分1284、229与686个视频片段。CMU-MOSEI原始视频数据包含千位视频网站播主的电影评价视频片段，总时长高达65小时。在训练集、验证集和测试集上分别划分16265、1869、与4643个视频片段。CMU-MOSI与CMU-MOSEI的包括负面情绪与正面情绪的二分类标签，以及被标记的-3(强烈负面情绪)到+3(强烈正面情绪)七分类标签。

步骤2、对声音和视觉多模态原始视频进行特征编码：在原始多模态数据特征编码的过程中，视觉模态采用Facet对视频中人物眼部闭合、颈部肌肉和头部动作等35种可能表达情感信息的动作进行捕捉。视频被切分为持续十秒左右的单位片段，通过Facet***捕捉每帧蕴涵的情感信息，各帧特征经过平均后得到单位视觉特征编码，初始视觉编码尺寸为35。声音模态使用COVAREP采集音频中强度,音调,音频峰值斜率,浊清分段特征等。音频片段的切分与视频分段对齐，总长度十秒的音频帧特征经平均后得到蕴涵声音模态情感信息的特征编码，初始编码尺寸为74。

步骤3、预训练Bert模型文本特征编码与特征提取：文本模态采用预训练BERT模型将MOSI与MOSEI原始视频字幕转化为768维向量，Bert模型结构由双向Transformer的Encoder部分堆叠而成，依赖于注意力机制，训练position embedding保留位置信息，经大规模语料库训练后，在多模态情感分析任务中采用BERT的输出作为特征编码而不进行过多调试。

步骤4、视觉与声音模态编码特征提取：视觉与声音特征在情感分析任务中具有时序性，在特征编码的基础上进一步采用两个独立的LSTM模型提取视觉与声音模态的时间特征，特征提取部分如下所示：

每个时间步上声音与视觉特征在对应LSTM中的更新过程如下：i_t＝σ(W_i[h_t-1，x_t]+b_i)，f_t＝σ(W_f[h_t-1，x_t]+b_f)，o_t＝σ(W_o[h_t-1，x_t]+b_o)，/>

h_t＝o_t⊙tanh(c_t)，其中i_t，f_t，o_t分别为t时刻的输入门、遗忘门与输出门。W_i，W_f，W_o，/>

分别为变换中的参数矩阵。σ表示Sigmoid激活函数，⊙表示Hadamard积。

步骤5、基于互信息最大化的特征表示阶段：多模态特征协同表示过程中，采用互信息最大化表示方法学习不同模态间的投影表示使模态重要信息最大相关。分别在声音文本，文本视觉特征间，经前馈神经网络通过互信息的方法获得使各模态最大相关的非线性投影。互信息最大化优化目标如公式如下：

这里将q(y_i|x_i)表示为多元Gaussian分布，其中N是训练中的批量大小，l，v,l，a分别表示对两个目标模态的似然求和。语言、视觉和声音模态的特征在具体计算过程中，经最大化互信息的方法，由双层神经网络D_L，D_V，D_A输出表示特征T_L，T_V，T_A，表示为T_L＝D_L(H_L)，T_V＝D_V(H_V)，T_A＝D_L(H_A)。

步骤6、多模态层次融合网络进行单模态特征融合：经过特征表示后的语言、视觉和声音三种模态特征，两两模态特征组合通过三个独立的前馈神经网络，分别输出声音语言、声音视觉和语言视觉三种双模态特征。多模态层次融合网络单模态特征融合计算过程如下：T_[L,V]＝D_L,V(T_L,T_V)，T_[L,A]＝D_L,A(T_L,T_A)，T_[V,A]＝D_V,A(T_V,T_A)，其中

表示语言、视觉和声音各模态特征。/>

表示双模态特征，分别对应不同模态特征经多个独立双层前馈神经网络D_L,V，D_L,A，D_L,A学习得到。

步骤7、多模态层次融合网络进行双模态特征融合：三个双模态特征输入一个双层前馈神经网络得到融合三种模态信息的三模态特征：T_[L,V,A]＝D_L,V,A(T_L,T_V,T_A,T_[L,V],T_[L,A],T_[V,A])，其中

表示三模态特征由双模态特征/>

经双层前馈神经网络D_L,V,A学习得到。

步骤8、最后将不同层次的单模态特征、双模态特征和三模态特征输入前馈神经网络融合输出最终融合特征：

最终逐层学习后的单模态、双模态和三模态特征经D_f融合得到多模态融合特征Z。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于互信息方法表示的多阶段多模态情感分析方法：

1、获取具有对应关系的文本、视觉和声音模态数据，对原始多模态数据进行特征编码，得到模型输入特征：1)采用MOSI与MOSEI相关的原始视频作为多模态情感分析的原始数据；2)对于视觉与声音模态的编码分别使用COVAREP与FACET2提取音频和视频特征。对于文本模态使用预训练Bert完成输入文本的特征编码。

2、分别根据声音、语言、视觉不同模态的特点进行模态内高维特征提取，根据不同模态的特性采用不同的特征提取方式。对于语言模态,与文本特征编码保持一致采用预训练Bert。视觉与声音特征在情感分析任务中具有时序性，因此采用了两个独立的单向LSTM来捕捉这些模态的时间特征：H_L＝BERT(X_L；θ_BERT)，

3、声音、语言、视觉和语言模态特征进行多模态特征协同表示,得到模态间最大相关表示，突出关键情感信息：1)采用互信息最大化的方法进行特征表示，根据模态特性，增加不同模态特征间的依赖关系，通过互信息方法找到使各模态向量相关性最高，过滤各模态的不相关噪声；2)经过双层前馈神经网络，分别对声音、语言、语言及视觉模态间计算最大相关的非线性投影：

4、特征融合过程提出一种新的网络结构—多模态层次融合网络，以特征表示阶段后的声音、文本、视觉特征为输入，分别针对单模态、双模态和三模态间的相互作用分层次的建模，并根据交互过程动态调整内部结构：1)采用多模态层次融合网络执行方式如下：T_[L,V]＝D_L,V(T_L,T_V)，T_[L,A]＝D_L,A(T_L,T_A)，T_[V,A]＝D_V,A(T_V,T_A)，T_[L,V,A]＝D_L,V,A(T_L,T_V,T_A,T_[L,V],T_[L,A],T_[V,A])，

表示语言、视觉和声音各模态特征。/>

表示双模态特征，分别对应不同模态特征经多个独立双层前馈神经网络D_L,V，D_L,A，D_L,A学习得到。/>

表示三模态特征由双模态特征

经双层前馈神经网络D_L,V,A学习得到。最终逐层学习后的单模态，双模态和三模态特征经D_f融合得到多模态融合特征Z；2)经多次迭代动态调整多模态层次融合网络结构输出最终预测特征。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，

步骤(1)：通过原始多模态数据获取具有对应关系的文本、视觉和声音模态数据，并对所述原始多模态数据进行特征编码，得到模型输入特征；

步骤(2)：分别根据声音、语言和视觉不同模态的特点进行模态内高维特征提取；

步骤(3)：声音、语言、视觉和语言模态特征进行互信息最大化方法的多模态特征协同表示，得到模态间最大相关的特征表示；

步骤(4)：特征融合时采用一种新的融合网络结构用于不同模态间信息融合，对包含声音、文本和视觉特征的单模态、双模态和三模态间的相互作用分层次可调整化的建模；

步骤(5)：经多次迭代训练，将所选评价指标最高的模型应用于多模态情感分析。

2.如权利要求1所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，步骤(1)中，选取MOSI与MOSEI情感视频作为所述原始多模态数据。

3.如权利要求1所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，步骤(1)中，在原始多模态数据特征编码的过程中，视觉模态采用Facet对视频中用于表达人物情感信息的动作进行特征捕捉；声音模态使用COVAREP采集音频中的特征；文本模态采用预训练BERT模型经大规模语料库训练后，多模态情感分析任务中采用BERT的输出作为特征编码。

4.如权利要求3所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，所述视觉模态采集包括眼部闭合、颈部肌肉、头部动作、手部动作和腿部动作中的任意一种或多种特征；所述声音模态采集包括强度、音调、音频峰值斜率和浊清分段特征中的任意一种或多种特征。

5.如权利要求1所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，所述步骤(2)中，模态内高维特征提取过程中，采用了两个独立的LSTM模型提取不同模态的时间特征。

6.如权利要求1所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，所述步骤(3)中，多模态特征协同表示过程中，采用互信息最大化的表示方法学习不同模态间的投影表示；具体计算过程中，通过前馈神经网络优化互信息目标，输出使各模态最大相关的非线性投影；最大化模态间互信息的损失函数表示如下：

7.如权利要求1所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，包括如下步骤，所述步骤(4)中，特征融合过程中，采用一种多模态层次融合网络完成模态特征间的融合交互；所述多模态层次融合网络的计算过程如下：T_[L,V]＝D_L,V(T_L,T_V)，T_[L,A]＝D_L,A(T_L,T_A)，T_[V,A]＝D_V,A(T_V,T_A)，T_[L,V,A]＝D_L,V,A(T_L,T_V,T_A,T_[L,V],T_[L,A],T_[V,A])，

其中T_L ^t，T_V ^t，/>

各自对应表示语言、视觉和声音各模态特征，/>

表示三模态特征由双模态特征

8.如权利要求7所述的基于互信息方法表示的多阶段多模态情感分析方法，其特征在于，所述多模态层次融合网络对单模态、双模态和三模态间的相互作用分层次建模，根据交互过程动态调整内部结构。