CN111178389A

CN111178389A - 基于多通道张量池化的多模态深度分层融合情感分析方法

Info

Publication number: CN111178389A
Application number: CN201911244389.3A
Authority: CN
Inventors: 唐佳佳; 金宣妤; 孔万增; 张建海
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-19
Anticipated expiration: 2039-12-06
Also published as: CN111178389B

Abstract

本发明涉及基于多通道张量池化的多模态深度分层融合情感分析方法。基于注意力机制方法，可以对多模态数据设定相应权重，划分不同模态数据的重要程度，从而根据不同模态数据对任务的不同贡献程度，在融合部分放大贡献程度大的多模态数据在交互时的作用。而相对于单通道多项式张量池化模块，多通道多项式张量池化模块能够从细粒度层面获得鲁棒性高的局部高维度复杂非线***互信息。本发明在判定多模态数据重要程度基础上，能从细粒度层面刻画稳定的局部高维复杂动态交互信息，是对当前情感识别领域的多模态融合框架的有效补充。

Description

基于多通道张量池化的多模态深度分层融合情感分析方法

技术领域

本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域，具体涉及一种基于注意力机制的多通道多项式张量池化技术，对多模态信息进行细粒度分层融合，从而判断被试情感状态的方法。

背景技术

如何有效的判断个体情感状态一直是目前的研究热点。例如商品网站可以根据消费者的面部表情、语音或者文本评价，分析判断消费者对某个特定商品的评价，从而得到消费者对商品的情感反馈(消极情感或者是积极情感)。

单模态数据例如面部表情、语音数据或者文本数据分别都可以用来进行情感状态识别，但是单模态数据并不足以完全表征某种情感状态，而多模态数据可以对情感识别任务按照多个角度进行信息补充(例如单从文本信息分析，可能只能进行模糊情感状态判别，但结合表情信息可以更进一步判定情感类型。例如个体可以满面笑容的说“你可真讨厌”，单从文本“你可真讨厌”可以判定个体当前的情感效价是消极的，但是结合个体的面部表情却得到截然相反的情感效价判定——积极情绪)，同时多模态数据之间的交互信息可以作为多个模态数据所包含的共同特征模式，增强情感识别任务的鲁棒性。

当前的多模态数据融合方法一般是从粗粒度视角进行分析，并且一般只考虑双线性或者是三线性这两种简单的线性融合方法，只能获得多模态数据之间的低维简单交互信息。同时现有基于张量的线性融合方法，是对融合得到的张量数据进行整体分解，增加了存储负担以及计算复杂度(因为随着融合阶数的增加，所需存储容量将呈指数级增长趋势)，使得无法进行更高阶更复杂的交互。同时现有多模态交互模型认为每个模态数据在交互时的重要程度是一样的，并未对多个模态数据赋予不同的权重信息，使得最终的任务精度有所偏差。

发明内容

本发明的目的是针对现有技术的不足，提出基于多通道张量池化的多模态深度分层融合情感分析方法。首先，对多模态数据附加一个注意力网络，对每个模态设置不同的权重信息，表征不同的重要程度(能够放大贡献程度大的模态数据在交互部分的作用)。其次，对通过注意力网络得到的多模态数据进行多通道张量池化表征(增强数据表征的稳定性)。最后，将多通道张量池化表征数据进行深度分层循环融合，得到的全局信息表征可进行情感任务判别。

本发明所采用的技术方案是：

步骤1、获取多模态信息数据

模态是信息的来源或者形式，而所述的多模态信息数据包括语音、视频、文字等可以记录人情绪信息的媒介数据。

步骤2、多模态信息数据预处理

为了使得每个模态信息数据的特征数据分布差异不要过大，采用长短期记忆(LSTM,Long Short-Term Memory)网络或者门控循环单元(GRU，Gated Recurrent)网络，分别提取每个模态信息数据各时刻的短期记忆向量作为该时刻的特征向量；

其中

代表第m个模态向量的第t个时刻对应的特征向量，即是LSTM网络第t个时刻的短期记忆向量，g_out为LSTM网络的输出门，C(t)为LSTM网络的长时记忆单元，f为激活函数。

步骤3、多模态数据信息组织

将步骤2预处理后的各模态信息数据特征向量组织成伪二维矩阵G，第一个维度为时间维度，第二个维度为模态维度，矩阵中的每一个元素代表的是对应时刻模态的特征向量；

其中T表示数据时间维度的大小，M表示模态数；

步骤4、注意力机制设置

针对步骤3所得伪二维矩阵G，对所有时刻所有模态数据设置一个注意力网络，得到新的伪二维矩阵G₁：

其中

分别为各模态

第t个时刻的权重；

表示模乘。

步骤5、多模态信息的多通道高阶多项式张量池化操作

5.1初始化迭代次数k＝1,时间维度大小T₀＝T；

5.2在大小为T₀时间维度上，对伪二维矩阵G_k进行时间窗口内任意两模态所有特征向量拼接，得到新的特征向量z_ij；然后根据公式(4)对z_ij进行高阶(P阶)多项式融合操作得到P阶数据张量Z^p：

其中

表示张量积操作，i,j∈[1,M]；

上述时间窗口长度为T₁、步长为s；

再对Z^p按照P阶张量的各维度进行C个单通道低秩张量池化操作，最终获得C个新的特征向量

其中特征向量

的第h个数据元素z_h如下：

其中W^h为P阶张量权重，i₁,…,i_p为P阶张量每一个维度的下标；

对上述C个新的特征向量

进行最大池化，得到该时间窗口内两模态信息融合的局部特征向量

其中

的第h个数据元素z′_h如下：

其中C为同一个时间窗口内的模态信息进行单通道张量池化操作的次数，即为多通道张量池化操作的通道数；W^hc为第c个通道的P阶张量权重；

对伪二维矩阵G_k内所有模态特征向量均进行上述两模态融合操作得到若干个

最终构建大小为

的伪二维矩阵G_k+1；

5.3判断是否满足k≥N，N为最大迭代次数，若是则输出当前伪二维矩阵G_k+1，反之则重置k＝k+1，

并跳转至步骤5.2。

步骤6、多模态全局交互

对步骤(5)输出的伪二维矩阵G_k+1内所有特征向量拼接，得到新的特征向量z′；然后对z′进行高阶(P阶)多项式融合操作(如公式(4))得到P阶数据张量Z′^p,，再对Z′^p按照P阶张量的各维度进行多通道低秩张量池化操作(如公式(6))，最终得到全局特征向量z。

步骤7、多模态信息数据分类

将步骤(6)得到的全局交互向量z与事先的情绪类别标签进行对比，最终得到分类的结果。

所述的情绪类别标签为步骤(1)采集情绪模态信息数据时事先标记的情绪类别标签。

本发明的有益效果是：本发明结合基于注意力机制方法，对多模态数据设定相应权重划分不同模态数据的重要程度，从而根据不同模态数据对任务的贡献程度，在融合部分放大贡献程度大的模态数据进行交互；其次，采用多通道张量池化操作，克服了单通道张量池化存在的高维复杂交互不稳定的问题。本发明基于多模态数据的不同贡献程度进行迭代融合，并从细粒度层面刻画了鲁棒性强的稳定高维复杂动态交互信息，是对当前情感识别领域的多模态融合框架的有效补充。

附图说明

图1为本发明流程图；

图2为本发明多模态信息的多通道高阶多项式张量池化操作流程图；

图3为本发明分层融合框架图；

图4为注意力机制示意图；

图5为单通道多项式张量池化模块示意图；

图6为多通道多项式张量池化模块示意图。

具体实施方式

下面结合附图，对本发明方法做详细描述。

本发明基于多通道张量池化的多模态深度分层融合情感分析方法如图1所示：

步骤1、通过现有技术获取个体的文本、视频、音频三种模态信息数据

根据文本信息只能得到模糊的情感状态判定，即无法单从文本信息就能准确判定情感类型(例如消极情感或者是积极情感)；根据视频中个体的面部表情，可以初步判定情感效价(积极还是消极)；根据某段时间内声音的起伏状态(例如幅值大小)，可以比较客观的判断情感激活程度。

步骤2、多模态信息数据预处理

其中

步骤3、多模态数据信息组织

将步骤2预处理后的各模态信息数据特征向量组织成伪二维矩阵G，第一个维度为时间维度(T＝8)，第二个维度为模态维度(M＝3)，矩阵中的每一个元素代表的是对应时刻模态的特征向量；

其中T表示数据时间维度的大小，M表示模态数；

步骤4、注意力机制设置

其中

分别为各模态

第t个时刻的权重；

表示模乘。

分别为文本、视频、音频三个模态的特征向量。

步骤5、多模态信息的多通道高阶多项式张量池化操作：首先将时间窗口沿着模态维度进行扫描分别得到[视频模态，音频模态]、[文本模态，音频模态]以及[文本模态，视频模态]，模态维度扫描结束再沿着时间维度进行扫描，从而第一层可以得到12个新的特征向量作为第二层伪二维矩阵G₂的元素，再在第二层特征向量上进行两两模态信息数据融合，则在第二个层上可以得到6个新的特征向量作为第三层伪二维矩阵G₃的元素，最后在第三层上使得时间窗口囊括当前层的所有节点进行融合，将最终得到的输出特征向量作为情感状态判定依据。

5.1初始化迭代次数k＝1,时间维度大小T₀＝T；

5.2在大小为T₀时间维度上，如图3对伪二维矩阵G_k进行时间窗口内任意两模态所有特征向量拼接，得到新的特征向量z_ij；然后根据公式(4)对z_ij进行高阶(P阶)多项式融合操作得到P阶数据张量Z^p：

其中

表示张量积操作，i,j∈[1,3]；

上述时间窗口长度为T₁、步长为s；T₁＝2(包含t₁和t₂时刻数据)，s＝2；

如图5传统一般都是对Z^p按照P阶张量的各维度进行单通道低秩张量池化操作，最终每个时间窗口的输出为一个新的特征向量z_ij’，其中特征向量z_ij’的第h个数据元素z_h如下：

但是一次单通道高阶(P阶)多项式融合张量池化，虽然可以得到高维复杂交互信息，但可能存在模型不稳定的情况，因此为使得此方法鲁棒性更强，故本发明提出如图6的多次单通道高阶(P阶)多项式融合张量池化操作，具体是：

对Z^p按照P阶张量的各维度进行C个单通道低秩张量池化操作，最终获得C个新的特征向量

其中特征向量

第h个数据元素z_h如下：

对上述C个新的特征向量

其中

的第h个数据元素z′_h如下：

公式(其中C为同一个时间窗口内的模态信息进行单通道张量池化操作的次数，即为多通道张量池化操作的通道数；W^hc为第c个通道的P阶张量权重；

如图6所示，为本发明的多通道多项式张量池化模块示意图，相较于单通道多项式张量池化模块，多通道池化操作对拼接数据进行多次高阶(P阶)多项式融合操作，则得到多个P阶数据张量，最终一个时间窗口的输出多个新的特征向量，对于多个特征向量采取最大池化操作，即对多个特征向量的同一个下标指定的所有元素集合进行最大值求取操作，得到的最大值作为该下标指定的新元素，则最终多个特征向量沿着通道维度进行降维操作，对应只得到一个特征向量作为该时间窗口的输出，极大增加了鲁棒性同时减少随机性。

最终构建大小为

的伪二维矩阵G_k+1；

5.3判断是否满足k≥N，N为最大迭代次数(N＝2)，若是则输出当前伪二维矩阵G_k+1，反之则重置k＝k+1，

并跳转至步骤5.2。

步骤6、多模态全局交互

对步骤(5)输出的伪二维矩阵G_k+1内所有特征向量拼接，得到新的特征向量z′；然后对z′进行高阶(P阶)多项式融合操作(如公式(4))得到P阶数据张量Z′^p,再对Z′^p按照P阶张量的各维度进行多通道低秩张量池化操作(如公式(6))，最终得到全局特征向量z。

步骤7、多模态信息数据分类

如表1所示，本发明与四种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、IEMOCAP上进行情感状态判别任务，MAE为均方误差，CORR为皮尔逊相关系数，ACC-7为7分类精度，比较衡量判别任务的多个指标可知，本发明的结果大都优于基础模型，或者与基础模型结果相当。

表1.结果对比表