CN114494969A

CN114494969A - 基于多模语音信息互补与门控制的情绪识别方法

Info

Publication number: CN114494969A
Application number: CN202210106236.8A
Authority: CN
Inventors: 刘峰; 李知函; 齐佳音; 周爱民; 李志斌
Original assignee: Shanghai University Of International Business And Economics; East China Normal University
Current assignee: Shanghai University Of International Business And Economics; East China Normal University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13

Abstract

本发明提供的基于多模语音信息互补与门控制的情绪识别方法，属于多模态情绪识别技术领域，包括以下步骤：S1提取目标视频中的音频特征与文本特征；S2对音频特征与文本特征进行特征双向融合；S3通过可学***衡了识别的准确率与模型的参数量。

Description

基于多模语音信息互补与门控制的情绪识别方法

技术领域

本发明涉及多模态情绪识别技术领域，尤其涉及一种基于多模语音信息互补与门控制的情绪识别方法。

背景技术

情感在人际交流中起着关键作用，不仅语言信息，而且声音信息也传达了个人的情感状态。在许多领域，如人机交互、医疗保健和认知科学，都非常重视开发工具来识别人的声音表达中的情感。最近深度学习的蓬勃发展也促进了情感识别的发展，此外应用的需求推动了高性能的轻量级模型的发展。

现有许多工作都基于纯音频的特征来提高语音情感识别的性能。基于LLDs的表征被深度学习网络所提取，如卷积神经网络(CNN)，循环神经网络(RNN)等。一些变体模块结构，如CNN-LSTM，也被用在这一领域以提取特征序列和捕捉时间依赖性。

然而，语言信息和声音信息对于情感识别来说同等重要。因此，为了完成多模态情感识别的任务，文本模态和音频模态都应该被考虑在内。对于音频模态，特征提取的过程类似于单模态语音情感识别的过程。对于文本模式，通常会使用像GloVe这样的词嵌入模型。让多模态情感识别比单模态情感识别更具挑战性的是模态融合的过程。一些早期的工作将不同的特征合并为深度神经网络的输入，为了在更深的层次上融合模式，Transformer架构被广泛应用使得学习到的模态融合表征得到加强。

尽管之前的工作做了改进，但很少考虑模态融合表征的比例与平衡的问题。

发明内容

本发明的技术问题是提供一种基于多模语音信息互补与门控制的情绪识别方法，能够调节模态融合表征的比例，实现情绪识别准确率和模型参数量的平衡。

为实现上述目的，本发明采取的技术方案为：

基于多模语音信息互补与门控制的情绪识别方法，包括以下步骤：S1提取目标视频中的音频特征与文本特征；S2对音频特征与文本特征进行特征双向融合；S3通过可学习门控制机制调节S2中的双向融合的结果中融合表征的比例，并输出；S4对S3中可学习门控制机制的输出进行拼接，最终获得情绪类别输出。

S2包括：以文本特征为源模态，以音频特征为目标模态，则文本特征为第一原始模态表征，通过Transformer交叉注意力机制将文本特征和音频特征进行融合，得到第一融合表征；以音频特征为源模态，以文本特征为目标模态，则音频特征为第二原始模态表征，通过Transformer交叉注意力机制将音频特征和文本特征进行融合，得到第二融合表征。

S2包括：以文本特征为源模态，以音频特征为目标模态，则文本特征为第一原始模态表征；通过Transformer交叉注意力机制将文本特征和音频特征进行融合；并通过残差模块进行跨层连接和归一化，得到第一中间融合表征；通过全连接层与归一化对第一中间融合表征进行增强得到第一融合表征；以音频特征为源模态，以文本特征为目标模态，则音频特征为第二原始模态表征；通过Transformer交叉注意力机制将音频特征和文本特征进行融合；并通过残差模块进行跨层连接和归一化，得到第二中间融合表征；通过全连接层与归一化对第二中间融合表征进行增强得到第二融合表征。

S3为：通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第一中间输出，将第二融合表征和第二原始模态表征按比例融合得到第二中间输出。

S4为：将第一中间输出和第二中间输出进行拼接，最终获得情绪类别输出。

方法部署至公开数据集CMU-MOSEI上，在训练过程中使用Adam优化器进行优化。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明提供的基于多模语音信息互补与门控制的情绪识别方法的架构图；

图2是本发明提供的CMU-MOSEI在不同模型的参数量和F1值的比较图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的说明，但是不作为本发明的限定。

现有技术中，大多语音情绪识别模型仅仅考虑语音模态的信息却没有将文本，即其语义信息考虑在内，且缺少语义信息与音频信息的平衡融合；且当前的大多数网络往往由于大规模预训练模型的影响，参数量巨大，很难在一些对实时性和轻量化要求高的场景下落地。

本发明提供的基于多模语音信息互补与门控制的情绪识别方法，如图1所示，首先，提取目标视频中的音频特征和文本特征，对于文本模态，使用预先训练好的GloVe词嵌入来处理，嵌入是一个300维的向量。对于音频模态，用COVAREP提取低层次的74维向量，包括12个梅尔频率倒谱系数(MFCCs)，音调跟踪和声/非声分割特征，峰值斜率参数和音调最大值。

利用CNN-BiLSTM和BiLSTM分别提取音频特征和文本特征，对于文本序列

将其使用BiLSTM进行编码，可表示为

H^t＝BiLSTM(X^t)

其中

表示被编码的文本特征。

对于音频序列，将音频序列表示为

使用一维卷积操作，即

然后，BiLSTM将其作为输入再次编码，

其中

表示编码后的音频特征。

提取特征后，Transformer的交叉注意模块将一种模式的特征与另一种模式的特征进行强化，其中门机制作为流量控制单元来平衡两种模式的比例。

将源模态定义为

目标模态定义为

其中{S，T}∈{t，a}，即存在源模态为文本，目标模态为音频的融合以及源模态为音频，目标模态为文本的双向融合。特别地，使d^S＝d^T＝d，即源模态与目标模态维度一致。

在本实施例中，以文本特征为源模态H^t，以音频特征为目标模态H^a，则文本特征为第一原始模态表征；通过Transformer交叉注意力机制，即Cross Attention，将文本特征和音频特征进行融合，公式如下：

Q＝W_Q×H^a

K＝W_K×H^t

V＝W_V×H^t

其中

是原始特征经过线性变换的表征。然后通过残差模块进行跨层连接并归一化：

h^t→a＝LN(H′+H^a)

其中

表示将源模态向目标模态融合的第一中间融合表征。

最后用全连接层与归一化对第一中间融合表征再次增强，得到：

H^t→a′＝LN((h^t→a+FFN(h^t→a))

其中

表示将源模态H^t向目标模态H^a融合的第一融合表征，FFN表示全连接层。

以音频特征为源模态H^a，以文本特征为目标模态H^t，则音频特征为第二原始模态表征；通过Transformer交叉注意力机制将音频特征和文本特征进行融合，公式如下：

Q＝W_Q×H^t

K＝W_K×H^a

V＝W_V×H^a

其中

h^a→t＝LN(H′+H^t)

其中

表示将源模态向目标模态融合的第二中间融合表征。

最后用全连接层与归一化对第二中间融合表征再次增强，得到：

H^a→t′＝LN((h^t→a+FFN(h^t→a))

其中

表示将源模态H^a向目标模态H^t融合的第二融合表征，FFN表示全连接层。

接着通过可学习门控制机制将第一融合表征和第一原始模态表征按比例融合得到第一中间输出：

H^t→a＝H^t→a′×G_i+H^a×G_r

其中

表示整合门，用以调整融合后的信息权重，

表示保留门，用以调整原始信息的权重。

通过可学习门控制机制将第二融合表征和第二原始模态表征按比例融合得到第二中间输出：

H^a→t＝H^a→t′×G_i+H^t×G_r

其中

表示整合门，用以调整融合后的信息权重，

表示保留门，用以调整原始信息的权重。

最后将第一中间输出和第二中间输出进行拼接，最终获得情绪类别输出，公式如下：

其中，

表示将源模态向目标模态融合的向量表征，

表示将目标模态向源模态融合的向量表征，[·，·]表示拼接操作，Transformer表示Transformer编码器，

表示预测的情绪类别。

最后，本发明将方法应用到公开数据集CMU-MOSEI上，在训练过程中使用Adam优化器，使用学***衡了准确率和参数量，在保证实际应用的情况下，有可观的准确率，在保证准确率的情况下，又注重轻量级应用。具体对比如图2所示。

综上所述，本发明基于Transformer交叉互补模块将各种模态信息相互融合，可学***衡了准确率和参数量，与现有的方法相比，本发明提出的模型能够以最小的参数量达到最好的效果，实验结果表明本发明更有利于实际场景的应用。

本发明将门控制机制应用于交叉注意力模块，以决定是保留源模态信息还是覆盖目标模态信息。此外，现有模型大多依赖于大量的可学习参数，忽视了在一些有前景但需要实时和轻量级模型的领域的潜在应用，如人机交互。因此，一个轻量级的模型对于提高语音情感识别应用的可行性和实用性是必要的。

以上对本发明的较佳实施例进行了描述；需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容；因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.基于多模语音信息互补与门控制的情绪识别方法，其特征在于，包括以下步骤：

S1提取目标视频中的音频特征与文本特征；

S2对音频特征与文本特征进行特征双向融合；

S3通过可学习门控制机制调节所述S2中的双向融合的结果中融合表征的比例，并输出；

S4对所述S3中可学习门控制机制的输出进行拼接，最终获得情绪类别输出。

2.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法，其特征在于，所述S2包括：

以文本特征为源模态，以音频特征为目标模态，则文本特征为第一原始模态表征，通过Transformer交叉注意力机制将文本特征和音频特征进行融合，得到第一融合表征；

以音频特征为源模态，以文本特征为目标模态，则音频特征为第二原始模态表征，通过Transformer交叉注意力机制将音频特征和文本特征进行融合，得到第二融合表征。

3.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法，其特征在于，所述S2包括：

以文本特征为源模态，以音频特征为目标模态，则文本特征为第一原始模态表征；

通过Transformer交叉注意力机制将文本特征和音频特征进行融合；并通过残差模块进行跨层连接和归一化，得到第一中间融合表征；

通过全连接层与归一化对第一中间融合表征进行增强得到第一融合表征；

以音频特征为源模态，以文本特征为目标模态，则音频特征为第二原始模态表征；

通过Transformer交叉注意力机制将音频特征和文本特征进行融合；并通过残差模块进行跨层连接和归一化，得到第二中间融合表征；

通过全连接层与归一化对第二中间融合表征进行增强得到第二融合表征。

4.如权利要求2或3所述的基于多模语音信息互补与门控制的情绪识别方法，其特征在于，所述S3为：

通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第一中间输出，将第二融合表征和第二原始模态表征按比例融合得到第二中间输出。

5.如权利要求4所述的基于多模语音信息互补与门控制的情绪识别方法，其特征在于，所述S4为：

将第一中间输出和第二中间输出进行拼接，最终获得情绪类别输出。

6.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法，其特征在于，所述方法部署至公开数据集CMU-MOSEI上，在训练过程中使用Adam优化器进行优化。