CN114494969A - 基于多模语音信息互补与门控制的情绪识别方法 - Google Patents
基于多模语音信息互补与门控制的情绪识别方法 Download PDFInfo
- Publication number
- CN114494969A CN114494969A CN202210106236.8A CN202210106236A CN114494969A CN 114494969 A CN114494969 A CN 114494969A CN 202210106236 A CN202210106236 A CN 202210106236A CN 114494969 A CN114494969 A CN 114494969A
- Authority
- CN
- China
- Prior art keywords
- features
- fusion
- representation
- mode
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的基于多模语音信息互补与门控制的情绪识别方法,属于多模态情绪识别技术领域,包括以下步骤:S1提取目标视频中的音频特征与文本特征;S2对音频特征与文本特征进行特征双向融合;S3通过可学***衡了识别的准确率与模型的参数量。
Description
技术领域
本发明涉及多模态情绪识别技术领域,尤其涉及一种基于多模语音信息互补与门控制的情绪识别方法。
背景技术
情感在人际交流中起着关键作用,不仅语言信息,而且声音信息也传达了个人的情感状态。在许多领域,如人机交互、医疗保健和认知科学,都非常重视开发工具来识别人的声音表达中的情感。最近深度学习的蓬勃发展也促进了情感识别的发展,此外应用的需求推动了高性能的轻量级模型的发展。
现有许多工作都基于纯音频的特征来提高语音情感识别的性能。基于LLDs的表征被深度学习网络所提取,如卷积神经网络(CNN),循环神经网络(RNN)等。一些变体模块结构,如CNN-LSTM,也被用在这一领域以提取特征序列和捕捉时间依赖性。
然而,语言信息和声音信息对于情感识别来说同等重要。因此,为了完成多模态情感识别的任务,文本模态和音频模态都应该被考虑在内。对于音频模态,特征提取的过程类似于单模态语音情感识别的过程。对于文本模式,通常会使用像GloVe这样的词嵌入模型。让多模态情感识别比单模态情感识别更具挑战性的是模态融合的过程。一些早期的工作将不同的特征合并为深度神经网络的输入,为了在更深的层次上融合模式,Transformer架构被广泛应用使得学习到的模态融合表征得到加强。
尽管之前的工作做了改进,但很少考虑模态融合表征的比例与平衡的问题。
发明内容
本发明的技术问题是提供一种基于多模语音信息互补与门控制的情绪识别方法,能够调节模态融合表征的比例,实现情绪识别准确率和模型参数量的平衡。
为实现上述目的,本发明采取的技术方案为:
基于多模语音信息互补与门控制的情绪识别方法,包括以下步骤:S1提取目标视频中的音频特征与文本特征;S2对音频特征与文本特征进行特征双向融合;S3通过可学习门控制机制调节S2中的双向融合的结果中融合表征的比例,并输出;S4对S3中可学习门控制机制的输出进行拼接,最终获得情绪类别输出。
S2包括:以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征,通过Transformer交叉注意力机制将文本特征和音频特征进行融合,得到第一融合表征;以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征,通过Transformer交叉注意力机制将音频特征和文本特征进行融合,得到第二融合表征。
S2包括:以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征;通过Transformer交叉注意力机制将文本特征和音频特征进行融合;并通过残差模块进行跨层连接和归一化,得到第一中间融合表征;通过全连接层与归一化对第一中间融合表征进行增强得到第一融合表征;以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征;通过Transformer交叉注意力机制将音频特征和文本特征进行融合;并通过残差模块进行跨层连接和归一化,得到第二中间融合表征;通过全连接层与归一化对第二中间融合表征进行增强得到第二融合表征。
S3为:通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第一中间输出,将第二融合表征和第二原始模态表征按比例融合得到第二中间输出。
S4为:将第一中间输出和第二中间输出进行拼接,最终获得情绪类别输出。
方法部署至公开数据集CMU-MOSEI上,在训练过程中使用Adam优化器进行优化。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图,重点在于示出本发明的主旨。
图1是本发明提供的基于多模语音信息互补与门控制的情绪识别方法的架构图;
图2是本发明提供的CMU-MOSEI在不同模型的参数量和F1值的比较图。
具体实施方式
下面结合附图和具体的实施例对本发明作进一步的说明,但是不作为本发明的限定。
现有技术中,大多语音情绪识别模型仅仅考虑语音模态的信息却没有将文本,即其语义信息考虑在内,且缺少语义信息与音频信息的平衡融合;且当前的大多数网络往往由于大规模预训练模型的影响,参数量巨大,很难在一些对实时性和轻量化要求高的场景下落地。
本发明提供的基于多模语音信息互补与门控制的情绪识别方法,如图1所示,首先,提取目标视频中的音频特征和文本特征,对于文本模态,使用预先训练好的GloVe词嵌入来处理,嵌入是一个300维的向量。对于音频模态,用COVAREP提取低层次的74维向量,包括12个梅尔频率倒谱系数(MFCCs),音调跟踪和声/非声分割特征,峰值斜率参数和音调最大值。
Ht=BiLSTM(Xt)
然后,BiLSTM将其作为输入再次编码,
提取特征后,Transformer的交叉注意模块将一种模式的特征与另一种模式的特征进行强化,其中门机制作为流量控制单元来平衡两种模式的比例。
在本实施例中,以文本特征为源模态Ht,以音频特征为目标模态Ha,则文本特征为第一原始模态表征;通过Transformer交叉注意力机制,即Cross Attention,将文本特征和音频特征进行融合,公式如下:
Q=WQ×Ha
K=WK×Ht
V=WV×Ht
ht→a=LN(H′+Ha)
最后用全连接层与归一化对第一中间融合表征再次增强,得到:
Ht→a′=LN((ht→a+FFN(ht→a))
以音频特征为源模态Ha,以文本特征为目标模态Ht,则音频特征为第二原始模态表征;通过Transformer交叉注意力机制将音频特征和文本特征进行融合,公式如下:
Q=WQ×Ht
K=WK×Ha
V=WV×Ha
ha→t=LN(H′+Ht)
最后用全连接层与归一化对第二中间融合表征再次增强,得到:
Ha→t′=LN((ht→a+FFN(ht→a))
接着通过可学习门控制机制将第一融合表征和第一原始模态表征按比例融合得到第一中间输出:
Ht→a=Ht→a′×Gi+Ha×Gr
通过可学习门控制机制将第二融合表征和第二原始模态表征按比例融合得到第二中间输出:
Ha→t=Ha→t′×Gi+Ht×Gr
最后将第一中间输出和第二中间输出进行拼接,最终获得情绪类别输出,公式如下:
最后,本发明将方法应用到公开数据集CMU-MOSEI上,在训练过程中使用Adam优化器,使用学***衡了准确率和参数量,在保证实际应用的情况下,有可观的准确率,在保证准确率的情况下,又注重轻量级应用。具体对比如图2所示。
综上所述,本发明基于Transformer交叉互补模块将各种模态信息相互融合,可学***衡了准确率和参数量,与现有的方法相比,本发明提出的模型能够以最小的参数量达到最好的效果,实验结果表明本发明更有利于实际场景的应用。
本发明将门控制机制应用于交叉注意力模块,以决定是保留源模态信息还是覆盖目标模态信息。此外,现有模型大多依赖于大量的可学习参数,忽视了在一些有前景但需要实时和轻量级模型的领域的潜在应用,如人机交互。因此,一个轻量级的模型对于提高语音情感识别应用的可行性和实用性是必要的。
以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (6)
1.基于多模语音信息互补与门控制的情绪识别方法,其特征在于,包括以下步骤:
S1提取目标视频中的音频特征与文本特征;
S2对音频特征与文本特征进行特征双向融合;
S3通过可学习门控制机制调节所述S2中的双向融合的结果中融合表征的比例,并输出;
S4对所述S3中可学习门控制机制的输出进行拼接,最终获得情绪类别输出。
2.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S2包括:
以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征,通过Transformer交叉注意力机制将文本特征和音频特征进行融合,得到第一融合表征;
以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征,通过Transformer交叉注意力机制将音频特征和文本特征进行融合,得到第二融合表征。
3.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S2包括:
以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征;
通过Transformer交叉注意力机制将文本特征和音频特征进行融合;并通过残差模块进行跨层连接和归一化,得到第一中间融合表征;
通过全连接层与归一化对第一中间融合表征进行增强得到第一融合表征;
以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征;
通过Transformer交叉注意力机制将音频特征和文本特征进行融合;并通过残差模块进行跨层连接和归一化,得到第二中间融合表征;
通过全连接层与归一化对第二中间融合表征进行增强得到第二融合表征。
4.如权利要求2或3所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S3为:
通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第一中间输出,将第二融合表征和第二原始模态表征按比例融合得到第二中间输出。
5.如权利要求4所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S4为:
将第一中间输出和第二中间输出进行拼接,最终获得情绪类别输出。
6.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述方法部署至公开数据集CMU-MOSEI上,在训练过程中使用Adam优化器进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210106236.8A CN114494969A (zh) | 2022-01-28 | 2022-01-28 | 基于多模语音信息互补与门控制的情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210106236.8A CN114494969A (zh) | 2022-01-28 | 2022-01-28 | 基于多模语音信息互补与门控制的情绪识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114494969A true CN114494969A (zh) | 2022-05-13 |
Family
ID=81477008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210106236.8A Pending CN114494969A (zh) | 2022-01-28 | 2022-01-28 | 基于多模语音信息互补与门控制的情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494969A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238749A (zh) * | 2022-08-04 | 2022-10-25 | 中国人民解放军军事科学院***工程研究院 | 一种基于Transformer的特征融合的调制识别方法 |
CN117423168A (zh) * | 2023-12-19 | 2024-01-19 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及*** |
-
2022
- 2022-01-28 CN CN202210106236.8A patent/CN114494969A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238749A (zh) * | 2022-08-04 | 2022-10-25 | 中国人民解放军军事科学院***工程研究院 | 一种基于Transformer的特征融合的调制识别方法 |
CN115238749B (zh) * | 2022-08-04 | 2024-04-23 | 中国人民解放军军事科学院***工程研究院 | 一种基于Transformer的特征融合的调制识别方法 |
CN117423168A (zh) * | 2023-12-19 | 2024-01-19 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及*** |
CN117423168B (zh) * | 2023-12-19 | 2024-04-02 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Attention assisted discovery of sub-utterance structure in speech emotion recognition. | |
Gu et al. | Speech intention classification with multimodal deep learning | |
JP2023509031A (ja) | マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム | |
Shashidhar et al. | Combining audio and visual speech recognition using LSTM and deep convolutional neural network | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
Seo et al. | Wav2kws: Transfer learning from speech representations for keyword spotting | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN114494969A (zh) | 基于多模语音信息互补与门控制的情绪识别方法 | |
CN111382257A (zh) | 一种生成对话下文的方法和*** | |
Zhang et al. | Multi-head attention fusion networks for multi-modal speech emotion recognition | |
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
CN110569869A (zh) | 一种用于多模态情绪检测的特征级融合方法 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN112101044A (zh) | 一种意图识别方法、装置及电子设备 | |
Qu et al. | Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN117892237B (zh) | 一种基于超图神经网络的多模态对话情绪识别方法及*** | |
Xu et al. | A comprehensive survey of automated audio captioning | |
Singh et al. | A lightweight 2D CNN based approach for speaker-independent emotion recognition from speech with new Indian Emotional Speech Corpora | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及*** | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN116052291A (zh) | 基于非对齐序列的多模态情绪识别方法 | |
Liu et al. | Keyword retrieving in continuous speech using connectionist temporal classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |