CN114494969A - 基于多模语音信息互补与门控制的情绪识别方法 - Google Patents

基于多模语音信息互补与门控制的情绪识别方法 Download PDF

Info

Publication number
CN114494969A
CN114494969A CN202210106236.8A CN202210106236A CN114494969A CN 114494969 A CN114494969 A CN 114494969A CN 202210106236 A CN202210106236 A CN 202210106236A CN 114494969 A CN114494969 A CN 114494969A
Authority
CN
China
Prior art keywords
features
fusion
representation
mode
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210106236.8A
Other languages
English (en)
Inventor
刘峰
李知函
齐佳音
周爱民
李志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University Of International Business And Economics
East China Normal University
Original Assignee
Shanghai University Of International Business And Economics
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University Of International Business And Economics, East China Normal University filed Critical Shanghai University Of International Business And Economics
Priority to CN202210106236.8A priority Critical patent/CN114494969A/zh
Publication of CN114494969A publication Critical patent/CN114494969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的基于多模语音信息互补与门控制的情绪识别方法,属于多模态情绪识别技术领域,包括以下步骤:S1提取目标视频中的音频特征与文本特征;S2对音频特征与文本特征进行特征双向融合;S3通过可学***衡了识别的准确率与模型的参数量。

Description

基于多模语音信息互补与门控制的情绪识别方法
技术领域
本发明涉及多模态情绪识别技术领域,尤其涉及一种基于多模语音信息互补与门控制的情绪识别方法。
背景技术
情感在人际交流中起着关键作用,不仅语言信息,而且声音信息也传达了个人的情感状态。在许多领域,如人机交互、医疗保健和认知科学,都非常重视开发工具来识别人的声音表达中的情感。最近深度学习的蓬勃发展也促进了情感识别的发展,此外应用的需求推动了高性能的轻量级模型的发展。
现有许多工作都基于纯音频的特征来提高语音情感识别的性能。基于LLDs的表征被深度学习网络所提取,如卷积神经网络(CNN),循环神经网络(RNN)等。一些变体模块结构,如CNN-LSTM,也被用在这一领域以提取特征序列和捕捉时间依赖性。
然而,语言信息和声音信息对于情感识别来说同等重要。因此,为了完成多模态情感识别的任务,文本模态和音频模态都应该被考虑在内。对于音频模态,特征提取的过程类似于单模态语音情感识别的过程。对于文本模式,通常会使用像GloVe这样的词嵌入模型。让多模态情感识别比单模态情感识别更具挑战性的是模态融合的过程。一些早期的工作将不同的特征合并为深度神经网络的输入,为了在更深的层次上融合模式,Transformer架构被广泛应用使得学习到的模态融合表征得到加强。
尽管之前的工作做了改进,但很少考虑模态融合表征的比例与平衡的问题。
发明内容
本发明的技术问题是提供一种基于多模语音信息互补与门控制的情绪识别方法,能够调节模态融合表征的比例,实现情绪识别准确率和模型参数量的平衡。
为实现上述目的,本发明采取的技术方案为:
基于多模语音信息互补与门控制的情绪识别方法,包括以下步骤:S1提取目标视频中的音频特征与文本特征;S2对音频特征与文本特征进行特征双向融合;S3通过可学习门控制机制调节S2中的双向融合的结果中融合表征的比例,并输出;S4对S3中可学习门控制机制的输出进行拼接,最终获得情绪类别输出。
S2包括:以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征,通过Transformer交叉注意力机制将文本特征和音频特征进行融合,得到第一融合表征;以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征,通过Transformer交叉注意力机制将音频特征和文本特征进行融合,得到第二融合表征。
S2包括:以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征;通过Transformer交叉注意力机制将文本特征和音频特征进行融合;并通过残差模块进行跨层连接和归一化,得到第一中间融合表征;通过全连接层与归一化对第一中间融合表征进行增强得到第一融合表征;以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征;通过Transformer交叉注意力机制将音频特征和文本特征进行融合;并通过残差模块进行跨层连接和归一化,得到第二中间融合表征;通过全连接层与归一化对第二中间融合表征进行增强得到第二融合表征。
S3为:通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第一中间输出,将第二融合表征和第二原始模态表征按比例融合得到第二中间输出。
S4为:将第一中间输出和第二中间输出进行拼接,最终获得情绪类别输出。
方法部署至公开数据集CMU-MOSEI上,在训练过程中使用Adam优化器进行优化。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图,重点在于示出本发明的主旨。
图1是本发明提供的基于多模语音信息互补与门控制的情绪识别方法的架构图;
图2是本发明提供的CMU-MOSEI在不同模型的参数量和F1值的比较图。
具体实施方式
下面结合附图和具体的实施例对本发明作进一步的说明,但是不作为本发明的限定。
现有技术中,大多语音情绪识别模型仅仅考虑语音模态的信息却没有将文本,即其语义信息考虑在内,且缺少语义信息与音频信息的平衡融合;且当前的大多数网络往往由于大规模预训练模型的影响,参数量巨大,很难在一些对实时性和轻量化要求高的场景下落地。
本发明提供的基于多模语音信息互补与门控制的情绪识别方法,如图1所示,首先,提取目标视频中的音频特征和文本特征,对于文本模态,使用预先训练好的GloVe词嵌入来处理,嵌入是一个300维的向量。对于音频模态,用COVAREP提取低层次的74维向量,包括12个梅尔频率倒谱系数(MFCCs),音调跟踪和声/非声分割特征,峰值斜率参数和音调最大值。
利用CNN-BiLSTM和BiLSTM分别提取音频特征和文本特征,对于文本序列
Figure BDA0003493566070000031
将其使用BiLSTM进行编码,可表示为
Ht=BiLSTM(Xt)
其中
Figure BDA0003493566070000032
表示被编码的文本特征。
对于音频序列,将音频序列表示为
Figure BDA0003493566070000033
使用一维卷积操作,即
Figure BDA0003493566070000034
然后,BiLSTM将其作为输入再次编码,
Figure BDA0003493566070000041
其中
Figure BDA0003493566070000042
表示编码后的音频特征。
提取特征后,Transformer的交叉注意模块将一种模式的特征与另一种模式的特征进行强化,其中门机制作为流量控制单元来平衡两种模式的比例。
将源模态定义为
Figure BDA0003493566070000043
目标模态定义为
Figure BDA0003493566070000044
其中{S,T}∈{t,a},即存在源模态为文本,目标模态为音频的融合以及源模态为音频,目标模态为文本的双向融合。特别地,使dS=dT=d,即源模态与目标模态维度一致。
在本实施例中,以文本特征为源模态Ht,以音频特征为目标模态Ha,则文本特征为第一原始模态表征;通过Transformer交叉注意力机制,即Cross Attention,将文本特征和音频特征进行融合,公式如下:
Q=WQ×Ha
K=WK×Ht
V=WV×Ht
Figure BDA0003493566070000045
其中
Figure BDA0003493566070000046
是原始特征经过线性变换的表征。然后通过残差模块进行跨层连接并归一化:
ht→a=LN(H′+Ha)
其中
Figure BDA0003493566070000047
表示将源模态向目标模态融合的第一中间融合表征。
最后用全连接层与归一化对第一中间融合表征再次增强,得到:
Ht→a′=LN((ht→a+FFN(ht→a))
其中
Figure BDA0003493566070000048
表示将源模态Ht向目标模态Ha融合的第一融合表征,FFN表示全连接层。
以音频特征为源模态Ha,以文本特征为目标模态Ht,则音频特征为第二原始模态表征;通过Transformer交叉注意力机制将音频特征和文本特征进行融合,公式如下:
Q=WQ×Ht
K=WK×Ha
V=WV×Ha
Figure BDA0003493566070000051
其中
Figure BDA0003493566070000052
是原始特征经过线性变换的表征。然后通过残差模块进行跨层连接并归一化:
ha→t=LN(H′+Ht)
其中
Figure BDA0003493566070000053
表示将源模态向目标模态融合的第二中间融合表征。
最后用全连接层与归一化对第二中间融合表征再次增强,得到:
Ha→t′=LN((ht→a+FFN(ht→a))
其中
Figure BDA0003493566070000054
表示将源模态Ha向目标模态Ht融合的第二融合表征,FFN表示全连接层。
接着通过可学习门控制机制将第一融合表征和第一原始模态表征按比例融合得到第一中间输出:
Ht→a=Ht→a′×Gi+Ha×Gr
其中
Figure BDA0003493566070000055
表示整合门,用以调整融合后的信息权重,
Figure BDA0003493566070000056
表示保留门,用以调整原始信息的权重。
通过可学习门控制机制将第二融合表征和第二原始模态表征按比例融合得到第二中间输出:
Ha→t=Ha→t′×Gi+Ht×Gr
其中
Figure BDA0003493566070000057
表示整合门,用以调整融合后的信息权重,
Figure BDA0003493566070000058
表示保留门,用以调整原始信息的权重。
最后将第一中间输出和第二中间输出进行拼接,最终获得情绪类别输出,公式如下:
Figure BDA0003493566070000059
其中,
Figure BDA00034935660700000510
表示将源模态向目标模态融合的向量表征,
Figure BDA00034935660700000511
表示将目标模态向源模态融合的向量表征,[·,·]表示拼接操作,Transformer表示Transformer编码器,
Figure BDA0003493566070000061
表示预测的情绪类别。
最后,本发明将方法应用到公开数据集CMU-MOSEI上,在训练过程中使用Adam优化器,使用学***衡了准确率和参数量,在保证实际应用的情况下,有可观的准确率,在保证准确率的情况下,又注重轻量级应用。具体对比如图2所示。
综上所述,本发明基于Transformer交叉互补模块将各种模态信息相互融合,可学***衡了准确率和参数量,与现有的方法相比,本发明提出的模型能够以最小的参数量达到最好的效果,实验结果表明本发明更有利于实际场景的应用。
本发明将门控制机制应用于交叉注意力模块,以决定是保留源模态信息还是覆盖目标模态信息。此外,现有模型大多依赖于大量的可学习参数,忽视了在一些有前景但需要实时和轻量级模型的领域的潜在应用,如人机交互。因此,一个轻量级的模型对于提高语音情感识别应用的可行性和实用性是必要的。
以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (6)

1.基于多模语音信息互补与门控制的情绪识别方法,其特征在于,包括以下步骤:
S1提取目标视频中的音频特征与文本特征;
S2对音频特征与文本特征进行特征双向融合;
S3通过可学习门控制机制调节所述S2中的双向融合的结果中融合表征的比例,并输出;
S4对所述S3中可学习门控制机制的输出进行拼接,最终获得情绪类别输出。
2.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S2包括:
以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征,通过Transformer交叉注意力机制将文本特征和音频特征进行融合,得到第一融合表征;
以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征,通过Transformer交叉注意力机制将音频特征和文本特征进行融合,得到第二融合表征。
3.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S2包括:
以文本特征为源模态,以音频特征为目标模态,则文本特征为第一原始模态表征;
通过Transformer交叉注意力机制将文本特征和音频特征进行融合;并通过残差模块进行跨层连接和归一化,得到第一中间融合表征;
通过全连接层与归一化对第一中间融合表征进行增强得到第一融合表征;
以音频特征为源模态,以文本特征为目标模态,则音频特征为第二原始模态表征;
通过Transformer交叉注意力机制将音频特征和文本特征进行融合;并通过残差模块进行跨层连接和归一化,得到第二中间融合表征;
通过全连接层与归一化对第二中间融合表征进行增强得到第二融合表征。
4.如权利要求2或3所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S3为:
通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第一中间输出,将第二融合表征和第二原始模态表征按比例融合得到第二中间输出。
5.如权利要求4所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述S4为:
将第一中间输出和第二中间输出进行拼接,最终获得情绪类别输出。
6.如权利要求1所述的基于多模语音信息互补与门控制的情绪识别方法,其特征在于,所述方法部署至公开数据集CMU-MOSEI上,在训练过程中使用Adam优化器进行优化。
CN202210106236.8A 2022-01-28 2022-01-28 基于多模语音信息互补与门控制的情绪识别方法 Pending CN114494969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210106236.8A CN114494969A (zh) 2022-01-28 2022-01-28 基于多模语音信息互补与门控制的情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210106236.8A CN114494969A (zh) 2022-01-28 2022-01-28 基于多模语音信息互补与门控制的情绪识别方法

Publications (1)

Publication Number Publication Date
CN114494969A true CN114494969A (zh) 2022-05-13

Family

ID=81477008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210106236.8A Pending CN114494969A (zh) 2022-01-28 2022-01-28 基于多模语音信息互补与门控制的情绪识别方法

Country Status (1)

Country Link
CN (1) CN114494969A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238749A (zh) * 2022-08-04 2022-10-25 中国人民解放军军事科学院***工程研究院 一种基于Transformer的特征融合的调制识别方法
CN117423168A (zh) * 2023-12-19 2024-01-19 湖南三湘银行股份有限公司 基于多模态特征融合的用户情绪识别方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238749A (zh) * 2022-08-04 2022-10-25 中国人民解放军军事科学院***工程研究院 一种基于Transformer的特征融合的调制识别方法
CN115238749B (zh) * 2022-08-04 2024-04-23 中国人民解放军军事科学院***工程研究院 一种基于Transformer的特征融合的调制识别方法
CN117423168A (zh) * 2023-12-19 2024-01-19 湖南三湘银行股份有限公司 基于多模态特征融合的用户情绪识别方法及***
CN117423168B (zh) * 2023-12-19 2024-04-02 湖南三湘银行股份有限公司 基于多模态特征融合的用户情绪识别方法及***

Similar Documents

Publication Publication Date Title
Huang et al. Attention assisted discovery of sub-utterance structure in speech emotion recognition.
Gu et al. Speech intention classification with multimodal deep learning
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
Shashidhar et al. Combining audio and visual speech recognition using LSTM and deep convolutional neural network
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
Seo et al. Wav2kws: Transfer learning from speech representations for keyword spotting
CN115329779B (zh) 一种多人对话情感识别方法
CN114494969A (zh) 基于多模语音信息互补与门控制的情绪识别方法
CN111382257A (zh) 一种生成对话下文的方法和***
Zhang et al. Multi-head attention fusion networks for multi-modal speech emotion recognition
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN110569869A (zh) 一种用于多模态情绪检测的特征级融合方法
CN111274412A (zh) 信息提取方法、信息提取模型训练方法、装置及存储介质
CN112101044A (zh) 一种意图识别方法、装置及电子设备
Qu et al. Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading
CN114882862A (zh) 一种语音处理方法及相关设备
CN117892237B (zh) 一种基于超图神经网络的多模态对话情绪识别方法及***
Xu et al. A comprehensive survey of automated audio captioning
Singh et al. A lightweight 2D CNN based approach for speaker-independent emotion recognition from speech with new Indian Emotional Speech Corpora
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及***
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN116052291A (zh) 基于非对齐序列的多模态情绪识别方法
Liu et al. Keyword retrieving in continuous speech using connectionist temporal classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination