CN111753549A - 一种基于注意力机制的多模态情感特征学习、识别方法 - Google Patents

一种基于注意力机制的多模态情感特征学习、识别方法 Download PDF

Info

Publication number
CN111753549A
CN111753549A CN202010441528.8A CN202010441528A CN111753549A CN 111753549 A CN111753549 A CN 111753549A CN 202010441528 A CN202010441528 A CN 202010441528A CN 111753549 A CN111753549 A CN 111753549A
Authority
CN
China
Prior art keywords
features
emotion
audio
text
emotional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010441528.8A
Other languages
English (en)
Other versions
CN111753549B (zh
Inventor
薛艳飞
张建明
毛启容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010441528.8A priority Critical patent/CN111753549B/zh
Publication of CN111753549A publication Critical patent/CN111753549A/zh
Application granted granted Critical
Publication of CN111753549B publication Critical patent/CN111753549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于注意力机制的多模态情感特征学习、识别方法,对音频、文本样本进行特征提取,得到FBank声学特征和词向量特征;将得到的特征分别作为音频情感特征编码器和文本情感特征编码器的原始输入特征,通过编码器提取不同模态的情感语义特征;对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习,提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征;将四种特征融合之后进行分类即可得到对应的情感类别。本发明解决了传统多模态情感识别中模态内情感无关因素和模态间情感语义不一致导致的情感识别率低的问题,能够有效地提高多模态情感识别准确率。

Description

一种基于注意力机制的多模态情感特征学习、识别方法
技术领域
本发明属于情感计算领域,具体涉及一种基于注意力机制的多模态情感特征学习、识别方法。
背景技术
在人们的日常交互中,情感往往扮演着非常重要的角色,情感信息的感知有助于人们理解彼此的心理状态和行为。同样,情感信息对于维持人类和机器之间的长期交互至关重要,自动语音情感识别是桥接人类和计算机之间沟通鸿沟的一种有效方法。随着互联网的快速发展和普及,人们对人机交互***提出了更高的要求,人们期望与之交互的机器也具有类似于人的观察、理解和生成情感特征的能力。因此,基于语音和文本的多模态情感识别对于改善智能人机交互***的用户体验至关重要,也是当前备受研究者们追捧的研究热点。
在R.Li等人,题为“Towards Discriminative Representation Learning forSpeech Emotion Recognition”的论文中,通过多头自注意力机制和上下文感知的注意力LSTM学习情感显著的特征表示,但该方法没有考虑语音和文本模态间的相互依赖关系。在S.Yoon等人,题为“Attentive Modality Hopping Mechanism for Speech EmotionRecognition”的论文中,利用模态跳变注意力机制对模态之间的依赖关系进行建模,通过融合音频、视频、文本三个模态对齐的情感特征来提高识别率,但忽略了单模态特有情感特征对识别率的影响。由于不同模态之间既存在各自的情感特性,即单模态独立特征,又存在多模态交互关系,即多模态交互特征。因此,如何利用单模态特征和多模态交互特征,高效地抽取文本、语音及其相互依赖的情感特征对多模态情感识别至关重要。
虽然传统的多模态情感识别方法通过融合不同模态的情感特征对最后的情感识别有一定的促进作用,但是大多数多模态情感识别方法没有综合考虑单模态特有的情感特性和多模态之间相互依赖关系对情感识别的影响。因此,本发明为了克服现有技术的缺陷,通过基于模态内注意力和模态跳变意力机制的深度神经网络对多模态情感特征进行学习得到:情感显著的音频特征、情感显著的文本特征、语义对齐的音频特征和语义对齐的文本特征,对这些特征进行融合可以得到多模态之间互补的情感信息。
发明内容
针对现有技术中存在的问题和不足,本发明提出了一种基于注意力机制的多模态情感特征学习、识别方法,训练得到的模型不受情感无关因素的干扰且能更高效地提取不同模态之间的情感依赖关系,从而高效地识别多模态的情感状态。
一种基于注意力机制的多模态情感特征学习、识别方法,包括以下步骤:
S1,预处理和特征提取:分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取,得到对应的FBank声学特征和词向量特征。
S2,情感特征编码器学习:分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取,进而得到音频情感语义特征
Figure BDA0002504342990000021
和文本情感语义特征
Figure BDA0002504342990000022
S3,情感显著特征的学习:对音频情感语义特征
Figure BDA0002504342990000023
和文本情感语义特征
Figure BDA0002504342990000024
分别使用模态内的注意力机制ESAM进行情感显著特征的提取,分别对
Figure BDA0002504342990000025
Figure BDA0002504342990000026
的输出特征
Figure BDA0002504342990000027
Figure BDA0002504342990000028
分配权重系数并对输出特征加权求和得到音频情感显著特征
Figure BDA0002504342990000029
和文本情感显著特征
Figure BDA00025043429900000210
S4,语义对齐的情感特征学习:对
Figure BDA00025043429900000211
Figure BDA00025043429900000212
分别使用模态间的注意力机制MHAM进行模态间情感语义对齐;使用
Figure BDA00025043429900000213
Figure BDA00025043429900000214
分配模态间情感相关的权重系数,并对
Figure BDA00025043429900000215
加权表征得到语义对齐的音频特征
Figure BDA00025043429900000216
使用
Figure BDA00025043429900000217
Figure BDA00025043429900000218
分配模态间情感相关的权重系数,并对
Figure BDA00025043429900000219
加权表征得到语义对齐的文本特征
Figure BDA00025043429900000220
S5,模型训练:将音频情感显著特征
Figure BDA00025043429900000221
文本情感显著特征
Figure BDA00025043429900000222
语义对齐的音频特征
Figure BDA00025043429900000223
和语义对齐的文本特征
Figure BDA00025043429900000224
融合得到最终的多模态情感特征
Figure BDA00025043429900000225
将Hmixed送入分类器中进行情感分类得到多模态样本的情感类别。
进一步,所述步骤S1中,对音频模态的样本进行预处理和特征提取的方法为:先对音频样本依次进行预加重、分帧、加窗的预处理;然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。
进一步,步骤S1中,对文本模态的样本进行预处理和特征提取的方法为:采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。
进一步,所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成;将FBank声学特征输入CBiLSTM,通过两层卷积神经网络提取FBank声学特征中情感相关的特征,并将该特征作为双向长短时记忆网络层的输入特征,进行上下文依赖的情感语义特征的提取,得到音频情感语义特征
Figure BDA0002504342990000031
进一步,所述文本情感特征编码器BiLSTM是由两层双向长短时记忆网络构成,将词向量特征输入BiLSTM,对词向量特征进行上下文相关的情感语义特征的提取,得到文本情感语义特征
Figure BDA0002504342990000032
进一步,分别采用神经网络自动学习得到
Figure BDA0002504342990000033
Figure BDA0002504342990000034
中每个输出特征
Figure BDA0002504342990000035
Figure BDA0002504342990000036
对应的权重系数
Figure BDA0002504342990000037
Figure BDA0002504342990000038
基于所得的权重系数分别对输出特征
Figure BDA0002504342990000039
Figure BDA00025043429900000310
加权求和,得到相应的音频情感显著特征
Figure BDA00025043429900000311
和文本情感显著特征
Figure BDA00025043429900000312
进一步,所述步骤S4中分别采用跨模态连接的神经网络层自动学习得到输出特征
Figure BDA00025043429900000313
Figure BDA00025043429900000314
对应的权重系数
Figure BDA00025043429900000315
Figure BDA00025043429900000316
基于所得的权重系数分别对输出特征
Figure BDA00025043429900000317
Figure BDA00025043429900000318
加权求和得到相应的语义对齐的音频特征
Figure BDA00025043429900000319
和语义对齐的文本特征
Figure BDA00025043429900000320
进一步,采用特征拼接的方式对多模态情感特征进行融合,然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类,得到对应样本所属的情感类别。
本发明具有有益效果
本发明的基于注意力机制的多模态情感特征学习、识别统一框架,通过引入模态内注意力机制,对情感特征编码器提取的情感语义特征进行情感显著特征的学习,使得模型免受情感无关特征的干扰;通过引入模态间注意力机制,对情感语义特征进行模态间的对齐,增强模型对模态交互特征的提取能力。本发明解决了传统多模态情感识别中单模态情感无关特征的影响和多模态情感交互特征抽取能力弱导致的情感识别率低的问题,能够有效地提高多模态情感识别的准确率。
附图说明
图1是本发明一种基于注意力机制的多模态情感特征学习、识别流程图;
图2是本发明所构建的音频模态情感注意力机制结构图;
图3是本发明所构建的文本模态情感注意力机制结构图;
图4是本发明所构建的音频模态跳变注意力机制结构图;
图5是本发明所构建的文本模态跳变注意力机制结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1给出了本发明的总体思路。首先,分别对音频模态的样本、文本模态的样本进行预处理和特征提取,得到音频样本的FBank声学特征和文本样本的词向量特征;其次,将得到的原始特征分别作为音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM的原始输入特征,通过对应的编码器可以提取不同模态的情感语义特征;然后,对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习,提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征;最后,将四种特征融合之后进行分类即可得到对应的情感类别。具体的实施步骤如下:
步骤一,预处理和特征提取:针对音频模态的样本数据,首先对原始音频信号依次进行预加重、分帧、加窗的预处理,帧长为25ms,帧移为15ms。将预处理后的音频信号依次经过快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换得到音频信号对应的FBank声学特征。其中,梅尔滤波器组的尺度为40,最终产生40×L维的FBank声学特征,L为音频样本的帧个数。
针对文本模态的样本数据,采用Google的预训练词向量模型GoogleNews对文本数据进行词向量特征的提取,最终产生300×N维的词向量特征,N为词向量长度。
步骤二,情感特征编码器学习:针对音频和文本模态的数据分别构建音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM。其中,音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成。其中,两层卷积神经网络层的卷积核大小分别为7×7和20×7、特征图个数为128,卷积层之后依次连接了批归一化层、ReLU非线性激活层和最大池化层,最大池化层的核尺寸分别为2×2和1×5。通过卷积操作将得到74×128维的中间情感表征序列M=[m1,m2,...,mn,...,mN],mn为特征图第n个位置的特征向量,通过两层卷积神经网络层提取FBank声学特征中情感相关的特征,并将该特征作为长短时记忆网络(Long-Short Term Memory,LSTM)层的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,...,hn,...,hN)。
fn=σ(Wfmn+Ufhn-1+bf) (1)
in=σ(Wimn+Uihn-1+bi) (2)
on=σ(Womn+Uohn-1+bo) (3)
Figure BDA0002504342990000051
Figure BDA0002504342990000052
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;mn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;
Figure BDA0002504342990000053
为哈达玛(Hadamard)积运算符号。
在音频编码器CBiLSTM中,使用两层双向长短时记忆网络(Bidirectional Long-Short Term Memory,BiLSTM)对输入的中间序列特征M进行时序关系建模。BiLSTM的隐向量表征分别来自正向和反向LSTM(使用
Figure BDA0002504342990000054
Figure BDA0002504342990000055
表示),每层LSTM的隐藏层节点数为128,同时使用非线性激活可以得到最终的隐向量
Figure BDA0002504342990000056
N个时间步的输出序列共同组成音频情感语义特征
Figure BDA0002504342990000057
同样,将文本模态的词向量特征作为文本情感特征编码器BiLSTM的输入特征,表示为X=[x1,x2,...,xn,...,xN],xn为第n个词向量特征;双向长短时记忆网络通过与音频模态相同的计算方式计算得到文本情感语义特征
Figure BDA0002504342990000061
其中,
Figure BDA0002504342990000062
为文本情感语义特征的第n个特征分量。
步骤三,情感显著特征的学习:在对音频和文本编码器生成的所有情感语义特征
Figure BDA0002504342990000063
Figure BDA0002504342990000064
进行情感分类时,每个时间步的输出特征对于情感识别任务通常并不都是同等重要的。因此,引入模态内注意力机制可以使模型专注于序列中情感显著特征的学习,从而提升情感识别的性能。在不同模态的特征编码器中,使用情感注意力机制对步骤二提取的特征序列进行情感相关的加权表征。图2和图3分别描述了音频模态和文本模态情感显著特征的学习过程,对于音频模态提取的音频情感语义特征
Figure BDA0002504342990000065
情感注意力层首先计算序列中第n时间步对应的输出特征
Figure BDA0002504342990000066
的权重
Figure BDA0002504342990000067
计算方式如公式(6)所示。
Figure BDA0002504342990000068
其中,exp为以自然常数e为底的指数函数,
Figure BDA0002504342990000069
W为可训练的参数。音频情感显著特征
Figure BDA00025043429900000610
是输入序列的加权之和,是对一段语音整体的情感表征,其加权求和的方法如公式(7)所示。
Figure BDA00025043429900000611
对于文本模态提取的文本情感语义特征
Figure BDA00025043429900000612
情感注意力层首先计算序列中第n时间步对应输出特征
Figure BDA00025043429900000613
的权重
Figure BDA00025043429900000614
计算方式如公式(8)所示。
Figure BDA00025043429900000615
其中,
Figure BDA00025043429900000616
W为可训练的参数。文本情感显著特征
Figure BDA00025043429900000617
是输入序列的加权之和,是对文本词向量整体的情感表征,其加权求和的方法如公式(9)所示。
Figure BDA00025043429900000618
最后,将得到的情感显著特征
Figure BDA00025043429900000619
送入下一层进行多模态情感融合。
步骤四,模态交互情感特征学习:使用模态跳变注意力机制MHAM对文本和音频模态间的情感依赖关系进行建模。图4和图5分别描述了音频模态和文本模态的模态交互情感特征学习过程,步骤二提取的音频情感语义特征
Figure BDA0002504342990000071
经过公式(10)计算得到语义对齐的音频情感特征
Figure BDA0002504342990000072
Figure BDA0002504342990000073
同样,步骤二提取的文本情感语义特征
Figure BDA0002504342990000074
经过公式(11)计算得到语义对齐的文本情感特征
Figure BDA0002504342990000075
Figure BDA0002504342990000076
步骤五,模型训练:通过以上步骤可以得到情感显著的特征
Figure BDA0002504342990000077
和模态间语义对齐的情感特征
Figure BDA0002504342990000078
将其融合得到最终的多模态情感特征
Figure BDA0002504342990000079
将Hmixed输入到全连接层进行情感分类得到多模态样本的情感类别。通过softmax激活函数得到模型最终预测的七类情感类别并采用公式(12)所示的多分类交叉熵损失函数对模型参数进行训练。
Figure BDA00025043429900000710
其中,
Figure BDA00025043429900000711
为模型预测的情感类别的概率向量,yj,c为第j个样本的真实情感标签,
Figure BDA00025043429900000712
为模型预测第j个样本属于第c类的概率,W和b分别为分类器的可训练权重和偏置向量,
Figure BDA00025043429900000713
为目标函数,C是类别个数,N为训练样本数。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取,得到对应的FBank声学特征和词向量特征;分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取得到音频情感语义特征
Figure FDA0002504342980000011
和文本情感语义特征
Figure FDA0002504342980000012
Figure FDA0002504342980000013
Figure FDA0002504342980000014
分别使用模态内的注意力机制ESAM进行情感显著特征的提取得到音频情感显著特征
Figure FDA0002504342980000015
和文本情感显著特征
Figure FDA0002504342980000016
Figure FDA0002504342980000017
Figure FDA0002504342980000018
分别使用模态间的注意力机制MHAM进行模态间情感语义对齐,得到语义对齐的音频特征
Figure FDA0002504342980000019
和语义对齐的文本特征
Figure FDA00025043429800000110
Figure FDA00025043429800000111
Figure FDA00025043429800000112
融合得到最终的多模态情感特征
Figure FDA00025043429800000113
将Hmixed送入分类器中进行情感分类得到多模态样本的情感类别。
2.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,对音频模态的样本进行预处理和特征提取的方法为:先对音频样本依次进行预加重、分帧、加窗的预处理;然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。
3.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,对文本模态的样本进行预处理和特征提取的方法为:采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。
4.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成;将FBank声学特征输入CBiLSTM,通过两层卷积神经网络提取FBank声学特征中情感相关的特征,并将该特征作为双向长短时记忆网络层的输入特征,进行上下文依赖的情感语义特征的提取,得到音频情感语义特征
Figure FDA00025043429800000114
5.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,所述文本情感特征编码器BiLSTM是由两层双向长短时记忆网络构成,将词向量特征输入BiLSTM,对词向量特征进行上下文相关的情感语义特征的提取,得到文本情感语义特征
Figure FDA0002504342980000021
6.根据权利要求4或5所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,分别采用神经网络自动学习得到
Figure FDA0002504342980000022
Figure FDA0002504342980000023
中每个输出特征
Figure FDA0002504342980000024
Figure FDA0002504342980000025
对应的权重系数
Figure FDA0002504342980000026
Figure FDA0002504342980000027
基于所得的权重系数分别对输出特征
Figure FDA0002504342980000028
Figure FDA0002504342980000029
加权求和,得到相应的音频情感显著特征
Figure FDA00025043429800000210
和文本情感显著特征
Figure FDA00025043429800000211
7.根据权利要求6所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,所述步骤S4中分别采用跨模态连接的神经网络层自动学习得到输出特征
Figure FDA00025043429800000212
Figure FDA00025043429800000213
对应的权重系数
Figure FDA00025043429800000214
Figure FDA00025043429800000215
基于所得的权重系数分别对输出特征
Figure FDA00025043429800000216
Figure FDA00025043429800000217
加权求和得到相应的语义对齐的音频特征
Figure FDA00025043429800000218
和语义对齐的文本特征
Figure FDA00025043429800000219
8.根据权利要求7所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,采用特征拼接的方式对多模态情感特征进行融合,然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类,得到对应样本所属的情感类别。
CN202010441528.8A 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法 Active CN111753549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010441528.8A CN111753549B (zh) 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010441528.8A CN111753549B (zh) 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法

Publications (2)

Publication Number Publication Date
CN111753549A true CN111753549A (zh) 2020-10-09
CN111753549B CN111753549B (zh) 2023-07-21

Family

ID=72673523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010441528.8A Active CN111753549B (zh) 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法

Country Status (1)

Country Link
CN (1) CN111753549B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508077A (zh) * 2020-12-02 2021-03-16 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及***
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法
CN112633364A (zh) * 2020-12-21 2021-04-09 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN112700796A (zh) * 2020-12-21 2021-04-23 北京工业大学 一种基于交互式注意力模型的语音情感识别方法
CN112733546A (zh) * 2020-12-28 2021-04-30 科大讯飞股份有限公司 表情符号生成方法、装置、电子设备及存储介质
CN112765323A (zh) * 2021-01-24 2021-05-07 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法
CN112818861A (zh) * 2021-02-02 2021-05-18 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及***
CN112905844A (zh) * 2021-03-23 2021-06-04 广东工业大学 一种视频语音检索方法
CN112949415A (zh) * 2021-02-04 2021-06-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN113129870A (zh) * 2021-03-23 2021-07-16 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN113177136A (zh) * 2021-04-27 2021-07-27 桂林电子科技大学 基于注意力的音频和歌词的多模态音乐风格分类方法
CN113312530A (zh) * 2021-06-09 2021-08-27 哈尔滨工业大学 一种以文本为核心的多模态情感分类方法
CN113314119A (zh) * 2021-07-27 2021-08-27 深圳百昱达科技有限公司 语音识别智能家居控制方法及装置
CN113435496A (zh) * 2021-06-24 2021-09-24 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
WO2022116420A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 语音事件检测方法、装置、电子设备及计算机存储介质
CN114626456A (zh) * 2022-03-14 2022-06-14 东南大学 一种基于深度核映射网络的非对齐时序多模态情感分析方法
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN116403564A (zh) * 2023-05-15 2023-07-07 清华大学 一种音频编辑方法及装置、电子设备及存储介质
CN117234369A (zh) * 2023-08-21 2023-12-15 华院计算技术(上海)股份有限公司 数字人交互方法及***、计算机可读存储介质、数字人设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469560A (zh) * 2016-07-27 2017-03-01 江苏大学 一种基于无监督域适应的语音情感识别方法
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN111164601A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469560A (zh) * 2016-07-27 2017-03-01 江苏大学 一种基于无监督域适应的语音情感识别方法
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法
CN111164601A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMIR ZADEH: "Tensor Fusion Network for Multimodal Sentiment Analysis", 《COMPUTATION AND LANGUAGE》, pages 1 - 12 *
王耀煊: "面向多模态高层语义的歧视情感检测", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, pages 138 - 1543 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116420A1 (zh) * 2020-12-01 2022-06-09 平安科技(深圳)有限公司 语音事件检测方法、装置、电子设备及计算机存储介质
CN112508077A (zh) * 2020-12-02 2021-03-16 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及***
CN112633364A (zh) * 2020-12-21 2021-04-09 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN112700796A (zh) * 2020-12-21 2021-04-23 北京工业大学 一种基于交互式注意力模型的语音情感识别方法
CN112633364B (zh) * 2020-12-21 2024-04-05 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN112733546A (zh) * 2020-12-28 2021-04-30 科大讯飞股份有限公司 表情符号生成方法、装置、电子设备及存储介质
CN112765323A (zh) * 2021-01-24 2021-05-07 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法
CN112765323B (zh) * 2021-01-24 2021-08-17 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法
CN112818861A (zh) * 2021-02-02 2021-05-18 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及***
CN112818861B (zh) * 2021-02-02 2022-07-26 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及***
CN112949415A (zh) * 2021-02-04 2021-06-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法
CN112905844A (zh) * 2021-03-23 2021-06-04 广东工业大学 一种视频语音检索方法
US12033616B2 (en) 2021-03-23 2024-07-09 Beijing Baidu Netcom Science Technology Co., Ltd. Method for training speech recognition model, device and storage medium
CN113129870A (zh) * 2021-03-23 2021-07-16 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN113177136A (zh) * 2021-04-27 2021-07-27 桂林电子科技大学 基于注意力的音频和歌词的多模态音乐风格分类方法
CN113312530A (zh) * 2021-06-09 2021-08-27 哈尔滨工业大学 一种以文本为核心的多模态情感分类方法
CN113435496A (zh) * 2021-06-24 2021-09-24 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113657115B (zh) * 2021-07-21 2023-06-30 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113314119A (zh) * 2021-07-27 2021-08-27 深圳百昱达科技有限公司 语音识别智能家居控制方法及装置
CN113314119B (zh) * 2021-07-27 2021-12-03 深圳百昱达科技有限公司 语音识别智能家居控制方法及装置
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN114626456B (zh) * 2022-03-14 2024-07-09 东南大学 一种基于深度核映射网络的非对齐时序多模态情感分析方法
CN114626456A (zh) * 2022-03-14 2022-06-14 东南大学 一种基于深度核映射网络的非对齐时序多模态情感分析方法
CN115239937B (zh) * 2022-09-23 2022-12-20 西南交通大学 一种跨模态情感预测方法
CN115239937A (zh) * 2022-09-23 2022-10-25 西南交通大学 一种跨模态情感预测方法
CN116403564A (zh) * 2023-05-15 2023-07-07 清华大学 一种音频编辑方法及装置、电子设备及存储介质
CN116403564B (zh) * 2023-05-15 2023-09-26 清华大学 一种音频编辑方法及装置、电子设备及存储介质
CN117234369A (zh) * 2023-08-21 2023-12-15 华院计算技术(上海)股份有限公司 数字人交互方法及***、计算机可读存储介质、数字人设备

Also Published As

Publication number Publication date
CN111753549B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111753549B (zh) 一种基于注意力机制的多模态情感特征学习、识别方法
Wang et al. Speech emotion recognition with dual-sequence LSTM architecture
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN111312245B (zh) 一种语音应答方法、装置和存储介质
Das et al. A deep dive into deep learning techniques for solving spoken language identification problems
CN111275085A (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN110853618A (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及***
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
WO2022048239A1 (zh) 音频的处理方法和装置
CN115690553B (zh) 一种基于多模态对话内容联合建模的情感分析方法及***
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN114707513A (zh) 一种文本语义识别方法、装置、电子设备和存储介质
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
CN117851871A (zh) 一种境外互联网社交阵地多模态数据识别方法
Eom et al. Speech Emotion Recognition Using 2D-CNN with Mel-Frequency Cepstrum Coefficients.
Ai et al. A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
Yang [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant