CN111753549A - 一种基于注意力机制的多模态情感特征学习、识别方法 - Google Patents
一种基于注意力机制的多模态情感特征学习、识别方法 Download PDFInfo
- Publication number
- CN111753549A CN111753549A CN202010441528.8A CN202010441528A CN111753549A CN 111753549 A CN111753549 A CN 111753549A CN 202010441528 A CN202010441528 A CN 202010441528A CN 111753549 A CN111753549 A CN 111753549A
- Authority
- CN
- China
- Prior art keywords
- features
- emotion
- audio
- text
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 113
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002996 emotional effect Effects 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 5
- 101001087045 Homo sapiens Phosphatidylinositol 3,4,5-trisphosphate 3-phosphatase and dual-specificity protein phosphatase PTEN Proteins 0.000 claims description 3
- 102100032543 Phosphatidylinositol 3,4,5-trisphosphate 3-phosphatase and dual-specificity protein phosphatase PTEN Human genes 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 102100038591 Endothelial cell-selective adhesion molecule Human genes 0.000 claims description 2
- 101000882622 Homo sapiens Endothelial cell-selective adhesion molecule Proteins 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000008909 emotion recognition Effects 0.000 abstract description 16
- 230000000295 complement effect Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于注意力机制的多模态情感特征学习、识别方法,对音频、文本样本进行特征提取,得到FBank声学特征和词向量特征;将得到的特征分别作为音频情感特征编码器和文本情感特征编码器的原始输入特征,通过编码器提取不同模态的情感语义特征;对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习,提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征;将四种特征融合之后进行分类即可得到对应的情感类别。本发明解决了传统多模态情感识别中模态内情感无关因素和模态间情感语义不一致导致的情感识别率低的问题,能够有效地提高多模态情感识别准确率。
Description
技术领域
本发明属于情感计算领域,具体涉及一种基于注意力机制的多模态情感特征学习、识别方法。
背景技术
在人们的日常交互中,情感往往扮演着非常重要的角色,情感信息的感知有助于人们理解彼此的心理状态和行为。同样,情感信息对于维持人类和机器之间的长期交互至关重要,自动语音情感识别是桥接人类和计算机之间沟通鸿沟的一种有效方法。随着互联网的快速发展和普及,人们对人机交互***提出了更高的要求,人们期望与之交互的机器也具有类似于人的观察、理解和生成情感特征的能力。因此,基于语音和文本的多模态情感识别对于改善智能人机交互***的用户体验至关重要,也是当前备受研究者们追捧的研究热点。
在R.Li等人,题为“Towards Discriminative Representation Learning forSpeech Emotion Recognition”的论文中,通过多头自注意力机制和上下文感知的注意力LSTM学习情感显著的特征表示,但该方法没有考虑语音和文本模态间的相互依赖关系。在S.Yoon等人,题为“Attentive Modality Hopping Mechanism for Speech EmotionRecognition”的论文中,利用模态跳变注意力机制对模态之间的依赖关系进行建模,通过融合音频、视频、文本三个模态对齐的情感特征来提高识别率,但忽略了单模态特有情感特征对识别率的影响。由于不同模态之间既存在各自的情感特性,即单模态独立特征,又存在多模态交互关系,即多模态交互特征。因此,如何利用单模态特征和多模态交互特征,高效地抽取文本、语音及其相互依赖的情感特征对多模态情感识别至关重要。
虽然传统的多模态情感识别方法通过融合不同模态的情感特征对最后的情感识别有一定的促进作用,但是大多数多模态情感识别方法没有综合考虑单模态特有的情感特性和多模态之间相互依赖关系对情感识别的影响。因此,本发明为了克服现有技术的缺陷,通过基于模态内注意力和模态跳变意力机制的深度神经网络对多模态情感特征进行学习得到:情感显著的音频特征、情感显著的文本特征、语义对齐的音频特征和语义对齐的文本特征,对这些特征进行融合可以得到多模态之间互补的情感信息。
发明内容
针对现有技术中存在的问题和不足,本发明提出了一种基于注意力机制的多模态情感特征学习、识别方法,训练得到的模型不受情感无关因素的干扰且能更高效地提取不同模态之间的情感依赖关系,从而高效地识别多模态的情感状态。
一种基于注意力机制的多模态情感特征学习、识别方法,包括以下步骤:
S1,预处理和特征提取:分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取,得到对应的FBank声学特征和词向量特征。
S2,情感特征编码器学习:分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取,进而得到音频情感语义特征和文本情感语义特征
S3,情感显著特征的学习:对音频情感语义特征和文本情感语义特征分别使用模态内的注意力机制ESAM进行情感显著特征的提取,分别对和的输出特征和分配权重系数并对输出特征加权求和得到音频情感显著特征和文本情感显著特征
S4,语义对齐的情感特征学习:对和分别使用模态间的注意力机制MHAM进行模态间情感语义对齐;使用为分配模态间情感相关的权重系数,并对加权表征得到语义对齐的音频特征使用为分配模态间情感相关的权重系数,并对加权表征得到语义对齐的文本特征
进一步,所述步骤S1中,对音频模态的样本进行预处理和特征提取的方法为:先对音频样本依次进行预加重、分帧、加窗的预处理;然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。
进一步,步骤S1中,对文本模态的样本进行预处理和特征提取的方法为:采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。
进一步,所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成;将FBank声学特征输入CBiLSTM,通过两层卷积神经网络提取FBank声学特征中情感相关的特征,并将该特征作为双向长短时记忆网络层的输入特征,进行上下文依赖的情感语义特征的提取,得到音频情感语义特征
进一步,采用特征拼接的方式对多模态情感特征进行融合,然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类,得到对应样本所属的情感类别。
本发明具有有益效果
本发明的基于注意力机制的多模态情感特征学习、识别统一框架,通过引入模态内注意力机制,对情感特征编码器提取的情感语义特征进行情感显著特征的学习,使得模型免受情感无关特征的干扰;通过引入模态间注意力机制,对情感语义特征进行模态间的对齐,增强模型对模态交互特征的提取能力。本发明解决了传统多模态情感识别中单模态情感无关特征的影响和多模态情感交互特征抽取能力弱导致的情感识别率低的问题,能够有效地提高多模态情感识别的准确率。
附图说明
图1是本发明一种基于注意力机制的多模态情感特征学习、识别流程图;
图2是本发明所构建的音频模态情感注意力机制结构图;
图3是本发明所构建的文本模态情感注意力机制结构图;
图4是本发明所构建的音频模态跳变注意力机制结构图;
图5是本发明所构建的文本模态跳变注意力机制结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1给出了本发明的总体思路。首先,分别对音频模态的样本、文本模态的样本进行预处理和特征提取,得到音频样本的FBank声学特征和文本样本的词向量特征;其次,将得到的原始特征分别作为音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM的原始输入特征,通过对应的编码器可以提取不同模态的情感语义特征;然后,对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习,提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征;最后,将四种特征融合之后进行分类即可得到对应的情感类别。具体的实施步骤如下:
步骤一,预处理和特征提取:针对音频模态的样本数据,首先对原始音频信号依次进行预加重、分帧、加窗的预处理,帧长为25ms,帧移为15ms。将预处理后的音频信号依次经过快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换得到音频信号对应的FBank声学特征。其中,梅尔滤波器组的尺度为40,最终产生40×L维的FBank声学特征,L为音频样本的帧个数。
针对文本模态的样本数据,采用Google的预训练词向量模型GoogleNews对文本数据进行词向量特征的提取,最终产生300×N维的词向量特征,N为词向量长度。
步骤二,情感特征编码器学习:针对音频和文本模态的数据分别构建音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM。其中,音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成。其中,两层卷积神经网络层的卷积核大小分别为7×7和20×7、特征图个数为128,卷积层之后依次连接了批归一化层、ReLU非线性激活层和最大池化层,最大池化层的核尺寸分别为2×2和1×5。通过卷积操作将得到74×128维的中间情感表征序列M=[m1,m2,...,mn,...,mN],mn为特征图第n个位置的特征向量,通过两层卷积神经网络层提取FBank声学特征中情感相关的特征,并将该特征作为长短时记忆网络(Long-Short Term Memory,LSTM)层的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,...,hn,...,hN)。
fn=σ(Wfmn+Ufhn-1+bf) (1)
in=σ(Wimn+Uihn-1+bi) (2)
on=σ(Womn+Uohn-1+bo) (3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;mn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号。
在音频编码器CBiLSTM中,使用两层双向长短时记忆网络(Bidirectional Long-Short Term Memory,BiLSTM)对输入的中间序列特征M进行时序关系建模。BiLSTM的隐向量表征分别来自正向和反向LSTM(使用和表示),每层LSTM的隐藏层节点数为128,同时使用非线性激活可以得到最终的隐向量N个时间步的输出序列共同组成音频情感语义特征
同样,将文本模态的词向量特征作为文本情感特征编码器BiLSTM的输入特征,表示为X=[x1,x2,...,xn,...,xN],xn为第n个词向量特征;双向长短时记忆网络通过与音频模态相同的计算方式计算得到文本情感语义特征其中,为文本情感语义特征的第n个特征分量。
步骤三,情感显著特征的学习:在对音频和文本编码器生成的所有情感语义特征和进行情感分类时,每个时间步的输出特征对于情感识别任务通常并不都是同等重要的。因此,引入模态内注意力机制可以使模型专注于序列中情感显著特征的学习,从而提升情感识别的性能。在不同模态的特征编码器中,使用情感注意力机制对步骤二提取的特征序列进行情感相关的加权表征。图2和图3分别描述了音频模态和文本模态情感显著特征的学习过程,对于音频模态提取的音频情感语义特征情感注意力层首先计算序列中第n时间步对应的输出特征的权重计算方式如公式(6)所示。
步骤四,模态交互情感特征学习:使用模态跳变注意力机制MHAM对文本和音频模态间的情感依赖关系进行建模。图4和图5分别描述了音频模态和文本模态的模态交互情感特征学习过程,步骤二提取的音频情感语义特征经过公式(10)计算得到语义对齐的音频情感特征
步骤五,模型训练:通过以上步骤可以得到情感显著的特征和模态间语义对齐的情感特征将其融合得到最终的多模态情感特征将Hmixed输入到全连接层进行情感分类得到多模态样本的情感类别。通过softmax激活函数得到模型最终预测的七类情感类别并采用公式(12)所示的多分类交叉熵损失函数对模型参数进行训练。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取,得到对应的FBank声学特征和词向量特征;分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取得到音频情感语义特征和文本情感语义特征
2.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,对音频模态的样本进行预处理和特征提取的方法为:先对音频样本依次进行预加重、分帧、加窗的预处理;然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。
3.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,对文本模态的样本进行预处理和特征提取的方法为:采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。
8.根据权利要求7所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,采用特征拼接的方式对多模态情感特征进行融合,然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类,得到对应样本所属的情感类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441528.8A CN111753549B (zh) | 2020-05-22 | 2020-05-22 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441528.8A CN111753549B (zh) | 2020-05-22 | 2020-05-22 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753549A true CN111753549A (zh) | 2020-10-09 |
CN111753549B CN111753549B (zh) | 2023-07-21 |
Family
ID=72673523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010441528.8A Active CN111753549B (zh) | 2020-05-22 | 2020-05-22 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753549B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508077A (zh) * | 2020-12-02 | 2021-03-16 | 齐鲁工业大学 | 一种基于多模态特征融合的社交媒体情感分析方法及*** |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112700796A (zh) * | 2020-12-21 | 2021-04-23 | 北京工业大学 | 一种基于交互式注意力模型的语音情感识别方法 |
CN112733546A (zh) * | 2020-12-28 | 2021-04-30 | 科大讯飞股份有限公司 | 表情符号生成方法、装置、电子设备及存储介质 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及*** |
CN112905844A (zh) * | 2021-03-23 | 2021-06-04 | 广东工业大学 | 一种视频语音检索方法 |
CN112949415A (zh) * | 2021-02-04 | 2021-06-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN113177136A (zh) * | 2021-04-27 | 2021-07-27 | 桂林电子科技大学 | 基于注意力的音频和歌词的多模态音乐风格分类方法 |
CN113312530A (zh) * | 2021-06-09 | 2021-08-27 | 哈尔滨工业大学 | 一种以文本为核心的多模态情感分类方法 |
CN113314119A (zh) * | 2021-07-27 | 2021-08-27 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN113435496A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于注意力机制的自适应融合的多模态情感分类方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
WO2022116420A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN114626456A (zh) * | 2022-03-14 | 2022-06-14 | 东南大学 | 一种基于深度核映射网络的非对齐时序多模态情感分析方法 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN116403564A (zh) * | 2023-05-15 | 2023-07-07 | 清华大学 | 一种音频编辑方法及装置、电子设备及存储介质 |
CN117234369A (zh) * | 2023-08-21 | 2023-12-15 | 华院计算技术(上海)股份有限公司 | 数字人交互方法及***、计算机可读存储介质、数字人设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469560A (zh) * | 2016-07-27 | 2017-03-01 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN107346328A (zh) * | 2017-05-25 | 2017-11-14 | 北京大学 | 一种基于多粒度层级网络的跨模态关联学习方法 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN110070895A (zh) * | 2019-03-11 | 2019-07-30 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111178389A (zh) * | 2019-12-06 | 2020-05-19 | 杭州电子科技大学 | 基于多通道张量池化的多模态深度分层融合情感分析方法 |
-
2020
- 2020-05-22 CN CN202010441528.8A patent/CN111753549B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469560A (zh) * | 2016-07-27 | 2017-03-01 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN107346328A (zh) * | 2017-05-25 | 2017-11-14 | 北京大学 | 一种基于多粒度层级网络的跨模态关联学习方法 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN110070895A (zh) * | 2019-03-11 | 2019-07-30 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
CN111178389A (zh) * | 2019-12-06 | 2020-05-19 | 杭州电子科技大学 | 基于多通道张量池化的多模态深度分层融合情感分析方法 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
AMIR ZADEH: "Tensor Fusion Network for Multimodal Sentiment Analysis", 《COMPUTATION AND LANGUAGE》, pages 1 - 12 * |
王耀煊: "面向多模态高层语义的歧视情感检测", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, pages 138 - 1543 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022116420A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN112508077A (zh) * | 2020-12-02 | 2021-03-16 | 齐鲁工业大学 | 一种基于多模态特征融合的社交媒体情感分析方法及*** |
CN112633364A (zh) * | 2020-12-21 | 2021-04-09 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112700796A (zh) * | 2020-12-21 | 2021-04-23 | 北京工业大学 | 一种基于交互式注意力模型的语音情感识别方法 |
CN112633364B (zh) * | 2020-12-21 | 2024-04-05 | 上海海事大学 | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 |
CN112733546A (zh) * | 2020-12-28 | 2021-04-30 | 科大讯飞股份有限公司 | 表情符号生成方法、装置、电子设备及存储介质 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112765323B (zh) * | 2021-01-24 | 2021-08-17 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及*** |
CN112818861B (zh) * | 2021-02-02 | 2022-07-26 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及*** |
CN112949415A (zh) * | 2021-02-04 | 2021-06-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN112905844A (zh) * | 2021-03-23 | 2021-06-04 | 广东工业大学 | 一种视频语音检索方法 |
US12033616B2 (en) | 2021-03-23 | 2024-07-09 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for training speech recognition model, device and storage medium |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN113177136A (zh) * | 2021-04-27 | 2021-07-27 | 桂林电子科技大学 | 基于注意力的音频和歌词的多模态音乐风格分类方法 |
CN113312530A (zh) * | 2021-06-09 | 2021-08-27 | 哈尔滨工业大学 | 一种以文本为核心的多模态情感分类方法 |
CN113435496A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于注意力机制的自适应融合的多模态情感分类方法 |
CN113657115B (zh) * | 2021-07-21 | 2023-06-30 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113314119A (zh) * | 2021-07-27 | 2021-08-27 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN113314119B (zh) * | 2021-07-27 | 2021-12-03 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN114626456B (zh) * | 2022-03-14 | 2024-07-09 | 东南大学 | 一种基于深度核映射网络的非对齐时序多模态情感分析方法 |
CN114626456A (zh) * | 2022-03-14 | 2022-06-14 | 东南大学 | 一种基于深度核映射网络的非对齐时序多模态情感分析方法 |
CN115239937B (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN116403564A (zh) * | 2023-05-15 | 2023-07-07 | 清华大学 | 一种音频编辑方法及装置、电子设备及存储介质 |
CN116403564B (zh) * | 2023-05-15 | 2023-09-26 | 清华大学 | 一种音频编辑方法及装置、电子设备及存储介质 |
CN117234369A (zh) * | 2023-08-21 | 2023-12-15 | 华院计算技术(上海)股份有限公司 | 数字人交互方法及***、计算机可读存储介质、数字人设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111753549B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753549B (zh) | 一种基于注意力机制的多模态情感特征学习、识别方法 | |
Wang et al. | Speech emotion recognition with dual-sequence LSTM architecture | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
Das et al. | A deep dive into deep learning techniques for solving spoken language identification problems | |
CN111275085A (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN110853618A (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及*** | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
WO2022048239A1 (zh) | 音频的处理方法和装置 | |
CN115690553B (zh) | 一种基于多模态对话内容联合建模的情感分析方法及*** | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN114707513A (zh) | 一种文本语义识别方法、装置、电子设备和存储介质 | |
Yasmin et al. | A rough set theory and deep learning-based predictive system for gender recognition using audio speech | |
CN117851871A (zh) | 一种境外互联网社交阵地多模态数据识别方法 | |
Eom et al. | Speech Emotion Recognition Using 2D-CNN with Mel-Frequency Cepstrum Coefficients. | |
Ai et al. | A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning | |
CN117271745A (zh) | 一种信息处理方法、装置及计算设备、存储介质 | |
CN117150338A (zh) | 任务处理、自动问答以及多媒体数据识别模型训练方法 | |
Yang | [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |