CN114387997B - 一种基于深度学习的语音情感识别方法 - Google Patents
一种基于深度学习的语音情感识别方法 Download PDFInfo
- Publication number
- CN114387997B CN114387997B CN202210072804.7A CN202210072804A CN114387997B CN 114387997 B CN114387997 B CN 114387997B CN 202210072804 A CN202210072804 A CN 202210072804A CN 114387997 B CN114387997 B CN 114387997B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- formula
- sequence
- llds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000012512 characterization method Methods 0.000 claims abstract description 17
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 9
- 101100457838 Caenorhabditis elegans mod-1 gene Proteins 0.000 claims description 6
- 101150110972 ME1 gene Proteins 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的语音情感识别方法,其步骤包括:1获取会话语音集合并进行分帧和加窗处理;2提取语音帧的LLDs特征序列和语谱图;3提取LLDs序列的表征;4提取语谱图的表征。5使用特征融合与结果融合的策略以得到最后的情感预测结果。本发明能有效预测语音的情感类别,并能提高预测准确性。
Description
技术领域
本发明属于语音数据分析处理领域,具体的说是一种基于深度学习的语音情感识别方法。
背景技术
随着智能服务机器人在电商、酒店、商场等领域的广泛应用,基于语音的情感识别成为企业了解消费者需求、分析消费者满意度的有效手段。语音声学信息由于具有提取复杂度低、干扰信息少等优点,成为语音情感识别的主要依据。如何基于声学信息构建语音情感的识别方法具有重要的理论和实践价值。基于声学特征的情感识别方法是语音情感识别的主流方向。现有研究取得了丰富的成果,但是基于声学特征的语音情感识别仍存在广阔研究空间。首先,语音信息中蕴含着丰富的声学特征,这些特征可以从局部与全局、时域与频域等不同维度反映语音情感。如何对多维度特征进行有效提取有待深入研究。其次,深度学习是情感识别的有效方法。如何基于多维度声学特征构建语音情感识别的深度学习方法有待进一步探索。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音情感识别方法,以期能融合多维度特征,用于对语音情感进行更加有效的识别,从而能提高识别的准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的语音情感识别方法的特点是按如下步骤进行:
步骤1:提取LLDs序列Wl和语谱图Wg;
获取语音样本[x(t),y],t=1,2,…,N,其中,x(t)是第t个采样点信号,y是语音样本标签,N是语音样本的采样点总数;
并对x(t)进行分帧处理,得到x(t)的分帧序列:[x1(t),x2(t),…,xi(t),…,xn(t)],其中,xi(t)表示第t个采样点信号x(t)的第i个语音帧,n表示语音帧的数量;
利用式(2)对分帧序列进行加窗处理,得到加窗序列[x'1(t),x'2(t),…,x'i(t),…,x'n(t)],t=1,2,…,N:
x'i(t)=ω(t)·xi(t) (1)
式(1)中,ω(t)表示汉宁窗函数;x'i(t)表示表示第i个加窗后的语音帧;
利用式(3)提取x'i(t)的d维LLDs特征并利用式(4)将从所有帧的d维LLDs特征进行拼接,得到语音样本x(t)的LLDs序列Wl:
式(3)和式(4)中,OpenSmile(·)表示使用OpenSmile工具包进行特征提取;表示向量拼接操作;
对x'i(t)进行离散傅立叶变换得到x'i(t)的频谱,将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵Wg;
步骤2:LLDs序列Wl的特征提取分支;
令LLDs序列Wl的特征提取分支由局部卷积模块、全局卷积模块和融合自注意力机制的SABi-LSTM模块所构成;LLDs序列Wl依次通过特征提取分支计算得到LLDs表征v1;
步骤2.1:局部卷积模块;
所述局部卷积模块由激活函数为Relu的局部卷积层和一个局部最大值池化层构成;
所述局部卷积层使用尺度为n1×s×1的卷积核进行局部卷积操作,其中,n1为卷积核个数,s是卷积核的宽;所述局部最大值池化层使用尺度为1×s1的池化窗口进行最大值池化操作,s1是池化窗口的宽度;所述局部卷积模块利用式(6)对LLDs序列Wl进行处理,得到局部卷积模块输出的特征图Wmod1:
式(6)中,pool(·)是局部最大值池化操作,conv_local(·)为局部卷积操作;
步骤2.2:全局卷积模块;
全局卷积模块由一个激活函数为Relu的全局卷积层和一个最大值池化层组成;
所述全局卷积模块使用尺度为n2×d×l的卷积核进行全局卷积操作,其中,n2为卷积核个数,d,l是卷积核的宽和高;所述最大值池化层使用尺度为1×s2的池化窗口来进行最大值池化操作,s2是池化窗口的宽度;所述全局卷积模块利用式(7)对特征图Wmod1进行处理,得到全局卷积模块输出的特征图Wmod2:
式(7)中,squeze(·)表示删除张量中维度为1的轴,pool(·)是最大值池化操作,conv(·)是全局卷积操作;
步骤2.3:SABi-LSTM模块;
所述SABi-LSTM模块由Bi-LSTM网络、注意力机制层和最大池化层构成,其中Bi-LSTM网络由双向的LSTM网络构成;
所述特征图Wmod2记为Wmod2=[w1,w2,…,wu,…,wn/4],wu表示特征图Wmod2的第u列向量,并将Wmod2输入所述Bi-LSTM网络中,从而利用式(8)得到隐状态特征向量hu:
式(8)中,表示前向输出的第u个隐状态特征向量,/>表示后向输出的第u个隐状态特征向量,/>表示拼接,/>和/>分别表示前向和后向LSTM网络;
所述归一化层利用式(9)对隐状态特征向量hu进行处理,得到归一化矩阵Whid:
式(9)中,μu表示h'u的均值,σu表示h'u的标准差,表示h'u的第a个分量,h'u表示归一化后的特征向量,g和b表示与h't相同维度的偏差和增益参数;H为所述Bi-LSTM网络中LSTM隐藏层的神经元数量,⊙两个向量之间的元素乘法;
所述注意力机制层采用双层前馈神经网络,并利用式(10)对归一化矩阵Whid进行处理,得到注意力特征向量序列Watt:
式(10)中,h'u是第u个归一化后的特征向量,h'j是第j个归一化后的特征向量,aj,u是h'u同h'j之间的注意力分数,Relu是双层前馈神经网络中第一层的激活函数,tanh是双层前馈神经网络中第二层激活函数,b是偏置,aj,u是使用softmax函数对aj,u进行归一化后的注意力分数;为注意力机制层得到的第t个注意力向量,Wr、Wq和Wv是注意力机制层参数,W1和W2前馈神经网络中的网络参数;
所述最大池化层利用式(11)对注意力特征向量序列Watt进行最大池化处理,并用全连接层将其映射为定长的特征向量:
式(11)中,pool(·)是最大值池化操作,W3表示全连接层需要学习的参数矩阵,v1表示SABi-LSTM模块最终输出的k维特征向量;
步骤3:语谱图Wg的特征提取分支;
所述语谱图Wg的特征提取分支采用如式(12)所示的卷积神经网络对语谱图Wg进行处理,得到语谱图Wg的特征提取分支输出的k维特征向量v2并作为声谱图表征:
式(12)中,conv(·)是卷积操作,pool(·)是池化操作,W4是全连接层需要学习的模型参数;
步骤4:多维度特征融合的决策模块;
步骤4.1:对LLDs表征v1和声谱图表征v2进行特征融合,得到融合特征
步骤4.2:利用式(11)对LLDs表征v1、声谱图表征v2及其融合特征v进行情感预测,得到相应的情感预测结果pred1、pred2、pred3,其中,pred1是v1的情感预测结果,pred2是v2的情感预测结果,pred3是v3的情感预测结果:
式(11)中,dropout(·)表示全联接层后的dropout操作;W4、W5、W6是全连接层需要学习的三个模型参数;
步骤4.3:对三个预测结果进行融合,得到融合预测结果
步骤4.4:利用式(12)得到最终的语音情感预测结果p:
式(12)中,W7是全连接层需要学习的模型参数,softmax(·)表示激活函数,C表示语音样本的情感类别总数;
步骤4.5:利用式(13)构建由交叉熵损失和L2正则化损失构成的模型的最终损失
式(13)中,pm表示p的第m个分量,表示模型所有参数的L2正则化损失,ym表示y的第m个分量;
步骤5:搭建多维度特征融合的语音情感识别模型;
所述多维度特征融合的语音情感识别模型由LLDs序列的特征提取分支、语谱图的特征提取分支、多维度特征融合的决策模块构成;
使用随机梯度下降法对所述语音情感识别模型进行训练,并计算最终损失直至其收敛,从而得到训练好的语音情感识别模型,并用于对任一语音样本u(t)来进行语音情感预测,得到语音样本u(t)预测的情感类别。
与现有技术相比,本发明的有益效果在于:
1.本发明针对语音情感识别问题,提出了一种多维度特征融合的深度语音情感识别方法,该方法利用多通道特征即语音声学的LLDs特征和语音语谱图特征,避免了信息缺失和只考虑局部或者全局信息的问题,加深了对于各自模态信息的理解,有利于下游任务性能的提升。
2.本发明设计了多维度特征的融合机制,解决了一般多通道模型各分支之间没有信息交互的问题,通过引入自注意力机制,有效抽取了提取语音中蕴含的关键时刻情感信息,更好利用了语音信号中的上下文信息。
附图说明
图1为本发明的模型整体结构图;
图2为本发明SABi-LSTM模块图;
图3为本发明的整体流程图。
具体实施方式
本实施例中,一种基于深度学习的语音情感识别方法是按如下步骤进行:
步骤1:提取LLDs序列Wl和语谱图Wg;
获取语音样本[x(t),y],t=1,2,…,N,其中,x(t)是第t个采样点信号,y是语音样本标签,N是语音样本的采样点总数;
并对x(t)进行分帧处理,得到x(t)的分帧序列:[x1(t),x2(t),…,xi(t),…,xn(t)],其中,xi(t)表示第t个采样点语音x(t)的第i个语音帧,n表示语音帧的数量;
利用式(1)对分帧序列进行加窗处理,得到加窗序列[x'1(t),x'2(t),…,x'i(t),…,x'n(t)],t=1,2,…,N:
x'i(t)=ω(t)·xi(t) (1)
式(1)中,ω(t)表示汉宁窗函数;x'i(t)表示表示第i个加窗后的语音帧;具体实施中,例如利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对一段会话语音分别分帧和短时加窗处理,帧长可取25毫秒,帧间隔可取20毫秒,窗函数选择汉明窗(实际操作时也可以利用其他窗函数)。
利用式(2)提取x'i(t)的d维LLDs特征并利用式(3)将从所有帧的d维LLDs特征进行拼接,得到语音样本x(t)的LLDs序列Wl:
式(2)和式(3)中,OpenSmile(·)表示使用OpenSmile工具包进行特征提取;表示向量拼接操作;具体实施中,可以使用OpenSmile工具包从eGeMAPS特征集中提取20个特征作为LLDs特征集,分别是过零率、对数帧能量、帧能量熵、频谱质心、频谱扩展、频谱熵、频谱通量、频谱滚降、梅尔频率倒谱系数(MFCC)C1~C5、发声概率、音调、共振峰带宽、共振峰增益和三次谐波能量比;实际操作也可以选择其他的LLDs特征集;
对x'i(t)进行离散傅立叶变换得到x'i(t)的频谱,将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵Wg;具体实施中,也可以使用其他类型的语谱图,如梅尔谱图,功率谱图。
步骤2:LLDs序列Wl的特征提取分支;
令LLDs序列Wl的特征提取分支由局部卷积模块、全局卷积模块和融合自注意力机制的SABi-LSTM模块所构成;LLDs序列Wl依次通过特征提取分支计算得到LLDs表征v1;
步骤2.1:局部卷积模块;
局部卷积模块由激活函数为Relu的局部卷积层和一个局部最大值池化层构成;
局部卷积层使用尺度为n1×s×1的卷积核进行局部卷积操作,其中,n1为卷积核个数,s是卷积核的宽;局部最大值池化层使用尺度为1×s1的池化窗口进行最大值池化操作,s1是池化窗口的宽度;局部卷积模块利用式(4)对LLDs序列Wl进行处理,得到局部卷积模块输出的特征图Wmod1:具体实施中,卷积核尺度可取256×1×4,池化窗口可以取1×2。实际操作也可以根据语音样本的规模选择其他的卷积核尺度和池化窗口。
式(4)中,pool(·)是局部最大值池化操作,conv_local(·)为局部卷积操作;
步骤2.2:全局卷积模块;
全局卷积模块由一个激活函数为Relu的全局卷积层和一个最大值池化层组成;
全局卷积模块使用尺度为n2×d×l的卷积核进行全局卷积操作,其中,n2为卷积核个数,d,l是卷积核的宽和高;最大值池化层使用尺度为1×s2的池化窗口来进行最大值池化操作,s2是池化窗口的宽度;全局卷积模块利用式(5)对特征图Wmod1进行处理,得到全局卷积模块输出的特征图Wmod2:具体实施中,卷积核尺度可取512×20×4,池化窗口可以取1×2。实际操作也可以根据语音样本的规模选择其他的卷积核尺度和池化窗口;
式(5)中,squeze(·)表示删除张量中维度为1的轴,pool(·)是最大值池化操作,conv(·)是全局卷积操作;
步骤2.3:SABi-LSTM模块;
SABi-LSTM模块由Bi-LSTM网络、注意力机制层和最大池化层构成,其中Bi-LSTM网络由双向的LSTM网络构成;具体实施中,SABi-LSTM模块的结构如图2所示。
特征图Wmod2记为Wmod2=[w1,w2,…,wu,…,wn/4],wu表示特征图Wmod2的第u列向量,并将Wmod2输入Bi-LSTM网络中,从而利用式(6)得到隐状态特征向量hu:
式(6)中,表示前向输出的第u个隐状态特征向量,/>表示后向输出的第u个隐状态特征向量,/>表示拼接,/>和/>分别表示前向和后向LSTM网络;
归一化层利用式(7)对隐状态特征向量hu进行处理,得到归一化矩阵Whid:
式(7)中,μu表示h'u的均值,σu表示h'u的标准差,表示h'u的第a个分量,h'u表示归一化后的特征向量,g和b表示与h't相同维度的偏差和增益参数;H为Bi-LSTM网络中LSTM隐藏层的神经元数量,⊙两个向量之间的元素乘法;具体实施中,H可以取256。实际操作也可以选择其他的LSTM隐藏层的神经元数量,比如128,512等。
注意力机制层采用双层前馈神经网络,并利用式(8)对归一化矩阵Whid进行处理,得到注意力特征向量序列Watt:
aj,u=tanh(W2(Relu(W1(Wqh'u+Wrh'j+b))))
式(8)中,h'u是第u个归一化后的特征向量,h'j是第j个归一化后的特征向量,aj,u是h'u同h'j之间的注意力分数,Relu是双层前馈神经网络中第一层的激活函数,tanh是双层前馈神经网络中第二层激活函数,b是偏置,αj,u是使用softmax函数对aj,u进行归一化后的注意力分数;为注意力机制层得到的第t个注意力向量,Wr、Wq和Wv是注意力机制层参数,W1和W2前馈神经网络中的网络参数;
最大池化层利用式(9)对注意力特征向量序列Watt进行最大池化处理,并用全连接层将其映射为定长的特征向量:
式(9)中,pool(·)是最大值池化操作,W3表示全连接层需要学习的参数矩阵,v1表示SABi-LSTM模块最终输出的k维特征向量;具体实施中,全连接层的神经元个数k可以取512,那么之后提取的SABi-LSTM模块的特征向量就是512维(实际操作也可以选择其他的全连接层的神经元个数)。
步骤3:语谱图Wg的特征提取分支;
语谱图Wg的特征提取分支采用如式(10)所示的卷积神经网络对语谱图Wg进行处理,得到语谱图Wg的特征提取分支输出的k维特征向量v2并作为声谱图表征:
式(10)中,conv(·)是卷积操作,pool(·)是池化操作,W4是全连接层需要学习的模型参数;
步骤4:多维度特征融合的决策模块;
步骤4.1:对LLDs表征v1和声谱图表征v2进行特征融合,得到融合特征
步骤4.2:利用式(11)对LLDs表征v1、声谱图表征v2及其融合特征v进行情感预测,得到相应的情感预测结果pred1、pred2、pred3,其中,pred1是v1的情感预测结果,pred2是v2的情感预测结果,pred3是v3的情感预测结果:
式(11)中,dropout(·)表示全联接层后的dropout操作;W4、W5、W6是全连接层需要学习的三个模型参数;
步骤4.3:对三个预测结果进行融合,得到融合预测结果
步骤4.4:利用式(12)得到最终的语音情感预测结果p:
式(12)中,W7是全连接层需要学习的模型参数,softmax(·)表示激活函数,C表示语音样本的情感类别总数,
步骤4.5:利用式(13)构建由交叉熵损失和L2正则化损失构成的模型的最终损失
式(13)中,pm表示p的第m个分量,表示模型所有参数的L2正则化损失,ym表示y的第m个分量;
步骤5:搭建多维度特征融合的语音情感识别模型;
多维度特征融合的语音情感识别模型由LLDs序列的特征提取分支、语谱图的特征提取分支、多维度特征融合的决策模块构成;具体实施中,模型的结构如图1所示。
使用反向传播算法对语音情感识别模型进行优化训练,具体实施中,在训练模型时可采用k-折交叉验证、L2正则化、提早停止训练等手段提高模型的鲁棒性。设计的模型可以使用深度学习框架Pytorch实现(实际操作中也可选择其他的深度学习框架如Tensorflow和Keras等),采用随机梯度下降算法(SGD)来优化模型,学习率设置为0.001,训练的每个批次大小设置为64,训练迭代的次数设置为2000轮。并计算最终损失直至其收敛,从而得到训练好的语音情感识别模型,并用于对任一语音样本u(t)来进行语音情感预测,得到语音样本u(t)预测的情感类别。
具体实施中,通过得到的语音情感预测模型来对语音样本u(t)进行情感预测,预测过程如式(14)所示。
式(14)中,classi为最终语音样本u(t)的情感预测类别,pu表示u(t)的情感预测结果,表示pu的第i个分量,model(·)表示使用训练好的语音情感识别模型来对样本进行情感预测。
Claims (1)
1.一种基于深度学习的语音情感识别方法,其特征是按如下步骤进行:
步骤1:提取LLDs序列Wl和语谱图Wg;
获取语音样本[x(t),y],t=1,2,...,N,其中,x(t)是第t个采样点信号,y是语音样本标签,N是语音样本的采样点总数;
并对x(t)进行分帧处理,得到x(t)的分帧序列:[x1(t),x2(t),...,xi(t),...,xn(t)],其中,xi(t)表示第t个采样点信号x(t)的第i个语音帧,n表示语音帧的数量;
利用式(2)对分帧序列进行加窗处理,得到加窗序列[x′1(t),x′2(t),...,x′i(t),...,x′n(t)],t=1,2,...,N:
x′i(t)=ω(t)·xi(t) (1)
式(1)中,ω(t)表示汉宁窗函数;x′i(t)表示表示第i个加窗后的语音帧;
利用式(3)提取x′i(t)的d维LLDs特征并利用式(4)将从所有帧的d维LLDs特征进行拼接,得到语音样本x(t)的LLDs序列Wl:
式(3)和式(4)中,OpenSmile(·)表示使用OpenSmile工具包进行特征提取;表示向量拼接操作;
对x′i(t)进行离散傅立叶变换得到x′i(t)的频谱,将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵Wg;
步骤2:LLDs序列Wl的特征提取分支;
令LLDs序列Wl的特征提取分支由局部卷积模块、全局卷积模块和融合自注意力机制的SABi-LSTM模块所构成;LLDs序列Wl依次通过特征提取分支计算得到LLDs表征v1;
步骤2.1:局部卷积模块;
所述局部卷积模块由激活函数为Relu的局部卷积层和一个局部最大值池化层构成;
所述局部卷积层使用尺度为n1×s×1的卷积核进行局部卷积操作,其中,n1为卷积核个数,s是卷积核的宽;所述局部最大值池化层使用尺度为1×s1的池化窗口进行最大值池化操作,s1是池化窗口的宽度;所述局部卷积模块利用式(6)对LLDs序列Wl进行处理,得到局部卷积模块输出的特征图Wmod1:
式(6)中,pool(·)是局部最大值池化操作,conv_local(·)为局部卷积操作;
步骤2.2:全局卷积模块;
全局卷积模块由一个激活函数为Relu的全局卷积层和一个最大值池化层组成;
所述全局卷积模块使用尺度为n2×d×l的卷积核进行全局卷积操作,其中,n2为卷积核个数,d,l是卷积核的宽和高;所述最大值池化层使用尺度为1×s2的池化窗口来进行最大值池化操作,s2是池化窗口的宽度;所述全局卷积模块利用式(7)对特征图Wmod1进行处理,得到全局卷积模块输出的特征图Wmod2:
式(7)中,squeze(·)表示删除张量中维度为1的轴,pool(·)是最大值池化操作,conv(·)是全局卷积操作;
步骤2.3:SABi-LSTM模块;
所述SABi-LSTM模块由Bi-LSTM网络、注意力机制层和最大池化层构成,其中Bi-LSTM网络由双向的LSTM网络构成;
所述特征图Wmod2记为Wmod2=[w1,w2,...,wu,...,wn/4],wu表示特征图Wmod2的第u列向量,并将Wmod2输入所述Bi-LSTM网络中,从而利用式(8)得到隐状态特征向量hu:
式(8)中,表示前向输出的第u个隐状态特征向量,/>表示后向输出的第u个隐状态特征向量,/>表示拼接,/>和/>分别表示前向和后向LSTM网络;
归一化层利用式(9)对隐状态特征向量hu进行处理,得到归一化矩阵Whid:
式(9)中,μu表示h′u的均值,σu表示h′u的标准差,表示h′u的第a个分量,h′u表示归一化后的特征向量,g和b表示与h′t相同维度的偏差和增益参数;H为所述Bi-LSTM网络中LSTM隐藏层的神经元数量,⊙两个向量之间的元素乘法;
所述注意力机制层采用双层前馈神经网络,并利用式(10)对归一化矩阵Whid进行处理,得到注意力特征向量序列Watt:
aj,u=tanh(W2(Relu(W1(Wqh′u+Wrh′j+b))))
式(10)中,h′u是第u个归一化后的特征向量,h′j是第j个归一化后的特征向量,aj,u是h′u同h′j之间的注意力分数,Relu是双层前馈神经网络中第一层的激活函数,tanh是双层前馈神经网络中第二层激活函数,b是偏置,αj,u是使用softmax函数对aj,u进行归一化后的注意力分数;为注意力机制层得到的第t个注意力向量,Wr、Wq和Wv是注意力机制层参数,W1和W2前馈神经网络中的网络参数;
所述最大池化层利用式(11)对注意力特征向量序列Watt进行最大池化处理,并用全连接层将其映射为定长的特征向量:
hcon=pool(Watt)
式(11)中,pool(·)是最大值池化操作,W3表示全连接层需要学习的参数矩阵,v1表示SABi-LSTM模块最终输出的k维特征向量;
步骤3:语谱图Wg的特征提取分支;
所述语谱图Wg的特征提取分支采用如式(12)所示的卷积神经网络对语谱图Wg进行处理,得到语谱图Wg的特征提取分支输出的k维特征向量v2并作为声谱图表征:
Wb1=Relu(pool1(conv1(Wg)))
Wb2=Relu(pool2(conv2(Wb1)))
式(12)中,conv(·)是卷积操作,pool(·)是池化操作,W4是全连接层需要学习的模型参数;
步骤4:多维度特征融合的决策模块;
步骤4.1:对LLDs表征v1和声谱图表征v2进行特征融合,得到融合特征
步骤4.2:利用式(11)对LLDs表征v1、声谱图表征v2及其融合特征v进行情感预测,得到相应的情感预测结果pred1、pred2、pred3,其中,pred1是v1的情感预测结果,pred2是v2的情感预测结果,pred3是v3的情感预测结果:
式(11)中,dropout(·)表示全联接层后的dropout操作;W4、W5、W6是全连接层需要学习的三个模型参数;
步骤4.3:对三个预测结果进行融合,得到融合预测结果
步骤4.4:利用式(12)得到最终的语音情感预测结果p:
式(12)中,W7是全连接层需要学习的模型参数,softmax(·)表示激活函数,C表示语音样本的情感类别总数;
步骤4.5:利用式(13)构建由交叉熵损失和L2正则化损失构成的模型的最终损失l:
式(13)中,pm表示p的第m个分量,||θ*||表示模型所有参数的L2正则化损失,ym表示y的第m个分量;
步骤5:搭建多维度特征融合的语音情感识别模型;
所述多维度特征融合的语音情感识别模型由LLDs序列的特征提取分支、语谱图的特征提取分支、多维度特征融合的决策模块构成;
使用随机梯度下降法对所述语音情感识别模型进行训练,并计算最终损失l直至其收敛,从而得到训练好的语音情感识别模型,并用于对任一语音样本u(t)来进行语音情感预测,得到语音样本u(t)预测的情感类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210072804.7A CN114387997B (zh) | 2022-01-21 | 2022-01-21 | 一种基于深度学习的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210072804.7A CN114387997B (zh) | 2022-01-21 | 2022-01-21 | 一种基于深度学习的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114387997A CN114387997A (zh) | 2022-04-22 |
CN114387997B true CN114387997B (zh) | 2024-03-29 |
Family
ID=81203604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210072804.7A Active CN114387997B (zh) | 2022-01-21 | 2022-01-21 | 一种基于深度学习的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114387997B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及*** |
CN116434787B (zh) * | 2023-06-14 | 2023-09-08 | 之江实验室 | 一种语音情感识别的方法、装置、存储介质及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及*** |
WO2021232594A1 (zh) * | 2020-05-22 | 2021-11-25 | 深圳壹账通智能科技有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113935435A (zh) * | 2021-11-17 | 2022-01-14 | 南京邮电大学 | 基于时空特征融合的多模态情感识别方法 |
WO2022199215A1 (zh) * | 2021-03-26 | 2022-09-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和*** |
-
2022
- 2022-01-21 CN CN202210072804.7A patent/CN114387997B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
WO2021232594A1 (zh) * | 2020-05-22 | 2021-11-25 | 深圳壹账通智能科技有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112818861A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 一种基于多模态上下文语义特征的情感分类方法及*** |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
WO2022199215A1 (zh) * | 2021-03-26 | 2022-09-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和*** |
CN113935435A (zh) * | 2021-11-17 | 2022-01-14 | 南京邮电大学 | 基于时空特征融合的多模态情感识别方法 |
Non-Patent Citations (2)
Title |
---|
基于卷积特征提取与融合的语音情感识别研究;张雄;刘蓉;刘明;;电子测量技术;20180823(第16期);全文 * |
语谱图改进完全局部二值模式的语音情感识别;许良凤;刘泳海;胡敏;王晓华;任福继;;电子测量与仪器学报;20180515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114387997A (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111276131B (zh) | 一种基于深度神经网络的多类声学特征整合方法和*** | |
Gupta et al. | LPC and LPCC method of feature extraction in Speech Recognition System | |
CN101751921B (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
CN114387997B (zh) | 一种基于深度学习的语音情感识别方法 | |
KR101415534B1 (ko) | 다단계 음성인식장치 및 방법 | |
US9355642B2 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
CN109192200B (zh) | 一种语音识别方法 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
KR20080056069A (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
Fei et al. | Research on speech emotion recognition based on deep auto-encoder | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN110534133A (zh) | 一种语音情感识别***及语音情感识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及*** | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、***及终端 | |
Shah et al. | Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion. | |
CN113611285A (zh) | 基于层叠双向时序池化的语种识别方法 | |
CN103886859B (zh) | 基于一对多码书映射的语音转换方法 | |
Jarng | HMM voice recognition algorithm coding | |
Wu et al. | Speaker identification based on the frame linear predictive coding spectrum technique | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |