CN114387997B

CN114387997B - 一种基于深度学习的语音情感识别方法

Info

Publication number: CN114387997B
Application number: CN202210072804.7A
Authority: CN
Inventors: 姜元春; 葛鸿飞; 朱波; 穆利; 吴铭; 刘业政; 袁昆; 孙见山; 柴一栋; 钱洋
Original assignee: Hefei Water Group Co ltd; Hefei University of Technology
Current assignee: Hefei Water Group Co ltd; Hefei University of Technology
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2024-03-29
Anticipated expiration: 2042-01-21
Also published as: CN114387997A

Abstract

本发明公开了一种基于深度学习的语音情感识别方法，其步骤包括：1获取会话语音集合并进行分帧和加窗处理；2提取语音帧的LLDs特征序列和语谱图；3提取LLDs序列的表征；4提取语谱图的表征。5使用特征融合与结果融合的策略以得到最后的情感预测结果。本发明能有效预测语音的情感类别，并能提高预测准确性。

Description

一种基于深度学习的语音情感识别方法

技术领域

本发明属于语音数据分析处理领域，具体的说是一种基于深度学习的语音情感识别方法。

背景技术

随着智能服务机器人在电商、酒店、商场等领域的广泛应用，基于语音的情感识别成为企业了解消费者需求、分析消费者满意度的有效手段。语音声学信息由于具有提取复杂度低、干扰信息少等优点，成为语音情感识别的主要依据。如何基于声学信息构建语音情感的识别方法具有重要的理论和实践价值。基于声学特征的情感识别方法是语音情感识别的主流方向。现有研究取得了丰富的成果，但是基于声学特征的语音情感识别仍存在广阔研究空间。首先，语音信息中蕴含着丰富的声学特征，这些特征可以从局部与全局、时域与频域等不同维度反映语音情感。如何对多维度特征进行有效提取有待深入研究。其次，深度学习是情感识别的有效方法。如何基于多维度声学特征构建语音情感识别的深度学习方法有待进一步探索。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于深度学习的语音情感识别方法，以期能融合多维度特征，用于对语音情感进行更加有效的识别，从而能提高识别的准确性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于深度学习的语音情感识别方法的特点是按如下步骤进行：

步骤1：提取LLDs序列W^l和语谱图W^g；

获取语音样本[x(t),y],t＝1,2,…,N，其中，x(t)是第t个采样点信号，y是语音样本标签，N是语音样本的采样点总数；

并对x(t)进行分帧处理，得到x(t)的分帧序列：[x₁(t),x₂(t),…,x_i(t),…,x_n(t)]，其中，x_i(t)表示第t个采样点信号x(t)的第i个语音帧，n表示语音帧的数量；

利用式(2)对分帧序列进行加窗处理，得到加窗序列[x'₁(t),x'₂(t),…,x'_i(t),…,x'_n(t)],t＝1,2,…,N：

x'_i(t)＝ω(t)·x_i(t) (1)

式(1)中，ω(t)表示汉宁窗函数；x'_i(t)表示表示第i个加窗后的语音帧；

利用式(3)提取x'_i(t)的d维LLDs特征并利用式(4)将从所有帧的d维LLDs特征进行拼接，得到语音样本x(t)的LLDs序列W^l：

式(3)和式(4)中，OpenSmile(·)表示使用OpenSmile工具包进行特征提取；表示向量拼接操作；

对x'_i(t)进行离散傅立叶变换得到x'_i(t)的频谱，将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵W^g；

步骤2：LLDs序列W^l的特征提取分支；

令LLDs序列W^l的特征提取分支由局部卷积模块、全局卷积模块和融合自注意力机制的SABi-LSTM模块所构成；LLDs序列W^l依次通过特征提取分支计算得到LLDs表征v₁；

步骤2.1：局部卷积模块；

所述局部卷积模块由激活函数为Relu的局部卷积层和一个局部最大值池化层构成；

所述局部卷积层使用尺度为n₁×s×1的卷积核进行局部卷积操作，其中，n₁为卷积核个数，s是卷积核的宽；所述局部最大值池化层使用尺度为1×s₁的池化窗口进行最大值池化操作，s₁是池化窗口的宽度；所述局部卷积模块利用式(6)对LLDs序列W^l进行处理，得到局部卷积模块输出的特征图W^mod1：

式(6)中，pool(·)是局部最大值池化操作，conv_local(·)为局部卷积操作；

步骤2.2：全局卷积模块；

全局卷积模块由一个激活函数为Relu的全局卷积层和一个最大值池化层组成；

所述全局卷积模块使用尺度为n₂×d×l的卷积核进行全局卷积操作，其中，n₂为卷积核个数，d,l是卷积核的宽和高；所述最大值池化层使用尺度为1×s₂的池化窗口来进行最大值池化操作，s₂是池化窗口的宽度；所述全局卷积模块利用式(7)对特征图W^mod1进行处理，得到全局卷积模块输出的特征图W^mod2：

式(7)中，squeze(·)表示删除张量中维度为1的轴，pool(·)是最大值池化操作，conv(·)是全局卷积操作；

步骤2.3：SABi-LSTM模块；

所述SABi-LSTM模块由Bi-LSTM网络、注意力机制层和最大池化层构成，其中Bi-LSTM网络由双向的LSTM网络构成；

所述特征图W^mod2记为W^mod2＝[w₁,w₂,…,w_u,…,w_n/4]，w_u表示特征图W^mod2的第u列向量，并将W^mod2输入所述Bi-LSTM网络中，从而利用式(8)得到隐状态特征向量h_u：

式(8)中，表示前向输出的第u个隐状态特征向量，/>表示后向输出的第u个隐状态特征向量，/>表示拼接，/>和/>分别表示前向和后向LSTM网络；

所述归一化层利用式(9)对隐状态特征向量h_u进行处理，得到归一化矩阵W^hid：

式(9)中，μ_u表示h'_u的均值，σ_u表示h'_u的标准差，表示h'_u的第a个分量，h'_u表示归一化后的特征向量，g和b表示与h'_t相同维度的偏差和增益参数；H为所述Bi-LSTM网络中LSTM隐藏层的神经元数量，⊙两个向量之间的元素乘法；

所述注意力机制层采用双层前馈神经网络，并利用式(10)对归一化矩阵W^hid进行处理，得到注意力特征向量序列W^att：

式(10)中，h'_u是第u个归一化后的特征向量，h'_j是第j个归一化后的特征向量，a_j,u是h'_u同h'_j之间的注意力分数，Relu是双层前馈神经网络中第一层的激活函数，tanh是双层前馈神经网络中第二层激活函数，b是偏置，a_j,u是使用softmax函数对a_j,u进行归一化后的注意力分数；为注意力机制层得到的第t个注意力向量，W^r、W^q和W^v是注意力机制层参数，W₁和W₂前馈神经网络中的网络参数；

所述最大池化层利用式(11)对注意力特征向量序列W^att进行最大池化处理，并用全连接层将其映射为定长的特征向量：

式(11)中，pool(·)是最大值池化操作，W₃表示全连接层需要学习的参数矩阵，v₁表示SABi-LSTM模块最终输出的k维特征向量；

步骤3：语谱图W^g的特征提取分支；

所述语谱图W^g的特征提取分支采用如式(12)所示的卷积神经网络对语谱图W^g进行处理，得到语谱图W^g的特征提取分支输出的k维特征向量v₂并作为声谱图表征：

式(12)中，conv(·)是卷积操作，pool(·)是池化操作，W₄是全连接层需要学习的模型参数；

步骤4：多维度特征融合的决策模块；

步骤4.1：对LLDs表征v₁和声谱图表征v₂进行特征融合，得到融合特征

步骤4.2：利用式(11)对LLDs表征v₁、声谱图表征v₂及其融合特征v进行情感预测，得到相应的情感预测结果pred1、pred2、pred3，其中,pred1是v₁的情感预测结果，pred2是v₂的情感预测结果，pred3是v₃的情感预测结果：

式(11)中，dropout(·)表示全联接层后的dropout操作；W₄、W₅、W₆是全连接层需要学习的三个模型参数；

步骤4.3：对三个预测结果进行融合，得到融合预测结果

步骤4.4：利用式(12)得到最终的语音情感预测结果p：

式(12)中，W₇是全连接层需要学习的模型参数，softmax(·)表示激活函数，C表示语音样本的情感类别总数；

步骤4.5：利用式(13)构建由交叉熵损失和L2正则化损失构成的模型的最终损失

式(13)中，p_m表示p的第m个分量，表示模型所有参数的L2正则化损失，y_m表示y的第m个分量；

步骤5：搭建多维度特征融合的语音情感识别模型；

所述多维度特征融合的语音情感识别模型由LLDs序列的特征提取分支、语谱图的特征提取分支、多维度特征融合的决策模块构成；

使用随机梯度下降法对所述语音情感识别模型进行训练，并计算最终损失直至其收敛，从而得到训练好的语音情感识别模型，并用于对任一语音样本u(t)来进行语音情感预测，得到语音样本u(t)预测的情感类别。

与现有技术相比，本发明的有益效果在于：

1.本发明针对语音情感识别问题，提出了一种多维度特征融合的深度语音情感识别方法，该方法利用多通道特征即语音声学的LLDs特征和语音语谱图特征，避免了信息缺失和只考虑局部或者全局信息的问题，加深了对于各自模态信息的理解，有利于下游任务性能的提升。

2.本发明设计了多维度特征的融合机制，解决了一般多通道模型各分支之间没有信息交互的问题，通过引入自注意力机制，有效抽取了提取语音中蕴含的关键时刻情感信息，更好利用了语音信号中的上下文信息。

附图说明

图1为本发明的模型整体结构图；

图2为本发明SABi-LSTM模块图；

图3为本发明的整体流程图。

具体实施方式

本实施例中，一种基于深度学习的语音情感识别方法是按如下步骤进行：

步骤1：提取LLDs序列W^l和语谱图W^g；

并对x(t)进行分帧处理，得到x(t)的分帧序列：[x₁(t),x₂(t),…,x_i(t),…,x_n(t)]，其中，x_i(t)表示第t个采样点语音x(t)的第i个语音帧，n表示语音帧的数量；

利用式(1)对分帧序列进行加窗处理，得到加窗序列[x'₁(t),x'₂(t),…,x'_i(t),…,x'_n(t)],t＝1,2,…,N：

x'_i(t)＝ω(t)·x_i(t) (1)

式(1)中，ω(t)表示汉宁窗函数；x'_i(t)表示表示第i个加窗后的语音帧；具体实施中，例如利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对一段会话语音分别分帧和短时加窗处理，帧长可取25毫秒，帧间隔可取20毫秒，窗函数选择汉明窗(实际操作时也可以利用其他窗函数)。

利用式(2)提取x'_i(t)的d维LLDs特征并利用式(3)将从所有帧的d维LLDs特征进行拼接，得到语音样本x(t)的LLDs序列W^l：

式(2)和式(3)中，OpenSmile(·)表示使用OpenSmile工具包进行特征提取；表示向量拼接操作；具体实施中，可以使用OpenSmile工具包从eGeMAPS特征集中提取20个特征作为LLDs特征集，分别是过零率、对数帧能量、帧能量熵、频谱质心、频谱扩展、频谱熵、频谱通量、频谱滚降、梅尔频率倒谱系数(MFCC)C1～C5、发声概率、音调、共振峰带宽、共振峰增益和三次谐波能量比；实际操作也可以选择其他的LLDs特征集；

对x'_i(t)进行离散傅立叶变换得到x'_i(t)的频谱，将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵W^g；具体实施中，也可以使用其他类型的语谱图，如梅尔谱图，功率谱图。

步骤2：LLDs序列W^l的特征提取分支；

步骤2.1：局部卷积模块；

局部卷积模块由激活函数为Relu的局部卷积层和一个局部最大值池化层构成；

局部卷积层使用尺度为n₁×s×1的卷积核进行局部卷积操作，其中，n₁为卷积核个数，s是卷积核的宽；局部最大值池化层使用尺度为1×s₁的池化窗口进行最大值池化操作，s₁是池化窗口的宽度；局部卷积模块利用式(4)对LLDs序列W^l进行处理，得到局部卷积模块输出的特征图W^mod1：具体实施中，卷积核尺度可取256×1×4，池化窗口可以取1×2。实际操作也可以根据语音样本的规模选择其他的卷积核尺度和池化窗口。

式(4)中，pool(·)是局部最大值池化操作，conv_local(·)为局部卷积操作；

步骤2.2：全局卷积模块；

全局卷积模块使用尺度为n₂×d×l的卷积核进行全局卷积操作，其中，n₂为卷积核个数，d,l是卷积核的宽和高；最大值池化层使用尺度为1×s₂的池化窗口来进行最大值池化操作，s₂是池化窗口的宽度；全局卷积模块利用式(5)对特征图W^mod1进行处理，得到全局卷积模块输出的特征图W^mod2：具体实施中，卷积核尺度可取512×20×4，池化窗口可以取1×2。实际操作也可以根据语音样本的规模选择其他的卷积核尺度和池化窗口；

式(5)中，squeze(·)表示删除张量中维度为1的轴，pool(·)是最大值池化操作，conv(·)是全局卷积操作；

步骤2.3：SABi-LSTM模块；

SABi-LSTM模块由Bi-LSTM网络、注意力机制层和最大池化层构成，其中Bi-LSTM网络由双向的LSTM网络构成；具体实施中，SABi-LSTM模块的结构如图2所示。

特征图W^mod2记为W^mod2＝[w₁,w₂,…,w_u,…,w_n/4]，w_u表示特征图W^mod2的第u列向量，并将W^mod2输入Bi-LSTM网络中，从而利用式(6)得到隐状态特征向量h_u：

式(6)中，表示前向输出的第u个隐状态特征向量，/>表示后向输出的第u个隐状态特征向量，/>表示拼接，/>和/>分别表示前向和后向LSTM网络；

归一化层利用式(7)对隐状态特征向量h_u进行处理，得到归一化矩阵W^hid：

式(7)中，μ_u表示h'_u的均值，σ_u表示h'_u的标准差，表示h'_u的第a个分量，h'_u表示归一化后的特征向量，g和b表示与h'_t相同维度的偏差和增益参数；H为Bi-LSTM网络中LSTM隐藏层的神经元数量，⊙两个向量之间的元素乘法；具体实施中，H可以取256。实际操作也可以选择其他的LSTM隐藏层的神经元数量，比如128，512等。

注意力机制层采用双层前馈神经网络，并利用式(8)对归一化矩阵W^hid进行处理，得到注意力特征向量序列W^att：

a_j,u＝tanh(W₂(Relu(W₁(W^qh'_u+W^rh'_j+b))))

式(8)中，h'_u是第u个归一化后的特征向量，h'_j是第j个归一化后的特征向量，a_j,u是h'_u同h'_j之间的注意力分数，Relu是双层前馈神经网络中第一层的激活函数，tanh是双层前馈神经网络中第二层激活函数，b是偏置，α_j,u是使用softmax函数对a_j,u进行归一化后的注意力分数；为注意力机制层得到的第t个注意力向量,W^r、W^q和W^v是注意力机制层参数，W₁和W₂前馈神经网络中的网络参数；

最大池化层利用式(9)对注意力特征向量序列W^att进行最大池化处理，并用全连接层将其映射为定长的特征向量：

式(9)中，pool(·)是最大值池化操作，W₃表示全连接层需要学习的参数矩阵，v₁表示SABi-LSTM模块最终输出的k维特征向量；具体实施中，全连接层的神经元个数k可以取512，那么之后提取的SABi-LSTM模块的特征向量就是512维(实际操作也可以选择其他的全连接层的神经元个数)。

步骤3：语谱图W^g的特征提取分支；

语谱图W^g的特征提取分支采用如式(10)所示的卷积神经网络对语谱图W^g进行处理，得到语谱图W^g的特征提取分支输出的k维特征向量v₂并作为声谱图表征：

式(10)中，conv(·)是卷积操作，pool(·)是池化操作，W₄是全连接层需要学习的模型参数；

步骤4：多维度特征融合的决策模块；

步骤4.2：利用式(11)对LLDs表征v₁、声谱图表征v₂及其融合特征v进行情感预测，得到相应的情感预测结果pred1、pred2、pred3，其中,pred1是v1的情感预测结果，pred2是v₂的情感预测结果，pred3是v₃的情感预测结果：

步骤4.3：对三个预测结果进行融合，得到融合预测结果

步骤4.4：利用式(12)得到最终的语音情感预测结果p：

式(12)中，W₇是全连接层需要学习的模型参数，softmax(·)表示激活函数，C表示语音样本的情感类别总数，

步骤5：搭建多维度特征融合的语音情感识别模型；

多维度特征融合的语音情感识别模型由LLDs序列的特征提取分支、语谱图的特征提取分支、多维度特征融合的决策模块构成；具体实施中，模型的结构如图1所示。

使用反向传播算法对语音情感识别模型进行优化训练，具体实施中，在训练模型时可采用k-折交叉验证、L2正则化、提早停止训练等手段提高模型的鲁棒性。设计的模型可以使用深度学习框架Pytorch实现(实际操作中也可选择其他的深度学习框架如Tensorflow和Keras等)，采用随机梯度下降算法(SGD)来优化模型，学习率设置为0.001，训练的每个批次大小设置为64，训练迭代的次数设置为2000轮。并计算最终损失直至其收敛，从而得到训练好的语音情感识别模型，并用于对任一语音样本u(t)来进行语音情感预测，得到语音样本u(t)预测的情感类别。

具体实施中，通过得到的语音情感预测模型来对语音样本u(t)进行情感预测，预测过程如式(14)所示。

式(14)中，classi为最终语音样本u(t)的情感预测类别，p^u表示u(t)的情感预测结果，表示p^u的第i个分量，model(·)表示使用训练好的语音情感识别模型来对样本进行情感预测。

Claims

1.一种基于深度学习的语音情感识别方法，其特征是按如下步骤进行：

步骤1：提取LLDs序列W^l和语谱图W^g；

获取语音样本[x(t)，y]，t＝1，2，...，N，其中，x(t)是第t个采样点信号，y是语音样本标签，N是语音样本的采样点总数；

并对x(t)进行分帧处理，得到x(t)的分帧序列：[x₁(t)，x₂(t)，...，x_i(t)，...，x_n(t)]，其中，x_i(t)表示第t个采样点信号x(t)的第i个语音帧，n表示语音帧的数量；

利用式(2)对分帧序列进行加窗处理，得到加窗序列[x′₁(t)，x′₂(t)，...，x′_i(t)，...，x′_n(t)]，t＝1，2，...，N：

x′_i(t)＝ω(t)·x_i(t) (1)

式(1)中，ω(t)表示汉宁窗函数；x′_i(t)表示表示第i个加窗后的语音帧；

利用式(3)提取x′_i(t)的d维LLDs特征并利用式(4)将从所有帧的d维LLDs特征进行拼接，得到语音样本x(t)的LLDs序列W^l：

对x′_i(t)进行离散傅立叶变换得到x′_i(t)的频谱，将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵W^g；

步骤2：LLDs序列W^l的特征提取分支；

步骤2.1：局部卷积模块；

步骤2.2：全局卷积模块；

所述全局卷积模块使用尺度为n₂×d×l的卷积核进行全局卷积操作，其中，n₂为卷积核个数，d，l是卷积核的宽和高；所述最大值池化层使用尺度为1×s₂的池化窗口来进行最大值池化操作，s₂是池化窗口的宽度；所述全局卷积模块利用式(7)对特征图W^mod1进行处理，得到全局卷积模块输出的特征图W^mod2：

步骤2.3：SABi-LSTM模块；

所述特征图W^mod2记为W^mod2＝[w₁，w₂，...，w_u，...，w_n/4]，w_u表示特征图W^mod2的第u列向量，并将W^mod2输入所述Bi-LSTM网络中，从而利用式(8)得到隐状态特征向量h_u：

归一化层利用式(9)对隐状态特征向量h_u进行处理，得到归一化矩阵W^hid：

式(9)中，μ_u表示h′_u的均值，σ_u表示h′_u的标准差，表示h′_u的第a个分量，h′_u表示归一化后的特征向量，g和b表示与h′_t相同维度的偏差和增益参数；H为所述Bi-LSTM网络中LSTM隐藏层的神经元数量，⊙两个向量之间的元素乘法；

a_j，u＝tanh(W₂(Relu(W₁(W^qh′_u+W^rh′_j+b))))

式(10)中，h′_u是第u个归一化后的特征向量，h′_j是第j个归一化后的特征向量，a_j，u是h′_u同h′_j之间的注意力分数，Relu是双层前馈神经网络中第一层的激活函数，tanh是双层前馈神经网络中第二层激活函数，b是偏置，α_j，u是使用softmax函数对a_j，u进行归一化后的注意力分数；为注意力机制层得到的第t个注意力向量，W^r、W^q和W^v是注意力机制层参数，W₁和W₂前馈神经网络中的网络参数；

h_con＝pool(W^att)

步骤3：语谱图W^g的特征提取分支；

W^b1＝Relu(pool1(conv1(W^g)))

W^b2＝Relu(pool2(conv2(W^b1)))

步骤4：多维度特征融合的决策模块；

步骤4.2：利用式(11)对LLDs表征v₁、声谱图表征v₂及其融合特征v进行情感预测，得到相应的情感预测结果pred1、pred2、pred3，其中，pred1是v₁的情感预测结果，pred2是v₂的情感预测结果，pred3是v₃的情感预测结果：

步骤4.3：对三个预测结果进行融合，得到融合预测结果

步骤4.4：利用式(12)得到最终的语音情感预测结果p：

步骤4.5：利用式(13)构建由交叉熵损失和L2正则化损失构成的模型的最终损失l：

式(13)中，p_m表示p的第m个分量，||θ^*||表示模型所有参数的L2正则化损失，y_m表示y的第m个分量；

步骤5：搭建多维度特征融合的语音情感识别模型；

使用随机梯度下降法对所述语音情感识别模型进行训练，并计算最终损失l直至其收敛，从而得到训练好的语音情感识别模型，并用于对任一语音样本u(t)来进行语音情感预测，得到语音样本u(t)预测的情感类别。