CN113903362B

CN113903362B - 一种基于神经网络的语音情感识别方法

Info

Publication number: CN113903362B
Application number: CN202110990439.3A
Authority: CN
Inventors: 张悦; 黄逸轩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-07-21
Anticipated expiration: 2041-08-26
Also published as: CN113903362A

Abstract

本发明公开了一种基于神经网络的语音情感识别方法，首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感，再提取语音信号的基于滤波器组的特征，然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征，使用归一化指数函数分类器得到属于每一类情感的概率值，选取最大概率值对应的情感作为该段语音的情感类别；再将所述目标语音信号识别为文本，送入双向编码器预训练模型获取文本情感类别，融合以上三种模型后获得最终情感类别，解决了现有技术中模型融合以及多模态情感识别训练困难，准确率提升不大的问题。

Description

一种基于神经网络的语音情感识别方法

技术领域

本发明涉及语音情感识别技术领域，尤其涉及一种基于神经网络的语音情感识别方法。

背景技术

语音情感识别的很多方法是采用将不同的语音情感分类模型进行融合，然而由于都是语音信息，模型的相关性比较高，模型融合的效果提升不大；也有使用不同模型提取特征的方法，然后不同模型按照相同的权重进行融合，同样存在效果提升不大的问题。

当前还有文本情感识别和语音情感识别的多模态方法，但采用的是特征融合，由于不同模型的学习速度不同，特征融合不能很好的发挥不同模态信息优势互补的作用。

发明内容

本发明的目的在于提供一种基于神经网络的语音情感识别方法，旨在解决现有技术中模型融合以及多模态情感识别训练困难，准确率提升不大的问题。

为实现上述目的，本发明采用一种基于神经网络的语音情感识别方法，包括下列步骤：

提取语音特征并送入卷积神经网络，获得卷积情感类别；

所述语音特征送入时延神经网络，获得时延情感类别；

识别语音文本并送入双向编码器预训练模型，获得文本情感类别；

模型融合获得最终情感类别。

其中，所述语音特征为目标语音信号的基于滤波器组的特征。

其中，所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类，所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。

其中，在提取语音特征并送入卷积神经网络，获得卷积情感类别的过程中，所述卷积神经网络自动提取所述语音特征包含的情感特征，再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为卷积情感类别。

其中，在所述语音特征送入时延神经网络，获得时延情感类别的过程中，所述时延神经网络自动提取所述语音特征包含的情感特征，再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为时延情感类别。

其中，识别语音文本并送入双向编码器预训练模型，获得文本情感类别，包括下列步骤：

利用语音识别技术识别所述目标语音信号对应的文本，获得语音文本；

将所述语音文本中文字映射为相应的标号，形成标号序列；

将所述标号序列送入双向编码器预训练模型，提取文本包含的情感特征；

使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为文本情感类别。

其中，在模型融合获得最终情感类别的过程中，对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加，选取最大值对应的情感特征作为最终情感类别。

其中，进行所述线性相加的过程中，不同模型的权重值设置为相同或不相同。

本发明的一种基于神经网络的语音情感识别方法，首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感，再提取语音信号的基于滤波器组的特征，然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征，使用归一化指数函数分类器得到属于每一类情感的概率值，选取最大概率值对应的情感作为该段语音的情感类别；再将所述目标语音信号识别为文本，送入双向编码器预训练模型获取文本情感类别，融合以上三种模型后获得最终情感类别，解决了现有技术中模型融合以及多模态情感识别训练困难，准确率提升不大的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种基于神经网络的语音情感识别方法的流程示意图。

图2是本发明的卷积神经网络的模型架构图。

图3是本发明的时延神经网络的模型架构图。

图4是本发明的单层的双向编码器的结构图。

图5是本发明的模型融合加权重值流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本申请中，相应的术语还可记为其余名称，如基于滤波器组的特征为FBank特征，卷积神经网络为CNN，时延神经网络为ECAPA-TDNN，双向编码器预训练模型为Bert，归一化指数函数为Softmax。

请参阅图1，本发明提出了一种基于神经网络的语音情感识别方法，包括下列步骤：

S1：提取语音特征并送入卷积神经网络，获得卷积情感类别；

S2：所述语音特征送入时延神经网络，获得时延情感类别；

S3：识别语音文本并送入双向编码器预训练模型，获得文本情感类别；

S4：模型融合获得最终情感类别。

所述语音特征为目标语音信号的基于滤波器组的特征。

所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类，所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别可以是四类中的任意一类。

在提取语音特征并送入卷积神经网络，获得卷积情感类别的过程中，所述卷积神经网络自动提取所述语音特征包含的情感特征，再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为卷积情感类别。

在所述语音特征送入时延神经网络，获得时延情感类别的过程中，所述时延神经网络自动提取所述语音特征包含的情感特征，再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为时延情感类别。

识别语音文本并送入双向编码器预训练模型，获得文本情感类别，包括下列步骤：

将所述语音文本中文字映射为相应的标号，形成标号序列；

在模型融合获得最终情感类别的过程中，对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加，选取最大值对应的情感特征作为最终情感类别。

进行所述线性相加的过程中，不同模型的权重值可以设置为相同或不相同。

进一步地，请参阅图2，卷积神经网络CNN的模型架构如下：

语音信号基于滤波器组的特征作为卷积神经网络的输入，该模型由5层二维卷积神经网络块组成，每个二维卷积神经网络块由3部分组成，分别是二维卷积神经网络，批标准化层，最大池化层。之后连接一层全局平均池化层。然后连接全连接层，通过激活函数为归一化指数函数softmax得到属于每一类情感的概率值，然后选取最大的概率值所对应的情感作为该语音的情感类别。

时延神经网络ECAPA-TDNN模型架构如图3所示：

语音信号的基于滤波器组的特征作为模型的输入，模型的第一层为时延神经网络，后面连接修正线性单元激活函数和批标准化网络，之后连接3层特征压缩与激发模块，然后将第一个和第二个特征压缩与激发模块的输出以及第三个特征压缩与激发模块的输出一起输入到时延神经网络中，并连接修正线性单元激活函数，然后通过注意力池化计算得到基于滤波器组的特征的统计注意力池化向量，并进行批标准化，然后将其送入全连接网络层，并进行批标准化，最后通过附加角余量归一化指数函数得到属于每一类情感的概率值，选取概率值最大的类别作为该段语音的情感类别。

在Bert预训练模型的过程中：

利用语音识别技术识别出语音对应的文本，然后根据词典将文本中每个字映射为相应的标号，不同字对应不同的标号。然后将文本对应的标号序列为双向编码器(Bert)预训练模型的输入。

Bert预训练模型是一个多层的双向编码器叠加而成的。单层的双向编码器的结构请参阅图4。输入文本，提取得到输入的嵌入，对输入信息进行位置编码，然后送入编码器进行编码，然后将上一层的输出送入解码器，并联合编码器的编码得到的特征送入全连接层和归一化指数函数softmax层进行分类，得到文本的情感类别。

进一步地，在模型融合获得最终情感类别的过程中：

请参阅图5，融合方法：权重1*CNN的softmax之后的概率值+权重2*ECAPA-TDNN的softmax之后的概率值+权重3*Bert的softmax之后的概率值＝新的概率值，然后选取最大值对应的情感作为最终的情感类别。

其中：权重1+权重2+权重3＝1

本发明还提出了具体实施例说明了识别准确率的提升变化：

相关术语含义：准确率＝正确预测的样本数/总共的样本数

加权准确率WA：某一类情感类别的准确率*某一类情感在数据集中所占的比例；

非加权准确率UA:某一类情感类别的准确率。

模型1:输入为语音的基于滤波器组的特征(Fbank特征)，使用卷积神经网络cnn模型，加权准确率WA、非加权准确率UA:67％，65％

模型2:输入为语音的基于滤波器组的特征(Fbank特征)，使用时延神经网络ECAPA-TDNN模型，加权准确率WA、非加权准确率UA:67％，66％

模型3:输入为文本用的双向编码器Bert预训练模型，加权准确率WA、非加权准确率UA:62％，61％

把设置的不同模型的权重都是相同的，语音情感识别结果为：

#加权准确率WA、非加权准确率UA:76％,74％

(1*模型1的softmax之后的概率值+1*模型2的softmax之后的概率值+1*模型3softmax之后的概率值)/3

在模型融合时，权重更改为不是相同的，性能有了比较大的提升：

#加权准确率WA、非加权准确率UA:81％,80％

(0.5*模型1的softmax之后的概率值+2.1*模型2的softmax之后的概率值+0.4*模型3softmax之后的概率值)/3

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于神经网络的语音情感识别方法，其特征在于，包括下列步骤：

提取语音特征并送入卷积神经网络，获得卷积情感类别；

所述语音特征送入时延神经网络，获得时延情感类别；

模型融合获得最终情感类别；

在模型融合获得最终情感类别的过程中，权重1*CNN的softmax之后的概率值+权重2*ECAPA-TDNN的softmax之后的概率值+权重3*Bert的softmax之后的概率值＝新的概率值，然后选取最大值对应的情感作为最终的情感类别，其中，权重1+权重2+权重3＝1。

2.如权利要求1所述的基于神经网络的语音情感识别方法，其特征在于，所述语音特征为目标语音信号的基于滤波器组的特征。

3.如权利要求2所述的基于神经网络的语音情感识别方法，其特征在于，所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类，所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。

4.如权利要求1所述的基于神经网络的语音情感识别方法，其特征在于，在提取语音特征并送入卷积神经网络，获得卷积情感类别的过程中，所述卷积神经网络自动提取所述语音特征包含的情感特征，再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为卷积情感类别。

5.如权利要求1所述的基于神经网络的语音情感识别方法，其特征在于，在所述语音特征送入时延神经网络，获得时延情感类别的过程中，所述时延神经网络自动提取所述语音特征包含的情感特征，再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值，选取最大概率值对应的情感特征作为时延情感类别。

6.如权利要求2所述的基于神经网络的语音情感识别方法，其特征在于，识别语音文本并送入双向编码器预训练模型，获得文本情感类别，包括下列步骤：

将所述语音文本中文字映射为相应的标号，形成标号序列；

7.如权利要求1所述的基于神经网络的语音情感识别方法，其特征在于，在模型融合获得最终情感类别的过程中，对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加，选取最大值对应的情感特征作为最终情感类别。

8.如权利要求7所述的基于神经网络的语音情感识别方法，其特征在于，进行所述线性相加的过程中，不同模型的权重值设置为相同或不相同。