CN114898779A

CN114898779A - 融合多模态的语音情感识别方法及***

Info

Publication number: CN114898779A
Application number: CN202210641067.8A
Authority: CN
Inventors: 刘云翔; 张可欣; 原鑫鑫
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2022-04-07
Filing date: 2022-06-08
Publication date: 2022-08-12

Abstract

本发明提供了一种融合多模态的语音情感识别方法及***，包括：获取语音信号，对所述语言信号进行语音情感特征值的提取；获取语音信号对应的文本信息，对所述文本信息进行预处理生成文本特征信息；获取预训练的语音情感分类器，所述语音情感分类器包括第一分类模型和第二分类模型；将所述语音情感特征值和所述文本特征信息输入所述语音情感分类器，通过第一分类模型对所述语音情感特征值进行识别生成第一分类信息，通过第二分类模型对文本特征信息进行识别生成第二分类信息，进而通过将所述第一分类信息和所述第二分类信息进行融合生成识别信息。本发明充分地利用各个分类器的优点，融合多种模态，可以避免单个模态的偶然性，提高识别准确率。

Description

融合多模态的语音情感识别方法及***

技术领域

本发明涉及语音情感识别，具体地，涉及一种融合多模态的语音情感识别方法及***。

背景技术

语音情感识别是人工智能的一部分，涉及到深度学习和机器学习方面的知识。人的语言里包含着丰富的情感，如何让计算机像人脑从语音中识别人的情感是语音识别的研究热点。语音识别已经应用在人脸识别、手写体数字识别等众多领域。语音情感识别广泛应用于教育行业，服务行业，辅助驾驶行业以及刑事侦查行业。在教育行业中，观察学生们的情感状态，并准确地做出判断，有利于教师们采取有利措施预防学生们地抑郁症倾向。在服务行业里，通过与客户进行语音交流，可以有效地从客户地语音中判断他们是否对这项服务满意，从而及时提醒服务人员调整服务策略。在刑事侦查行业，警察在审问犯罪嫌疑人的时候，通常根据嫌疑人的说话语音语调判断嫌疑人是否说谎。人在说谎的时候会情绪紧张，语音语调会随着情绪变化。不仅国内人们对语音情感识别展开深入的研究，语音情感识别在国外也受到了重视。

1997年，麻省理工大学的教授提出了“情感计算的概念”，他提出只有让计算机能正确的识别人类的情感，才可以做到真正的人机交互。2000年，在爱尔兰召开了语音情感识别大会，会议上对这项技术进行了深入的研讨。语音情感识别是指通过对语言的特征参数提取，然后预测情感类别。通过深度学习，提取语音中的特征值；通过机器学习分类模型，完成对提取到的特征值进行情感分类。语音情感识别过程包括选取语音情感数据库，提取语音特征值，预测情感分类这三个过程，前人在这三个过程中做了很多贡献。

但是大多数研究只关注了语音信号这一个模态识别情感，没有关注其他识别情感的模态。识别情感不仅可以通过语音，还可以通过面部表情以及文本信息识别情感。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种融合多模态的语音情感识别方法及***。

根据本发明提供的融合多模态的语音情感识别方法，包括如下步骤：

步骤S1：获取语音信号，对所述语言信号进行语音情感特征值的提取；

步骤S2：获取所述语音信号对应的文本信息，对所述文本信息进行预处理生成文本特征信息；

步骤S3：获取预训练的语音情感分类器，所述语音情感分类器包括第一分类模型和第二分类模型；

步骤S4：将所述语音情感特征值和所述文本特征信息输入所述语音情感分类器，通过第一分类模型对所述语音情感特征值进行识别生成第一分类信息，通过第二分类模型对所述文本特征信息进行识别生成第二分类信息，进而通过将所述第一分类信息和所述第二分类信息进行融合生成识别信息。

优选地，所述步骤S1包括如下步骤：

步骤S101：对所述语音信号依次进行预加重，分帧，加窗，端点检测确定具有情感的语音信号；

步骤S102：对所述具有情感的语音信号先进行降维，然后提取对情感识别贡献度最大的特征值生成所述语音情感特征值。

优选地，所述步骤S2包括如下步骤：

步骤S201：对所述文本信息进行分词，并去除所述文本信息中的停用词；

步骤S202：根据信息增益方法在所述文本信息中进行特征选择生成多个特征，计算每个特征的信息熵，根据信息熵确定目标特征；

步骤S203：构建关键词库、情感副词库以及情感形容词库，根据词库对不同的目标特征赋予不同的权重以生成所述语音情感特征值。

优选地，步骤S3包括如下步骤

步骤S301：设计DNN神经网络和第一BLSTM神经网络，将所述DNN神经网络和所述BLSTM神经网络构建第一分类模型；

步骤S302：设计BERT模型、第二BLSTM神经网络以及softmax分类器，将所述BERT模型、所述第二BLSTM神经网络以及所述softmax分类器构建成所述第二分类模型；

步骤S303：获取预设置的语音训练集、语音测试集、文本训练集以及文本测试集，通过所述语音训练集和语音测试集对所述第一分类模型进行训练和测试，通过所述文本训练集和文本测试集对所述第二分类模型进行训练和测试，从而生成所述语音情感分类器。

优选地，在所述步骤S4中：第一分类信息中的概率分布为

所述第二分类信息中的概率分布为

则，所述第一分类信息和所述第二分类信息的加权融合概率为w＝w₁S^audio+w₂S^text，其中w₁表示语音的权重，w₂表示文本的权重。

优选地，所述第一分类模型包括第一语言模型和第二语音模型；

所述第一语言模型的主任务为情感分类，辅助任务为噪声识别，将识别出的噪声类别信号丢弃生成非噪声类别的信号；

所述第二语音模型，用于根据输入的把非噪声类别的信号进行情感分类和性别分类。

优选地，在所述第二分类模型中，所述BERT模型，用于对文本信息进行向量化的表示生成向量化信息；

所述第二BLSTM神经网络，用于对向量化信息进行处理以提取上下文的文本特征；

所述softmax分类器，用于对所述文本特征的分类生成所述第二分类信息。

优选地，所述语言情感特征值包括基于谱的相关特征，语谱图，韵律学特征以及音质特征。

优选地，在步骤S102选取Fisher值最大的特征生成所述语音情感特征值。

根据本发明提供的融合多模态的语音情感识别***，包括如下模块：

语音情感特征提取模块，用于获取语音信号，对所述语言信号进行语音情感特征值的提取；

文本预处理模块，用于获取所述语音信号对应的文本信息，对所述文本信息进行预处理生成文本特征信息；

分类器获取模块，用于获取预训练的语音情感分类器，所述语音情感分类器包括第一分类模型和第二分类模型；

信息识别模块，用于将所述语音情感特征值和所述文本特征信息输入所述语音情感分类器，通过第一分类模型对所述语音情感特征值进行识别生成第一分类信息，通过第二分类模型对所述文本特征信息进行识别生成第二分类信息，进而通过将所述第一分类信息和所述第二分类信息进行融合生成识别信息。

与现有技术相比，本发明具有如下的有益效果：

本发明不仅使用了一种分类器，而是融合多种分类器，对于不同的情感识别模态使用不同的分类器，充分地利用各个分类器的优点，融合多种模态，可以避免单个模态的偶然性，提高识别准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例中融合多模态的语音情感识别方法的步骤流程图；

图2为本发明实施例中第一分类模型的多任务学习的逻辑流程图；以及

图3为本发明实施例中融合多模态的语音情感识别***的模块示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明实施例中融合多模态的语音情感识别方法的步骤流程图，如图1所示，本发明提供的融合多模态的语音情感识别方法，包括如下步骤：

所述步骤S1包括如下步骤：

所述语言情感特征值包括基于谱的相关特征，语谱图，韵律学特征以及音质特征。先对语音信号进行预处理，首先要识别没有情感的信号，对于此信号要及时丢弃，包括预加重，分帧，加窗，端点检测；预加重操作使用数字滤波器实现，增强语音的高频部分，使信号变得平滑，并且保留原有的信息。通过x(n)，y(n)分别表示n时刻的输入信号和输出信号，μ为预加重系数，取μ＝0.97。经过预加重处理过的语音信号表达式为y(n)＝x(n)-μ*x(n-1)。由于语音信号处于不断变化的过程，为了分析短时的语音信号，将语音信号分为在10ms到30ms范围之间的帧，分帧操作通过汉明窗来实现，为了防止丢失帧之间的连续性，使用重叠分帧的办法，帧移部分为10ms。为了防止非语音部分的信号帧增加语音情感识别的冗余信息，使用端点检测技术，检测过零率和短时能量，区分语音信号，非语音信号和噪声部分，然后将检测到的非语音信号和噪声去除。利用过零率检查清音，短时能量检查浊音。

然而选取的特征值过多，容易造成维数灾难，导致过拟合，因此需要对特征值进行降维，本发明实施例中选取Fisher准则，提取对情感识别贡献度最大的特征值，因此，在语音情感分类的实验中，应该选取Fisher值较大的特征，fisher的计算公式为：

μ_1d，μ_2d代表两个不同类别的d维向量的均值，δ_1d ²和δ_2d ²代表两个不同类别的d维向量的方差，通过计算结果，这里的MFCC和频谱图特征贡献度最大，因此提取MFCC(Mel-frequencycepstral coefficients，梅尔频率倒谱系数)和频谱图特征作为这次情感分类识别的特征值。

所述步骤S2包括如下步骤：

在本发明实施例中，使用Jieba工具进行分词处理，Jieba工具融合了基于规则和基于统计的两种方法，在进行分词的同时，还可以进行词性的标注；文本信息中的“我、的、了、地、吗”等去停用词应在预处理阶段去除，去除冗余的文本；

选择信息熵大的特征；信息熵的计算公式为：

其中k为类别个数，c为类别变量，Pi为每个特征出现的概率。

根据构建的词库，分析表达情感的强烈程度，程度高的赋予较大的权重，程度小的赋予较小的权重。

步骤S3包括如下步骤

在本发明实施例中，所述DNN神经网络的激活函数选取ReLu函数，损失函数选取交叉熵损失函数，然后设置卷积层和池化层，特征图是通过对输入图像进行卷积计算和激活函数计算得到的，卷积过程就是用一个大小固定的卷积核按照一定步长扫描输入矩阵进行点积运算，卷积核时一个权重矩阵，特征图通过将卷积计算结果输入到激活函数内得到，特征值的深度等于当前层设定的卷积核个数，卷积层的作用在于提取特征值。池化层的作用在于池化操作的作用是缩小特征图的尺寸，减少计算量，对于特征值多的图像，可以去除图像的冗余信息，提高图像处理效率，减少过拟合，本发明实施例中的卷积神经网络是为了提取语谱图的特征值，使用两个卷积层，两个全连接层，经过softmax激活层变化，得到预测结果；

有时候语音信息既可以是由前面的序列决定的，也可以是由后面的序列决定的，因此引入了BLSTM神经网络。为实现了信息的双向记忆语音信号序列记为[x(1),x(2),…,x(T)]，输出信号记为【r^→(T)，r^←(T)】r^→(T)代表正向特征输出，r^←(T)代表反向特征输出。BLSTM网络解决了RNN不能实现双向记忆的问题。语谱图作为DNN的输入，语音信号使用DNN+BLSTM模型，先把语音信号输入到BLSTM中，再将BLSTM的输出作为DNN的输入，得到最终的分类结果。

在本发明实施例中选取IEMOCAP情感数据库生成所述训练集和测试集，IEMOCAP数据库支持视频和音频，还有所有话语的文本转录，数据库中包含5331的音频和文本转录话语，本发明实验按照数据样本的90％划分为训练集，10％划分为测试集，其中训练集和测试集中的语音数据和文本数据各占一半。

在所述步骤S4中：第一分类信息中的概率分布为：

所述第二分类信息中的概率分布为

图2为本发明实施例中第一分类模型的多任务学习的逻辑流程图，如图2所示，所述第一分类模型包括第一语言模型和第二语音模型；

传统的学***均误差，训练第一语言模型和第二语言模型的两个多任务学习模型。每个模型的总损失值(Lov)是各个任务权重的加权和。噪声分类的损失记为Lov1，噪声损失的权重为α，情感分类器的损失记为Lov2，权重为β，性别分类的损失记为Lov3，权重为γ。第一语言模型的总损失值为Lov＝αLov1+βLov2。第一语言模型的总损失值为Lov＝αLov1+γLov3。同时训练两个模型，使总损失值最小。

在本发明实施例中，在所述第二分类模型中，所述BERT模型，用于对文本信息进行向量化的表示生成向量化信息；

BERT模型相比Word2vec模型，可以充分利用上下文的语义信息；BERT设置了两种目标任务，分别获取单词与句子级别的义方式：1、遮盖语言模型；2、上下句关系预测。其中，遮盖语言模型类似“完形填空”，即随机遮盖15％的句子，让编码器预测这些词；上下句关系预测为通过预测两个随机句子能否组成上下句来学习句子的关系。通过这样训练出来的模型，BERT具有很强的句词表达能力。BERT模型有多层双向Transformer，利用自注意力机制计算上下文之间的关系，反映了上下文语义之间的关联性。计算公式为：

其中，Q，K，V表示编码器的输入字向量矩阵，d_k为输入向量维度。

图3为本发明实施例中融合多模态的语音情感识别***的模块示意图，如图3所示，本发明提供的融合多模态的语音情感识别***，包括如下模块：

本发明实施例中，实验运行环境选择windows***，编程语言使用python编程，深度学习的框架选取tensorflow和keras，实验的硬件环境使用PC机，操作***选用Windows，引入Linux内核，选取最佳的参数能够达到更好的分类效果，常见的参数选择方法是网格搜索法。网格搜索的具体步骤为：

步骤1：调用python中的Sklearn.model_selection库

步骤2.从Sklearn.model_selection库引入函数GrindSearch

步骤3.定义网格搜索的参数列表，包括卷积核大小，步长，深度这三个参数的取值范围，卷积核的参数列表为{1*5，2*2，3*3，4*5}，步长的参数列表为{1*1，2*2，3*3，4*4}，深度的参数列表为{16，32，64，128，256}

步骤4.把定义的参数用到卷积神经网络的模型中，GridSearchCV函数的第一个参数为定义的卷积神经网络模型，第二个参数为参数列表。

步骤5.输出最优的参数

用网格搜索的方法选取卷积神经网络的卷积层，池化层的卷积核大小，步长和深度，隐藏层卷积核大小的最佳参数。学习率设置为0.01,dropout设置为0.5。经过网格搜索后，选取的最佳参数为卷积核大小为1*5，步长为2*2，深度为64.

由于单个数据集的结论证明具有偶然性，因此在不同的数据集上，融合不同的模态，证明多模态有利于识别率的提高，在IEMOCAP数据库上，进行融合文本和语音两个模态的实验和仅使用语音信号的实验进行对比，仅使用语音信号特征识别准确率78.23％，融合文本和语音两种模态后，识别率提高到了83.45％。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种融合多模态的语音情感识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的融合多模态的语音情感识别方法，其特征在于，所述步骤S1包括如下步骤：

3.根据权利要求1所述的融合多模态的语音情感识别方法，其特征在于，所述步骤S2包括如下步骤：

4.根据权利要求1所述的融合多模态的语音情感识别方法，其特征在于，步骤S3包括如下步骤

5.根据权利要求1所述的融合多模态的语音情感识别方法，其特征在于，在所述步骤S4中：第一分类信息中的概率分布为

所述第二分类信息中的概率分布为

6.根据权利要求1所述的融合多模态的语音情感识别方法，其特征在于，所述第一分类模型包括第一语言模型和第二语音模型；

7.根据权利要求4所述的融合多模态的语音情感识别方法，其特征在于，在所述第二分类模型中，所述BERT模型，用于对文本信息进行向量化的表示生成向量化信息；

8.根据权利要求1所述的融合多模态的语音情感识别方法，其特征在于，所述语言情感特征值包括基于谱的相关特征，语谱图，韵律学特征以及音质特征。

9.根据权利要求2所述的融合多模态的语音情感识别方法，其特征在于，在步骤S102选取Fisher值最大的特征生成所述语音情感特征值。

10.一种融合多模态的语音情感识别***，其特征在于，包括如下模块：