CN112949708B

CN112949708B - 情绪识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112949708B
Application number: CN202110218668.3A
Authority: CN
Inventors: 顾艳梅; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-10-24
Anticipated expiration: 2041-02-26
Also published as: WO2022178942A1; CN112949708A

Abstract

本申请涉及人工智能领域，实现消除不同说话人对情绪识别的影响，提高情绪识别的准确性。涉及一种情绪识别方法、装置、设备和介质，该方法包括：调用待训练的情绪识别模型，将情绪特征信息与说话人特征信息输入特征生成器进行特征生成，得到情绪特征向量组与说话人特征向量组；将说话人特征向量组与说话人类别标签输入说话人分类模型进行训练，获取说话人分类模型对应的预测特征向量；将预测特征向量反向传播至特征生成器进行特征生成，将消除说话人特征的情绪特征向量组与情绪类别标签输入情绪分类模型进行训练；获取待识别的语音信号输入训练后的情绪识别模型得到情绪识别结果。此外，本申请还涉及区块链技术，情绪识别模型可存储于区块链中。

Description

情绪识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种情绪识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的快速发展，人机交互技术受到人们的高度重视。在人机交互过程中，需要对不同用户、不同任务、不同场景给予不同的情感反馈和支持，并对人的情感做出友好、灵敏以及智能的反应。因此需要训练计算机进行情绪识别，以使计算机学习人类的理解、察觉和反馈情感特征的能力。

现有的情绪识别模型，一般通过对语音信号进行分析与识别，进而预测情绪类别。但是在实际场景中，人类表达的情感状态常常受到文化、国家、人群等多种因素，现有的情绪识别模型并不能有效地规避这些因素的影响，从而情绪识别的准确度较低。

因此如何提高情绪识别模型的准确性成为亟需解决的问题。

发明内容

本申请提供了一种情绪识别方法、装置、计算机设备和存储介质，通过将说话人分类模型输出的预测特征向量反向传播至特征生成器生成消除说话人特征的情绪特征向量，并根据消除说话人特征的情绪特征向量对情绪分类模型进行训练，可以实现消除不同说话人对情绪分类模型的影响，提高了情绪识别的准确性。

第一方面，本申请提供了一种情绪识别方法，所述方法包括：

获取训练数据，所述训练数据包括情绪特征信息与标注的情绪类别标签、以及说话人特征信息与标注的说话人类别标签；

调用待训练的情绪识别模型，所述情绪识别模型包括特征生成器、情绪分类模型以及说话人分类模型；

将所述情绪特征信息与所述说话人特征信息输入所述特征生成器进行特征生成，得到对应的情绪特征向量组与说话人特征向量组；

将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛，并获取训练后的所述说话人分类模型对应的预测特征向量；

将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组；

将消除说话人特征的所述情绪特征向量组与标注的所述情绪类别标签输入所述情绪分类模型进行迭代训练，直至所述情绪分类模型收敛，获得训练后的情绪识别模型；

获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果。

第二方面，本申请还提供了一种情绪识别装置，所述装置包括：

训练数据获取模块，用于获取训练数据，所述训练数据包括情绪特征信息与标注的情绪类别标签、以及说话人特征信息与标注的说话人类别标签；

模型调用模块，用于调用待训练的情绪识别模型，所述情绪识别模型包括特征生成器、情绪分类模型以及说话人分类模型；

第一特征生成模块，用于将所述情绪特征信息与所述说话人特征信息输入所述特征生成器进行特征生成，得到对应的情绪特征向量组与说话人特征向量组；

第一训练模块，用于将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛，并获取训练后的所述说话人分类模型对应的预测特征向量；

第二特征生成模块，用于将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组；

第二训练模块，用于将消除说话人特征的所述情绪特征向量组与标注的所述情绪类别标签输入所述情绪分类模型进行迭代训练，直至所述情绪分类模型收敛，获得训练后的情绪识别模型；

情绪识别模块，用于获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的情绪识别方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的情绪识别方法。

本申请公开了一种情绪识别方法、装置、计算机设备和存储介质，通过获取训练数据，可以获得情绪特征信息与标注的情绪类别标签以及说话人特征信息与标注的说话人类别标签；通过调用待训练的情绪识别模型，可以分别对情绪识别模型中的情绪分类模型与说话人分类模型进行训练，得到训练后的情绪识别模型；通过将情绪特征信息与说话人特征信息输入特征生成器进行特征生成，可以得到对应的情绪特征向量组与说话人特征向量组；通过将说话人特征向量组与标注的说话人类别标签输入说话人分类模型进行迭代训练至收敛，可以通过训练后的说话人分类模型获取预测特征向量；通过将预测特征向量反向传播至特征生成器进行特征生成，可以统一说话人特征向量，进而得到消除说话人特征的情绪特征向量组；将消除说话人特征的情绪特征向量组与标注的情绪类别标签输入情绪分类模型进行迭代训练，可以得到消除不同说话人的影响的情绪识别模型；通过将待识别的语音信号输入训练后的情绪识别模型进行情绪识别，提高了情绪识别的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种情绪识别方法的示意性流程图；

图2是本申请实施例提供的一种获取训练数据的子步骤的示意性流程图；

图3是本申请实施例提供的一种情绪识别模型的结构示意图；

图4是本申请实施例提供的一种通过特征生成器生成特征的示意图；

图5是本申请实施例提供的一种对说话人分类模型进行训练的子步骤的示意性流程图；

图6是本申请实施例提供的一种获取消除说话人特征的情绪特征向量组的示意***互图；

图7是本申请实施例提供的一种获取消除说话人特征的情绪特征向量组的子步骤的示意性流程图；

图8是本申请实施例提供的一种调用情绪识别模型进行情绪识别的示意***互图；

图9是本申请实施例提供的一种情绪识别装置的示意性框图；

图10是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种情绪识别方法、装置、计算机设备和存储介质。其中，该情绪识别方法可以应用于服务器或终端中，实现通过将说话人分类模型输出的预测特征向量反向传播至特征生成器生成消除说话人特征的情绪特征向量，并根据消除说话人特征的情绪特征向量对情绪分类模型进行训练，可以实现消除不同说话人对情绪识别模型的影响，提高了情绪识别的准确性。

其中，服务器可以为独立的服务器，也可以为服务器集群。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，情绪识别方法包括步骤S101至步骤S106。

步骤S101、获取训练数据，所述训练数据包括情绪特征信息与标注的情绪类别标签、以及说话人特征信息与标注的说话人类别标签。

在本申请实施例中，通过获取训练数据，可以获得情绪特征信息与标注的情绪类别标签、以及说话人特征信息与标注的说话人类别标签；从而可以根据说话人特征信息与标注的说话人类别标签对说话人分类模型进行训练，并获取训练后的说话人分类模型对应的预测特征向量，进而可以根据预测特征向量生成消除说话人特征的情绪特征向量，并将消除说话人特征的情绪特征向量输入情绪分类模型中训练，实现消除不同说话人对情绪分类模型的影响，提高了情绪识别的准确性。

请参阅图2，图2是步骤S101中获取训练数据的子步骤的示意性流程图，具体可以包括以下步骤S1011至步骤S1014。

步骤S1011、获取预设数量的样本用户对应的样本语音信号，提取所述样本语音信号中的有用语音信号，其中，所述样本语音信号存储在区块链中。

示例性的，可以从区块链中获取预设数量的样本用户对应的样本语音信号。

其中，样本用户包括不同的说话人。例如，可以采集不同地域、不同文化或不同年龄段的测试者在不同情绪时的语音。从而得到的样本语音信号包括多个说话人对应的不同情绪类别的语音信号。

示例性的，情绪类别可以包括正面情绪和负面情绪。例如，正面情绪可以包括但不限于平静、乐观、开心等等；负面情绪可以包括但不限于抱怨、责备、辱骂以及投诉等等。

需要强调的是，为进一步保证上述样本语音信号的私密和安全性，上述样本语音信号还可以存储于一区块链的节点中。当然，样本语音信号还可以存储在本地数据库或外部存储设备中，具体不作限定。

需要说明的是，由于样本语音信号可能包括无用信号，为提高后续说话人类别与情绪类别的识别准确度，因此需要提取样本语音信号中的有用语音信号。其中，无用信号可以包括但不限于脚步声、静音、喇叭声以及机器噪声等等。

在本申请实施例中，可以基于语音活动端点检测模型，提取样本语音信号中的有用语音信号。需要说明的是，在语音信号处理中，语音活动端点检测(Voice ActivityDetection，VAD)用于检测是否存在语音，从而将信号中的语音段和非语音段分开。VAD可被用于回波消除、噪音抑制、语者识别和语音识别等。

在一些实施例中，基于语音活动端点检测模型，提取样本语音信号中的有用语音信号，可以包括：对样本语音信号进行切分，得到样本语音信号对应的至少一个分段语音信号；确定每个分段语音信号的短时能量；将短时能量大于预设的能量幅值对应的分段语音信号进行拼接，得到有用语音信号。

其中，预设的能量幅值可以根据实际情况设定，具体数值在此不作限定。

示例性的，在基于语音活动端点检测模型，提取样本语音信号中的有用语音信号时，除了短时能量，还可以选用样本语音信号的频谱能量、过零率等特征进行判断，具体过程在此不作限定。

通过提取样本语音信号中的有用语音信号，可以提高后续说话人类别与情绪类别的识别准确度。

步骤S1012、对所述有用语音信号进行特征提取，得到对应的特征信息，所述特征信息包括情绪特征信息与说话人特征信息。

需要说明的是，在本发明实施例中，情绪特征信息可以包括但不限于能量、基频、语速、频谱以及共振峰频率等等；说话人特征信息可以包括声纹特征。

在一些实施例中，可以对有用语音信号进行预加重处理、分帧以及加窗，得到有用语音信号对应的窗口数据；计算窗口数据的特征参数，特征参数至少包括能量、基频、语速、频谱、共振峰频率中的一种，将特征参数确定为情绪特征信息。

示例性的，可以通过加窗函数，如矩形窗、海宁窗或汉明窗来实现对分帧后的各帧信号进行加窗处理。

可以理解的是，通过对有用语音信号进行预加重处理预加重处理、分帧以及加窗，可以提升高频分量与减少频域中的泄漏，从而达到提高后续特征提取的效果。

示例性的，可以根据能量、基频、语速、频谱、共振峰频率各自对应的计算公式计算出能量、基频、语速、频谱、共振峰频率。具体的计算过程在此不作限定。

在一些实施例中，可以计算窗口数据的梅尔频谱数据，将梅尔频谱数据确定为说话人特征信息。

示例性的，计算窗口数据的梅尔频谱数据的过程：对窗口数据进行快速傅里叶变换处理和取平方处理，得到窗口数据对应的谱线能量；基于梅尔滤波器组对谱线能量进行处理，以得到窗口数据对应的梅尔频谱数据。其中，窗口数据可以包括多个，从而可以得到各窗口数据对应的梅尔频谱数据。

步骤S1013、根据所述样本用户的身份信息与情绪信息对所述特征信息进行标注，获得标注的所述说话人类别标签与标注的所述情绪类别标签。

示例性的，对于样本用户1，若样本用户1的身份信息为A，情绪信息为正面，则可以对样本用户1的特征信息进行标注；例如，对样本用户1的情绪特征信息标注“正面”，对说话人特征信息标注“A”，从而得到样本用户1标注的说话人类别标签与标注的情绪类别标签。

示例性的，对于样本用户2，若样本用户2的身份信息为B，情绪信息为负面，则可以对样本用户2的特征信息进行标注；例如，对样本用户2的情绪特征信息标注“负面”，对说话人特征信息标注“B”，从而得到样本用户2标注的说话人类别标签与标注的情绪类别标签。

步骤S1014、将所述情绪特征信息、说话人特征信息、标注的所述情绪类别标签以及标注的所述说话人类别标签，确定为所述训练数据。

示例性的，将情绪特征信息、说话人特征信息、标注的情绪类别标签以及标注的说话人类别标签，作为训练数据。其中，训练数据包括多个样本用户对应的数据集合。

例如，训练数据可以包括样本用户1的数据集合，该数据集合包括情绪特征信息、说话人特征信息、标注的情绪类别标签“正面”以及标注的说话人类别标签“A”。训练数据还可以包括样本用户2的数据集合，包括情绪特征信息、说话人特征信息、标注的情绪类别标签“负面”以及标注的说话人类别标签“B”。

步骤S102、调用待训练的情绪识别模型，所述情绪识别模型包括特征生成器、情绪分类模型以及说话人分类模型。

需要说明的是，情绪识别模型可以包括生成式对抗网络(GenerativeAdversarial Network，GAN)。其中，生成式对抗网络主要包括特征生成器和特征判别器；特征生成器用于将输入的数据生成文字、图像、视频等数据。特征判别器相当于分类器，用于判断输入的数据的真假。

请参阅图3，图3是本申请实施例提供的一种情绪识别模型的结构示意图。如图3所示，在本申请实施例中，情绪识别模型包括特征生成器、情绪分类模型以及说话人分类模型。其中，情绪分类模型与说话人分类模型都是特征判别器。

示例性的，特征生成器可以采用MLP(Multi Layer Perceptron，多层感知机)网络、深度神经网络来表示生成函数。情绪分类模型与说话人分类模型可以包括但不限于卷积神经网络、受限玻尔兹曼机或循环神经网络等等。

通过调用待训练的情绪识别模型，可以通过特征生成器生成训练所需的特征向量，进而可以根据特征向量对说话人分类模型与情绪分类模型进行训练至收敛。

步骤S103、将所述情绪特征信息与所述说话人特征信息输入所述特征生成器进行特征生成，得到对应的情绪特征向量组与说话人特征向量组。

请参阅图4，图4是本申请实施例提供的一种通过特征生成器生成特征的示意图。如图4所示，将情绪特征信息与说话人特征信息输入特征生成器，由特征生成器根据情绪特征信息生成情绪特征向量组，以及根据说话人特征信息生成说话人特征向量组。其中，情绪特征向量组包括至少一个情绪特征向量；说话人特征向量组包括至少一个说话人特征向量。

示例性的，特征生成器可以通过生成函数，根据特征信息生成对应的特征向量。例如，可以通过深度神经网络，根据特征信息生成对应的特征向量。具体的特征生成过程，在此不作限定。

通过将情绪特征信息与说话人特征信息输入特征生成器进行特征生成，可以得到对应的情绪特征向量组与说话人特征向量组，后续可以将说话人特征向量组输入说话人分类模型进行训练。

步骤S104、将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛，并获取训练后的所述说话人分类模型对应的预测特征向量。

请参阅图5，图5是本申请实施例提供的一种对说话人分类模型进行训练的子步骤的示意性流程图，具体可以包括以下步骤S1041至步骤S1044。

步骤S1041、将所述说话人特征向量组中的其中一说话人特征向量与所述说话人特征向量对应的说话人类别标签，确定每一轮训练的训练样本数据。

示例性的，可以在说话人特征向量组中的依次选取其中一说话人特征向量与该说话人特征向量对应的说话人类别标签，确定为每一轮训练的训练样本数据。

步骤S1042、将当前轮训练样本数据输入所述说话人分类模型中进行说话人分类训练，得到所述当前轮训练样本数据对应的说话人分类预测结果。

示例性的，说话人分类预测结果可以包括说话人预测类别与说话人预测类别对应的预测概率。

步骤S1043、根据所述当前轮训练样本数据对应的说话人类别标签与所述说话人分类预测结果，确定当前轮对应损失函数值。

示例性的，可以基于预设的损失函数，根据当前轮训练样本数据对应的说话人类别标签与说话人分类预测结果，确定当前轮对应损失函数值。

示例性的，可以采用0-1损失函数、绝对值损失函数、对数损失函数、交叉熵损失函数、平方损失函数或指数损失函数等损失函数来计算损失函数值。

步骤S1044、若所述损失函数值大于预设的损失值阈值，则调整所述说话人分类模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于所述损失值阈值，结束训练，得到训练后的所述说话人分类模型。

示例性的，预设的损失值阈值可以根据实际情况进行设定，具体数值在此不作限定。

示例性的，可以采用梯度下降算法、牛顿算法、共轭梯度法或柯西-牛顿法等收敛算法来调整说话人分类模型的参数。在调整说话人分类模型的参数之后，将下一轮训练样本数据输入说话人分类模型中进行说话人分类训练，并确定对应损失函数值，直至得到的损失函数值小于或等于损失值阈值，结束训练，得到训练后的说话人分类模型。

通过根据预设的损失函数和收敛算法对说话人分类模型进行参数更新，可以使得说话人分类模型快速收敛，进而提高了说话人分类模型的训练效率和准确度。

通过将说话人特征向量组与说话人类别标签输入说话人分类模型进行迭代训练至收敛，使得说话人分类模型学习说话人特征，后续可以将学习的说话人特征反向传播至特征生成器，以生成消除说话人特征的情绪特征向量。

在一些实施例中，获取训练后的说话人分类模型对应的预测特征向量，可以包括：将每一轮训练的训练样本数据输入训练后的说话人分类模型中进行说话人分类预测，并获取说话人分类模型的全连接层输出的特征向量；将获取的全部特征向量的均值，确定为预测特征向量。

其中，说话人分类模型至少包括全连接层。示例性的，说话人分类模型可以是卷积神经网络模型，包括卷积层、池化层、全连接层以及归一化层等等。

在本申请实施例中，可以获取说话人分类模型的全连接层输出的特征向量。示例性的，每一轮训练的训练样本数据对应输出一个特征向量，因此可以获得多个特征向量。

在一些实施方式中，可以将获取的全部特征向量的均值，确定为预测特征向量。可以理解的是，预测特征向量可以理解为训练后的说话人分类模型学的说话人特征。

通过将每一轮训练的训练样本数据输入训练后的说话人分类模型中进行说话人分类预测，并获取说话人分类模型的全连接层输出的特征向量，从而可以得到说话人分类模型学习说话人特征的预测特征向量。

步骤S105、将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组。

请参阅图6，图6是本申请实施例提供的一种获取消除说话人特征的情绪特征向量组的示意***互图。如图6所示，将预测特征向量反向传播至特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组；然后将消除说话人特征的情绪特征向量组发送至情绪分类模型中进行训练。

请参阅图7，图7是步骤S105的子步骤的示意性流程图，具体步骤S105可以包括以下步骤S1051与步骤S1052。

步骤S1051、根据所述预测特征向量调节所述特征生成器中的所述说话人特征向量组，获得调节后的所述说话人特征向量组，其中，调节后的所述说话人特征向量组中的每个说话人特征向量相同。

示例性的，说话人特征向量可以用第一分布函数来表示，说话人特征向量组包括至少一个第一分布函数。可以理解的是，由于说话人特征向量包括多个样本用户的说话人特征信息，因此说话人特征向量组对应有多个不同的第一分布函数。

示例性的，第一分布函数可以是正态分布函数，可以表示为：

式中，μ表示均值；σ²表示方差。

在一些实施例中，根据预测特征向量调节特征生成器中的说话人特征向量组，获得调节后的说话人特征向量组，可以包括：确定预测特征向量对应的第二分布函数，并获取第二分布函数的均值与方差；根据均值与方差，对每个第一分布函数中的均值与方差进行更新，得到更新后的第一分布函数。

示例性的，预测特征向量对应的第二分布函数，可以表示为：

示例性的，可以根据第二分布函数F(x)中的均值μ与方差σ²，对每个第一分布函数f(x)中的均值μ与方差σ²进行更新，得到更新后的每个第一分布函数为f′(x)。

可以理解的是，更新后的每个第一分布函数为f′(x)的均值都相同且方差也都相同，即调节后的说话人特征向量组中的每个说话人特征向量相同。

步骤S1052、基于调节后的所述说话人特征向量组，通过所述生成函数生成消除说话人特征的所述情绪特征向量组。

示例性的，在获得调节后的说话人特征向量组之后，可以基于调节后的说话人特征向量组，通过特征生成器中的生成函数生成消除说话人特征的情绪特征向量组。

可以理解的是，生成函数输出的是说话人特征向量组与说话人特征向量组，其中，说话人特征向量组中的每个说话人特征向量相同，因而说话人特征向量不会对情绪特征向量造成影响，即得到的情绪特征向量组是消除说话人特征的情绪特征向量。

通过基于调节后的说话人特征向量组，生成消除说话人特征的情绪特征向量组，从而在根据消除说话人特征的情绪特征向量组对情绪分类模型进行训练时，可以消除不同的说话人特征对情绪分类模型的影响。

步骤S106、将消除说话人特征的所述情绪特征向量组与标注的所述情绪类别标签输入所述情绪分类模型进行迭代训练，直至所述情绪分类模型收敛，获得训练后的情绪识别模型。

需要说明的是，在现有技术的情绪识别模型的训练过程中，一般是将情绪特征信息与说话人特征信息输入特征生成器，由特征生成器生成情绪特征向量组与说话人特征向量组；然后将情绪特征向量组与说话人特征向量组输入特征判别器进行情绪分类训练，得到训练好的特征判别器。因此，现有技术的情绪识别模型无法消除不同说话人对情绪识别的影响。

示例性的，将消除说话人特征的情绪特征向量组与标注的情绪类别标签输入情绪分类模型进行迭代训练，直至情绪分类模型收敛。

其中，训练过程可以包括：根据消除说话人特征的情绪特征向量组与情绪类别标签，确定每一轮训练的训练样本数据；将当前轮训练样本数据输入情绪分类模型中进行情绪分类训练，得到当前轮训练样本数据对应的情绪分类预测结果；根据当前轮训练样本数据对应的情绪类别标签与情绪分类预测结果，确定损失函数值；若损失函数值大于预设的损失值阈值，则调整情绪分类模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于损失值阈值，结束训练，得到训练后的情绪分类模型。

示例性的，可以采用0-1损失函数、绝对值损失函数、对数损失函数、交叉熵损失函数、平方损失函数或指数损失函数等损失函数来计算损失函数值。可以采用梯度下降算法、牛顿算法、共轭梯度法或柯西-牛顿法等收敛算法来调整说话人分类模型的参数。

需要说明的是，由于情绪识别模型包括情绪分类模型以及说话人分类模型，当情绪分类模型收敛时，表示情绪识别模型也收敛，得到训练后的情绪识别模型。训练后的情绪识别模型不受说话人特征的影响。

在一些实施例中，为进一步保证上述训练后的情绪识别模型的私密和安全性，上述训练后的情绪识别模型还可以存储于一区块链的节点中。当需要使用训练后的情绪识别模型时，可以从区块链的节点中获取。

通过将消除说话人特征的情绪特征向量组与标注的情绪类别标签输入情绪分类模型进行迭代训练，可以得到不受说话人特征影响的情绪识别模型，从而提高了情绪识别的准确性。

步骤S107、获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果。

需要说明的是，在本申请实施例中，待识别的语音数据可以是预先采集并存储在数据库的语音信号，也可以是根据实时采集的语音信号生成的。

示例性的，在人机交互场景中，可以通过语音采集装置采集用户在机器人终端输入的语音信号，然后对语音信号进行降噪处理，将降噪处理后的语音信号确定为待识别的语音信号。

其中，语音采集装置可以包括录音机、录音笔以及麦克风等采集语音的电子设备。

可以根据谱相减算法、维纳滤波算法、最小均分误差算法、小波变换算法实现对语音信号进行降噪处理。

通过对语音信号进行降噪处理，可以提高后续识别语音信号对应的情绪类别的准确度。

在一些实施例中，将语音信号输入训练后的情绪识别模型得到语音信号对应的情绪识别结果之前，还可以包括：提取语音信号中的有用语音信号，并对有用语音信号进行特征提取，得到语音信号对应的情绪特征信息与说话人特征信息。

示例性的，可以基于语音活动端点检测模型，提取语音信号中的有用语音信号。具体的提取有用语音信号过程，可以参见上述实施例的详细说明，具体过程在此不再赘述。

通过提取语音信号中的有用语音信号，可以提高后续识别情绪类别的准确度。

在一些实施例中，对有用语音信号进行特征提取，得到语音信号对应的情绪特征信息与说话人特征信息，可以包括：对有用语音信号进行预加重处理、分帧以及加窗，得到有用语音信号对应的窗口数据；计算窗口数据的特征参数，特征参数至少包括能量、基频、语速、频谱、共振峰频率中的一种，将特征参数确定为情绪特征信息；计算窗口数据的梅尔频谱数据，将梅尔频谱数据确定为说话人特征信息。

其中，特征提取的具体过程，可以参见上述实施例的详细说明，具体过程在此不再赘述。

通过对有用语音信号进行预加重处理预加重处理、分帧以及加窗，可以提升高频分量与减少频域中的泄漏，从而达到提高后续特征提取的效果。

在一些实施例中，将语音信号输入训练后的情绪识别模型得到语音信号对应的情绪识别结果，可以包括：将情绪特征信息与说话人特征信息输入情绪识别模型进行情绪识别，得到语音信号对应的情绪识别结果。

需要说明的是，情绪识别模型为预先训练好的模型，可以存储在区块链中，也可以存储在本地数据库中。

请参阅图8，图8是本申请实施例提供的一种调用情绪识别模型进行情绪识别的示意***互图。如图8所示，可以从区块链中调用训练好的情绪识别模型，将情绪特征信息与说话人特征信息输入情绪识别模型进行情绪识别，得到语音信号对应的情绪识别结果。

示例性的，情绪识别结果可以包括情绪预测类别与情绪预测类别对应的预测概率。其中，情绪预测类别可以是正面或负面。例如，情绪识别结果为“正面，90％”。

通过将情绪特征信息与说话人特征信息输入预先训练好的情绪识别模型中预测，可以消除不同说话人特征对情绪识别的影响，提高了情绪识别的准确性。

上述实施例提供的情绪识别方法，通过提取样本语音信号中的有用语音信号，可以提高后续说话人类别与情绪类别的识别准确度；通过对有用语音信号进行预加重处理预加重处理、分帧以及加窗，可以提升高频分量与减少频域中的泄漏，从而达到提高后续特征提取的效果；通过调用待训练的情绪识别模型，可以通过特征生成器生成训练所需的特征向量，进而可以根据特征向量对说话人分类模型与情绪分类模型进行训练至收敛；通过将情绪特征信息与说话人特征信息输入特征生成器进行特征生成，可以得到对应的情绪特征向量组与说话人特征向量组，后续可以将说话人特征向量组输入说话人分类模型进行训练；通过根据预设的损失函数和收敛算法对说话人分类模型进行参数更新，可以使得说话人分类模型快速收敛，进而提高了说话人分类模型的训练效率和准确度；通过将说话人特征向量组与说话人类别标签输入说话人分类模型进行迭代训练至收敛，使得说话人分类模型学习说话人特征，后续可以将学习的说话人特征反向传播至特征生成器，以生成消除说话人特征的情绪特征向量；通过将每一轮训练的训练样本数据输入训练后的说话人分类模型中进行说话人分类预测，并获取说话人分类模型的全连接层输出的特征向量，从而可以得到说话人分类模型学习说话人特征的预测特征向量；通过基于调节后的说话人特征向量组，生成消除说话人特征的情绪特征向量组，从而在根据消除说话人特征的情绪特征向量组对情绪分类模型进行训练时，可以消除不同的说话人特征对情绪分类模型的影响；通过将消除说话人特征的情绪特征向量组与标注的情绪类别标签输入情绪分类模型进行迭代训练，可以得到不受说话人特征影响的情绪识别模型；通过将情绪特征信息与说话人特征信息输入预先训练好的情绪识别模型中预测，可以消除不同说话人特征对情绪识别的影响，提高了情绪识别的准确性。

请参阅图9，图9是本申请的实施例还提供一种情绪识别装置1000的示意性框图，该情绪识别装置用于执行前述的情绪识别方法。其中，该情绪识别装置可以配置于服务器或终端中。

如图9所示，该情绪识别装置1000，包括：训练数据获取模块1001、模型调用模块1002、第一特征生成模块1003、第一训练模块1004、第二特征生成模块1005、第二训练模块1006和情绪识别模块1007。

训练数据获取模块1001，用于获取训练数据，所述训练数据包括情绪特征信息与标注的情绪类别标签、以及说话人特征信息与标注的说话人类别标签。

模型调用模块1002，用于调用待训练的情绪识别模型，所述情绪识别模型包括特征生成器、情绪分类模型以及说话人分类模型。

第一特征生成模块1003，用于将所述情绪特征信息与所述说话人特征信息输入所述特征生成器进行特征生成，得到对应的情绪特征向量组与说话人特征向量组。

第一训练模块1004，用于将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛，并获取训练后的所述说话人分类模型对应的预测特征向量。

第二特征生成模块1005，用于将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组。

第二训练模块1006，用于将消除说话人特征的所述情绪特征向量组与标注的所述情绪类别标签输入所述情绪分类模型进行迭代训练，直至所述情绪分类模型收敛，获得训练后的情绪识别模型。

情绪识别模块1007，用于获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

请参阅图10，该计算机设备包括通过***总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种情绪识别方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取训练数据，所述训练数据包括情绪特征信息与标注的情绪类别标签、以及说话人特征信息与标注的说话人类别标签；调用待训练的情绪识别模型，所述情绪识别模型包括特征生成器、情绪分类模型以及说话人分类模型；将所述情绪特征信息与所述说话人特征信息输入所述特征生成器进行特征生成，得到对应的情绪特征向量组与说话人特征向量组；将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛，并获取训练后的所述说话人分类模型对应的预测特征向量；将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组；将消除说话人特征的所述情绪特征向量组与标注的所述情绪类别标签输入所述情绪分类模型进行迭代训练，直至所述情绪分类模型收敛，获得训练后的情绪识别模型；获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果。

在一个实施例中，所述说话人特征向量组包括至少一个说话人特征向量；所述处理器在实现将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛时，用于实现：

将所述说话人特征向量组中的其中一说话人特征向量与所述说话人特征向量对应的说话人类别标签，确定每一轮训练的训练样本数据；将当前轮训练样本数据输入所述说话人分类模型中进行说话人分类训练，得到所述当前轮训练样本数据对应的说话人分类预测结果；根据所述当前轮训练样本数据对应的说话人类别标签与所述说话人分类预测结果，确定当前轮对应损失函数值；若所述损失函数值大于预设的损失值阈值，则调整所述说话人分类模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于所述损失值阈值，结束训练，得到训练后的所述说话人分类模型。

在一个实施例中，所述说话人分类模型至少包括全连接层；所述处理器在实现获取训练后的所述说话人分类模型对应的预测特征向量时，用于实现：

将每一轮训练的所述训练样本数据输入训练后的所述说话人分类模型中进行说话人分类预测，并获取所述说话人分类模型的全连接层输出的特征向量；将获取的全部所述特征向量的均值，确定为所述预测特征向量。

在一个实施例中，所述特征生成器包括生成函数；所述处理器在实现将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组时，用于实现：

根据所述预测特征向量调节所述特征生成器中的所述说话人特征向量组，获得调节后的所述说话人特征向量组，其中，调节后的所述说话人特征向量组中的每个说话人特征向量相同；基于调节后的所述说话人特征向量组，通过所述生成函数生成消除说话人特征的所述情绪特征向量组。

在一个实施例中，所述说话人特征向量组包括至少一个第一分布函数；所述处理器在实现根据所述预测特征向量调节所述特征生成器中的所述说话人特征向量组，获得调节后的所述说话人特征向量组时，用于实现：

确定所述预测特征向量对应的第二分布函数，并获取所述第二分布函数的均值与方差；根据所述均值与所述方差，对每个所述第一分布函数中的均值与方差进行更新，得到更新后的所述第一分布函数。

在一个实施例中，所述处理器在实现将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果之前，还用于实现：

提取所述语音信号中的有用语音信号，并对所述有用语音信号进行特征提取，得到所述语音信号对应的情绪特征信息与说话人特征信息。

在一个实施例中，所述处理器在实现将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果，用于实现：

将所述情绪特征信息与所述说话人特征信息输入所述情绪识别模型进行情绪识别，得到所述语音信号对应的所述情绪识别结果。

在一个实施例中，所述处理器在实现获取训练数据时，用于实现：

获取预设数量的样本用户对应的样本语音信号，提取所述样本语音信号中的有用语音信号，其中，所述样本语音信号存储在区块链中；对所述有用语音信号进行特征提取，得到对应的特征信息，所述特征信息包括情绪特征信息与说话人特征信息；根据所述样本用户的身份信息与情绪信息对所述特征信息进行标注，获得标注的所述说话人类别标签与标注的所述情绪类别标签；将所述情绪特征信息、说话人特征信息、标注的所述情绪类别标签以及标注的所述说话人类别标签，确定为所述训练数据。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项情绪识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种情绪识别方法，其特征在于，包括：

获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果；

所述特征生成器包括生成函数；所述将所述预测特征向量反向传播至所述特征生成器进行特征生成，得到消除说话人特征的情绪特征向量组，包括：根据所述预测特征向量调节所述特征生成器中的所述说话人特征向量组，获得调节后的所述说话人特征向量组，其中，调节后的所述说话人特征向量组中的每个说话人特征向量相同；基于调节后的所述说话人特征向量组，通过所述生成函数生成消除说话人特征的所述情绪特征向量组；

所述说话人特征向量组包括至少一个第一分布函数；所述根据所述预测特征向量调节所述特征生成器中的所述说话人特征向量组，获得调节后的所述说话人特征向量组，包括：确定所述预测特征向量对应的第二分布函数，并获取所述第二分布函数的均值与方差；根据所述均值与所述方差，对每个所述第一分布函数中的均值与方差进行更新，得到更新后的所述第一分布函数。

2.根据权利要求1所述的情绪识别方法，其特征在于，所述说话人特征向量组包括至少一个说话人特征向量；所述将所述说话人特征向量组与标注的所述说话人类别标签输入所述说话人分类模型进行迭代训练至收敛，包括：

将所述说话人特征向量组中的其中一说话人特征向量与所述说话人特征向量对应的说话人类别标签，确定每一轮训练的训练样本数据；

将当前轮训练样本数据输入所述说话人分类模型中进行说话人分类训练，得到所述当前轮训练样本数据对应的说话人分类预测结果；

根据所述当前轮训练样本数据对应的说话人类别标签与所述说话人分类预测结果，确定当前轮对应损失函数值；

若所述损失函数值大于预设的损失值阈值，则调整所述说话人分类模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于所述损失值阈值，结束训练，得到训练后的所述说话人分类模型。

3.根据权利要求2所述的情绪识别方法，其特征在于，所述说话人分类模型至少包括全连接层；所述获取训练后的所述说话人分类模型对应的预测特征向量，包括：

将每一轮训练的所述训练样本数据输入训练后的所述说话人分类模型中进行说话人分类预测，并获取所述说话人分类模型的全连接层输出的特征向量；

将获取的全部所述特征向量的均值，确定为所述预测特征向量。

4.根据权利要求1所述的情绪识别方法，其特征在于，所述将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果之前，还包括：

提取所述语音信号中的有用语音信号，并对所述有用语音信号进行特征提取，得到所述语音信号对应的情绪特征信息与说话人特征信息；

所述将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果，包括：

5.根据权利要求1-4任一项所述的情绪识别方法，其特征在于，所述获取训练数据，包括：

获取预设数量的样本用户对应的样本语音信号，提取所述样本语音信号中的有用语音信号，其中，所述样本语音信号存储在区块链中；

对所述有用语音信号进行特征提取，得到对应的特征信息，所述特征信息包括情绪特征信息与说话人特征信息；

根据所述样本用户的身份信息与情绪信息对所述特征信息进行标注，获得标注的所述说话人类别标签与标注的所述情绪类别标签；

将所述情绪特征信息、说话人特征信息、标注的所述情绪类别标签以及标注的所述说话人类别标签，确定为所述训练数据。

6.一种情绪识别装置，其特征在于，包括：

情绪识别模块，用于获取待识别的语音信号，将所述语音信号输入所述训练后的情绪识别模型得到所述语音信号对应的情绪识别结果；

所述特征生成器包括生成函数；所述第二特征生成模块，还用于根据所述预测特征向量调节所述特征生成器中的所述说话人特征向量组，获得调节后的所述说话人特征向量组，其中，调节后的所述说话人特征向量组中的每个说话人特征向量相同；基于调节后的所述说话人特征向量组，通过所述生成函数生成消除说话人特征的所述情绪特征向量组；

所述说话人特征向量组包括至少一个第一分布函数；所述第二特征生成模块，还用于确定所述预测特征向量对应的第二分布函数，并获取所述第二分布函数的均值与方差；根据所述均值与所述方差，对每个所述第一分布函数中的均值与方差进行更新，得到更新后的所述第一分布函数。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现：

如权利要求1至5任一项所述的情绪识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现：

如权利要求1至5任一项所述的情绪识别方法。