CN117316189A

CN117316189A - 一种基于语音情感识别的业务执行方法及装置

Info

Publication number: CN117316189A
Application number: CN202311332476.0A
Authority: CN
Inventors: 李太豪; 黄宇鑫; 屈乐园
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-12-29

Abstract

本说明书提供的一种基于语音情感识别的业务执行方法及装置，将获取到的样本音频数据输入到过渡模型中包含的情感提取层、语义提取层以及声纹提取层，以从样本音频数据中相应地提取出情感特征、语义特征及声纹特征。将情感特征、语义特征和声纹特征输入过渡模型的编码层，得到编码特征。将该编码特征输入到过渡模型的解码层，得到预测频谱特征。以最小化预测频谱特征与样本音频数据的频谱特征标签之间的偏差为优化目标，至少对过渡模型中包含的情感提取层进行训练。通过训练后的过渡模型中的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，以通过该语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

Description

一种基于语音情感识别的业务执行方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种基于语音情感识别的业务执行方法及装置。

背景技术

近年来，人机交互行业发展迅速，为了实现更受用户喜爱的有情感共鸣的人机交互方式，目前可以通过语音情感识别技术来识别用户的语音中包含的情感。

但是，现有的语音情感识别技术对用户的语音中包含的情感进行识别的准确性较低，以使基于语音情感识别的诸多业务在执行效率和准确率上较低。

发明内容

本说明书提供一种基于语音情感识别的业务执行方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种基于语音情感识别的业务执行方法，包括：

获取样本音频数据；

将所述样本音频数据输入到预设的过渡模型中，以通过所述过渡模型中包含的情感提取层，从所述样本音频数据中提取出情感特征，通过所述过渡模型中包含的语义提取层，从所述样本音频数据中提取出语义特征，以及通过所述过渡模型中包含的声纹提取层，从所述样本音频数据中提取出声纹特征；

将所述情感特征、所述语义特征、所述声纹特征输入到所述过渡模型中的编码层中，以得到编码特征，并将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征；

以最小化所述预测频谱特征与所述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练；

通过训练后的所述过渡模型中包含的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，以通过所述语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

可选地，通过所述语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务，具体包括：

将所述样本音频数据输入到所述语音情感识别模型中，以使所述语音情感识别模型输出针对所述样本音频数据的情感类型识别结果；

以最小化所述情感类型识别结果与所述样本音频数据对应的实际情感标签之间的偏差为优化目标，对所述语音情感识别模型进行训练，训练后的语音情感识别模型用于对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

可选地，通过所述过渡模型中包含的语义提取层，从所述样本音频数据中提取出语义特征，具体包括：

将所述样本音频数据输入到预设的过渡模型中的语义提取层，以通过所述语义提取层，从所述样本音频数据中确定出各语义单元，并根据所述各语义单元对应的编号以及各语义单元在所述样本音频数据中的语义顺序，确定出所述样本音频数据的语义特征。

可选地，所述样本音频数据中包含带用户标签的样本音频数据，所述过渡模型中包含预设的用户类别分类器；

在以最小化所述预测频谱特征与所述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练之前，所述方法还包括：

将所述情感特征输入到所述用户类别分类器中，以得到所述带用户标签的样本音频数据对应的预测用户标签；

以最小化所述预测频谱特征与所述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练，具体包括：

以最小化所述预测频谱特征与所述带用户标签的样本音频数据对应的频谱特征标签之间的偏差，以及以最大化所述预测用户标签与所述带用户标签的样本音频数据对应的实际用户标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练。

可选地，将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征，具体包括：

将所述编码特征输入到所述过渡模型中的解码层中，输出所述样本音频数据所对应的预测频谱特征及预测终止概率；

判断所述预测终止概率是否超过预设概率阈值；

若否，则将所述编码特征以及输出的预测频谱特征输入到所述过渡模型中的解码层中，以重新输出所述样本音频数据对应的预测频谱特征以及预测终止概率，直至输出的预测终止概率超过所述预设概率阈值为止，并将所述过渡模型输出超过所述预设概率阈值的预测终止概率时所输出的预测频谱特征，作为得到的所述样本音频数据所对应的预测频谱特征。

本说明书提供了一种基于语音情感识别的业务执行装置，包括：

获取模块：用于获取样本音频数据；

提取模块：用于将所述样本音频数据输入到预设的过渡模型中，以通过所述过渡模型中包含的情感提取层，从所述样本音频数据中提取出情感特征，通过所述过渡模型中包含的语义提取层，从所述样本音频数据中提取出语义特征，以及通过所述过渡模型中包含的声纹提取层，从所述样本音频数据中提取出声纹特征；

预测模块：用于将所述情感特征、所述语义特征、所述声纹特征输入到所述过渡模型中的编码层中，以得到编码特征，并将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征；

训练模块：用于以最小化所述预测频谱特征与所述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练；

构建模块：用于通过训练后的所述过渡模型中包含的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，以通过所述语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

可选地，所述构建模块具体用于：

可选地，所述提取模块具体用于：

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于语音情感识别的业务执行的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于语音情感识别的业务执行的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本说明书提供的基于语音情感识别的业务执行方法，首先获取样本音频数据，并将该样本音频数据输入到预设的过渡模型中。通过该过渡模型中包含的情感提取层，从样本音频数据中提取出情感特征，通过该过渡模型中包含的语义提取层，从样本音频数据中提取出语义特征，以及通过该过渡模型中包含的声纹提取层，从样本音频数据中提取出声纹特征。将情感特征、语义特征和声纹特征输入到过渡模型的编码层，得到编码特征。将该编码特征输入到过渡模型中的解码层，得到样本音频数据对应的预测频谱特征。以最小化该预测频谱特征与上述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对过渡模型中包含的情感提取层进行训练。通过训练后的过渡模型中包含的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，以通过该语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

从上述方法中可以看出，在构建语音情感识别模型过程中，所使用的训练后的过渡模型中的情感提取层是在该过渡模型中的语义提取层、声纹提取层的基础上完成训练所得到的。因此，通过这种方式所得到的情感提取层对情感特征提取的准确性较高，从而大大提高了情感提取层与预设的情感类型分类器所构建的语音情感识别模型对用户语音中包含的情感进行识别的准确性，进而提高了基于语音情感识别模型的诸多业务的执行效率和准确率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种基于语音情感识别的业务执行方法的流程示意图；

图2为本说明书提供的一种语音情感识别模型的示意图；

图3为本说明书提供的一种语音情感识别模型的示意图；

图4为本说明书提供的一种语音情感识别流程的示意图；

图5为本说明书提供的一种基于语音情感识别的业务执行装置的示意图；

图6为本说明书提供的一种对应于图1的电子设备的示意结构图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种基于语音情感识别的业务执行方法的流程示意图，包括以下步骤：

S101：获取样本音频数据。

本说明书中涉及的基于语音情感识别的业务执行方法的执行主体可以是诸如台式电脑、笔记本电脑等终端设备，也可以是安装在终端设备中的客户端，亦或是服务器。下面仅以终端设备是执行主体为例，对本说明书实施例中的基于语音情感识别的业务执行方法进行说明。

如今，在人机交互领域，可以通过语音情感识别技术对用户语音中的情感进行识别，进而实现更受用户喜爱的有情感共鸣的人机交互方式。但是，现有的语音情感识别技术对用户的语音中包含的情感进行识别的准确性较低，以使基于语音情感识别的诸多业务的执行效率和准确率较低。

为了解决上述问题，在本说明书具体实施中，终端设备首先获取样本音频数据，为了降低后续模型训练中的数据标注成本，样本音频数据中可以包含有大量无标签的样本音频数据和少量的带标签的样本音频数据。

其中，带标签的样本音频数据是指带有用户标签的样本音频数据，该用户标签用于表示样本音频数据由何人发出。带用户标签的样本音频数据可以通过多个非专业配音表演者进行录制来获得，上述无标签的样本音频数据则可以从开源的语音数据中获得。

S102：将所述样本音频数据输入到预设的过渡模型中，以通过所述过渡模型中包含的情感提取层，从所述样本音频数据中提取出情感特征，通过所述过渡模型中包含的语义提取层，从所述样本音频数据中提取出语义特征，以及通过所述过渡模型中包含的声纹提取层，从所述样本音频数据中提取出声纹特征。

在本说明书中，在获取样本音频数据之后，终端设备可以将上述样本音频数据输入到上述过渡模型中的情感提取层，以通过该情感提取层，从上述样本音频数据中提取出情感特征。其中，该情感特征用于表征用户语音中的包含情感。

而需注意的是，不同用户所发出的相同的语音所表达的情感可能会存在差异，即用户语音中包含的情感往往会和用户本人相关联。为了使上述情感提取层提取到的情感特征更加精准，可以将用户语音中的与用户本人相关联的因素去除掉，因此，上述过渡模型还可以包含预设的用户类别分类器。其中，该用户类别分类器中包含有梯度反转层。梯度反转层可以通过梯度反转操作来实现对不同的特征表示进行对抗训练，进而对模型训练进行反方向的引导。上述用户类别分类器中包含的梯度反转层主要为了防止情感提取层提取到除情感特征之外的特征，以使提取到的情感特征不会和用户本人进行强绑定。因此可以将上述情感提取层提取到的带有用户标签的样本音频数据的情感特征输入到上述用户类别分类器中，以得到该带有用户标签的样本音频数据的预测用户标签，具体可以参考如下公式：

其中，用于表示预测用户标签，X_{emotion_embedding}用于表示提取到的上述带有用户标签的样本音频数据的情感特征，GRL()用于表示梯度反转函数，classifier()用于表示分类函数。

除此之外，终端设备可以将该样本音频数据输入到上述过渡模型中的语义提取层，以通过该语义提取层，从上述样本音频数据中确定出各语义单元。而后，对确定出的各语义单元进行编号，并根据上述各语义单元对应的编号以及各语义单元在上述样本音频数据中的语义顺序，进而确定出上述样本音频数据的语义特征。

其中，语义单元是基于对语义理解所划分的较为抽象的单元，是通过模型训练所学习到的。终端设备可以通过对样本音频数据中包含的多个语音的最小帧进行聚类，进而得到该样本音频数据的各语义单元。为了确定出样本音频数据的语义特征，可以对该样本音频数据的各语义单元进行编号，并基于各语义单元对应的编号以及各语义单元在该样本音频数据中的语义顺序，从而确定出样本音频数据的语义特征。

上述语义提取层可以来源于预先训练好的语义提取模型(如hubert模型)，若上述语义提取层来源于预先训练好的语义提取模型，则在后续对过渡模型的训练过程中，不再对该语义提取层进行训练，即该语义提取层中的参数保持不变。除此之外，上述语义提取层也可以是未经训练的，那么，在后续对过渡模型的训练过程中，该语义提取层也一并参与训练。

另外，终端设备可以将上述样本音频数据输入到上述过渡模型中的声纹提取层，以通过上述声纹提取层，从上述样本音频数据中提取出声纹特征。其中，该声纹特征用于表征用户语音中独特的个体声音特征。上述声纹提取层可以来源于预先训练好的声纹提取模型(如Ecapa-TDNN模型)，若上述声纹提取层来源于预先训练好的声纹提取模型，则在后续对上述过渡模型的训练过程中，不再对该声纹提取层进行训练，即该声纹提取层中的参数保持不变。除此之外，上述声纹提取层也可以是未经训练的，那么，在后续对上述过渡模型的训练过程中，该声纹提取层也一并参与训练。

需要注意的是，为了减少后续模型对数据处理的任务量，终端设备可以先将上述样本音频数据进行截取，以得到样本音频数据片段，而后将该样本音频数据片段输入到过渡模型中以进行后续的训练。

S103：将所述情感特征、所述语义特征、所述声纹特征输入到所述过渡模型中的编码层中，以得到编码特征，并将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征。

在本说明书中，终端设备得到上述样本音频数据的情感特征、语义特征和声纹特征之后，可以将上述情感特征、语义特征和声纹特征输入到上述过渡模型中的编码层中，以通过该编码层，得到编码特征。具体地，上述编码层将上述情感特征、语义特征和声纹特征进行拼接，进而得到编码特征，具体可以参考如下公式：

X_{encoder_embedding}＝concat(X_{emotion_embedding}，X_semantics，X_{voiceprint_embedding})

其中，X_{encoder_embedding}用于表示上述编码特征，X_{emotion_embedding}用于表示上述情感特征，X_semantics用于表示上述语义特征，X_{voiceprint_embedding}用于表示上述声纹特征，concat()用于表示拼接函数。

另外，针对带有用户标签的样本音频数据，除了步骤S102中将该样本音频数据的情感特征输入到用户类别分类器中以得到该样本音频数据的预测用户标签的方式之外，也可以将该样本音频数据的编码特征输入到预设的用户类别分类器中，进而得到该样本音频数据的预测用户标签。

而后，终端设备可以将上述编码特征输入到上述过渡模型的解码层中，该解码层可以来源于预设的语音合成模型(如Tacotron2模型)，进而得到上述样本音频数据所对应的预测频谱特征。其中，该预测频谱特征用于表征上述样本音频数据中的音频信号在不同频率上的能量分布情况。

本说明书中的过渡模型可以采用自回归模型，因此除了可以得到上述预测频谱特征之外，也可以得到预测终止概率。其中，该预测终止概率由上述过渡模型自动生成，当预测终止概率没有超过预设概率阈值时，可以将编码特征以及得到的预测频谱特征输入到过渡模型的解码层中，进而可以重新输出样本音频数据对应的预测频谱特征以及预测终止概率。直至输出的预测终止概率超过预设概率阈值时，将本次输出的预测频谱特征作为样本音频数据的预测频谱特征。

例如，假设样本音频数据的预测频谱特征包含有20帧数据，在首次将编码特征输入到解码层后，可以输出预测终止概率以及包含第1帧数据的预测频谱特征，当判断出预测终止概率没有超过预设概率阈值时，将包含有第1帧数据的预测频谱特征以及编码特征再次输入到解码层，可以输出预测终止概率以及包含有第1帧数据和第2帧数据的预测频谱特征，当判断出预测终止概率没有超过预设概率阈值时，将包含有第1帧数据和第2帧数据的预测频谱特征以及编码特征再次输入到解码层，以此类推，直至输出的预测终止概率超过预设概率阈值时，将本次输出的预测频谱特征作为样本音频数据的预测频谱特征。

上述预测频谱特征和上述预测终止概率具体可以参考如下公式：

其中，用于表示上述预测频谱特征，/>用于表示上述预测终止概率，X_{encoder_embedding}用于表示上述编码特征，Decoder_tacotron2()用于表示解码函数。

S104：以最小化所述预测频谱特征与所述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练。

在本说明书中，对上述过渡模型进行训练的目的是为了后续通过该过渡模型中包含的情感提取层构建语音情感识别模型。因此在过渡模型训练过程中可以单独对情感提取层进行训练，而不对过渡模型中的语义提取层和声纹提取层进行训练，这种情况下，上述语义提取层和声纹提取层可以来源于预训练好的模型。那么，在过渡模型进行训练的过程中，可以只对情感提取层中的参数进行调整，语义提取层和声纹提取层中的参数不做调整。除此之外，在过渡模型训练过程中也可以基于语义提取层以及声纹提取层对情感提取层进行训练，并对情感提取层、语义提取层以及声纹提取层的参数进行同步调整。

针对无标签的样本音频数据，以最小化预测频谱特征与该样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对上述过渡模型中包含的情感提取层进行训练。

其中，可以采用预设的损失函数(如Tacotron2模型所采用的损失函数)对上述过渡模型进行训练，上述预测频谱特征与上述样本音频数据对应的频谱特征标签之间的偏差可以用损失函数Loss₁来表示，具体可以参考如下公式：

其中，Loss_mse()用于求上述预测频谱特征与上述样本音频数据对应的频谱特征标签之间的偏差的损失，Loss_{BCEWithLogits}()用于求上述预测终止概率与上述预设概率阈值的偏差的损失，用于表示上述预测频谱特征，/>用于表示上述样本音频数据对应的频谱特征标签，/>用于表示上述预测终止概率，Y_gateout用于表示上述预设概率阈值。

另外，步骤S103中提到了上述过渡模型还可以包含预设的用户类别分类器。因此，针对带有用户标签的样本音频数据，上述训练方法还可以包括，以最大化上述预测用户标签与上述带用户标签的样本音频数据对应的实际用户标签之间的偏差为优化目标，至少对上述过渡模型中包含的情感提取层进行训练。

具体的，可以采用预设的损失函数(如Tacotron2模型所采用的损失函数)对上述过渡模型进行训练，其中，上述预测频谱特征与上述样本音频数据对应的频谱特征标签之间的偏差和上述预测用户标签与上述带用户标签的样本音频数据对应的实际用户标签之间的偏差可以用损失函数Loss₂来表示，具体可以参考如下公式：

其中，Loss_mse()用于求上述预测频谱特征与上述样本音频数据对应的频谱特征标签之间的偏差的损失，Loss_{BCEWithLogits}()用于求上述预测终止概率与上述预设概率阈值之间的偏差的损失，Loss_ce()用于求上述预测用户标签和上述带用户标签的样本音频数据对应的实际用户标签之间的偏差的损失，用于表示上述样本音频数据对应的频谱特征标签，/>用于表示上述预测终止概率，Y_gateout用于表示上述预设概率阈值，用于表示上述预测用户标签，Y_speaker用于表示上述带用户标签的样本音频数据对应的实际用户标签。

由此可以看出，本说明书中所使用的训练后的过渡模型中的情感提取层是在该过渡模型中的语义提取层、声纹提取层的基础上完成训练所得到的。除此之外，情感提取层中还可以包括预设的带有梯度反转层的用户类别分类器，可以将用户语音中的与用户本人相关联的因素去除掉，以使提取到的情感特征不会和用户本人进行强绑定。因此，本说明书所提及的方法可以使得情感特征提取层对用户语音中的情感提取的更为精确。

S105：通过训练后的所述过渡模型中包含的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，以通过所述语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

在本说明书中，为了训练出可以对用户语音进行情感识别的模型，终端设备可以通过训练后的过渡模型中包含的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，具体结构如图2所示。

图2为本说明书提供的一种语音情感识别模型的示意图。

其中，终端设备可以将样本音频数据输入到语音情感识别模型中，以输出情感类型识别结果。该样本音频数据可以是带有情感标签的样本音频数据，带有情感标签的样本音频数据中标注了情感类别，该情感类别可以分为中性(无情感)、愤怒、开心、厌恶、恐惧、惊讶和悲伤等类别。带有情感标签样本音频数据可以通过多个非专业配音表演者对上述情感类别中的一种或多种情感类别进行录制音频。

在构建出上述语音情感识别模型后，可以通过带有情感标签的样本音频数据做进一步地训练，即，可以将带有情感标签的样本音频数据输入到语音情感识别模型中，以通过该语音情感识别模型中的情感提取层提取出的带有情感标签的样本音频数据的情感特征，并将提取出的情感特征输入到语音情感识别模型中的预设的情感类型分类器中，以得到针对该样本音频数据的情感类型识别结果，而后，以最小化该情感类型识别结果与样本音频数据对应的实际情感标签之间的偏差为优化目标，对语音情感识别模型进行训练，并在训练完成后，将语音情感识别模型进行部署，以对用户的语音进行情感识别。

除此之外，为了使得语音情感识别模型对用户的语音进行情感识别更加准确，终端设备也可以通过训练后的过渡模型中包含的语义提取层、情感提取层以及预设的情感类型分类器，构建语音情感识别模型，具体结构如图3所示。

图3为本说明书提供的一种语音情感识别模型的示意图。

从图3可以看出，可以通过语义提取层、情感提取层以及预设的情感类型分类器来构建语音情感识别模型。

在结合语义提取层来构建语音情感识别模型的基础上，可以将语义提取层所提取的情感特征与情感提取层所提取的情感特征进行拼接，进而得到拼接特征，并将拼接特征输入到上述预设的情感类型分类器中，以得到情感识别结果。其中，拼接特征具体可以参考如下公式：

X_{emotion_embeding_concat}＝concat(X_{emotion_embedding}，X_{emotion_other_embedding})

其中，X_{emotionembedingconcat}用于表示上述拼接特征，X_{emotion_other_embedding}用于表示上述语义提取层所提取的情感特征，X_{emotion_embedding}用于表示上述情感提取层所提取的情感特征，concat()用于表示拼接函数。

训练后的语音情感识别模型可以用于对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

具体地，可以将训练后的语音情感识别模型部署到终端设备，或者安装在终端设备上的客户端，亦或是服务器。而后，可以对输入到语音情感识别模型中的用户的语音进行情感识别，并根据所得到的情感识别结果执行目标业务。在本说明书中，可以存在多种目标业务，例如，智能语音客服业务，该业务可以从获取的用户的语音中提取出用户语音中包含的情感，并以提取出的用户语音中包含的情感为依据，对用户的提问进行回复。通过精准捕捉用户语音中包含的情感，进而可以给出更令用户满意的答复，以增强用户的体验感。

为了进一步地对本说明书提供的基于语音情感识别的业务执行方法进行说明，下面将以一个完整的示例，对本说明书的详细过程进行介绍，如图4所示。

图4为本说明书提供的一种语音情感识别流程的示意图。

由图4可以看出，终端设备首先将样本音频数据输入到过渡模型中的语义提取层、声纹提取层和情感提取层，在语义提取层提取出样本音频数据中的语义特征、在声纹提取层提取出样本音频数据中的声纹特征以及在情感提取层提取出样本音频数据中的情感特征之后，将上述语义特征、上述声纹特征以及上述情感特征输入到编码层，以得到编码特征。除此之外，情感提取层所提取的带有用户标签的样本音频数据的情感特征还可以输入到用户类别分类器中，以得到预测用户标签。

而后，将编码特征输入到解码层，进而得到预测频谱特征以及预测终止概率。以最小化预测频谱特征与样本音频数据对应的频谱特征标签之间的偏差，以及以最大化预测用户标签与带用户标签的样本音频数据对应的实际用户标签之间的偏差为优化目标，至少对过渡模型中包含的情感提取层进行训练。

通过训练后的情感提取层与预设的情感类型分类器，构建出语音情感识别模型，并通过语音情感识别模型中的情感提取层将提取出的带有情感标签的样本音频数据的情感特征输入到情感类型分类器，进而得到情感识别结果。并以最小化情感类型识别结果与带有情感标签的样本音频数据对应的实际情感标签之间的偏差为优化目标，对语音情感识别模型进行训练。最后，将训练后的语音情感识别模型用于对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

以上为本说明书的一个或多个实施的方法，基于同样的思路，本说明书还提供了相应的基于语音情感识别的业务执行的装置，如图5所示。

图5为本说明书提供的一种基于语音情感识别的业务执行装置的示意图，包括：

获取模块501，用于获取样本音频数据；

提取模块502，用于将所述样本音频数据输入到预设的过渡模型中，以通过所述过渡模型中包含的情感提取层，从所述样本音频数据中提取出情感特征，通过所述过渡模型中包含的语义提取层，从所述样本音频数据中提取出语义特征，以及通过所述过渡模型中包含的声纹提取层，从所述样本音频数据中提取出声纹特征；

预测模块503，用于将所述情感特征、所述语义特征、所述声纹特征输入到所述过渡模型中的编码层中，以得到编码特征，并将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征；

训练模块504，用于以最小化所述预测频谱特征与所述样本音频数据对应的频谱特征标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练；

构建模块505，用于通过训练后的所述过渡模型中包含的情感提取层以及预设的情感类型分类器，构建语音情感识别模型，以通过所述语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

可选地，所述构建模块505具体用于，将所述样本音频数据输入到所述语音情感识别模型中，以使所述语音情感识别模型输出针对所述样本音频数据的情感类型识别结果；以最小化所述情感类型识别结果与所述样本音频数据对应的实际情感标签之间的偏差为优化目标，对所述语音情感识别模型进行训练，训练后的语音情感识别模型用于对用户的语音进行情感识别，并根据情感识别结果执行目标业务。

可选地，所述提取模块502具体用于，将所述样本音频数据输入到预设的过渡模型中的语义提取层，以通过所述语义提取层，从所述样本音频数据中确定出各语义单元，并根据所述各语义单元对应的编号以及各语义单元在所述样本音频数据中的语义顺序，确定出所述样本音频数据的语义特征。

所述预测模块503还用于，将所述情感特征输入到所述用户类别分类器中，以得到所述带用户标签的样本音频数据对应的预测用户标签；

所述训练模块504具体用于，以最小化所述预测频谱特征与所述带用户标签的样本音频数据对应的频谱特征标签之间的偏差，以及以最大化所述预测用户标签与所述带用户标签的样本音频数据对应的实际用户标签之间的偏差为优化目标，至少对所述过渡模型中包含的所述情感提取层进行训练。

可选地，所述预测模块503具体用于，将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征及预测终止概率；判断所述预测终止概率是否超过预设概率阈值；若否，则将所述编码特征以及输出的预测频谱特征输入到所述过渡模型中的解码层中，以重新输出所述样本音频数据对应的预测频谱特征以及预测终止概率，直至输出的预测终止概率超过所述预设概率阈值为止，并将所述过渡模型输出超过所述预设概率阈值的预测终止概率时所输出的预测频谱特征，作为得到的所述样本音频数据所对应的预测频谱特征。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种基于语音情感识别的业务执行的方法。

本说明书还提供了图6所示的一种对应于图1的电子设备的示意结构图。如图6所示，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的基于语音情感识别的业务执行方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、***、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种基于语音情感识别的业务执行方法，其特征在于，包括：

获取样本音频数据；

2.如权利要求1所述的方法，其特征在于，通过所述语音情感识别模型对用户的语音进行情感识别，并根据情感识别结果执行目标业务，具体包括：

3.如权利要求1所述的方法，其特征在于，通过所述过渡模型中包含的语义提取层，从所述样本音频数据中提取出语义特征，具体包括：

4.如权利要求1所述的方法，其特征在于，所述样本音频数据中包含带用户标签的样本音频数据，所述过渡模型中包含预设的用户类别分类器；

5.如权利要求1所述的方法，其特征在于，将所述编码特征输入到所述过渡模型中的解码层中，得到所述样本音频数据所对应的预测频谱特征，具体包括：

判断所述预测终止概率是否超过预设概率阈值；

6.一种基于语音情感识别的业务执行装置，其特征在于，包括：

获取模块：用于获取样本音频数据；

7.如权利要求6所述的装置，其特征在于，所述构建模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述提取模块具体用于：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～5任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～5任一项所述的方法。