CN112992147A

CN112992147A - 语音处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112992147A
Application number: CN202110217729.4A
Authority: CN
Inventors: 顾艳梅; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-18

Abstract

本申请涉及语音处理技术领域，通过将粗粒度情绪类别融合在意图识别过程以及将细粒度情绪类别融合在语音合成过程，实现根据用户的情绪特征进行语音应答，提高了应答语音信号的准确性和用户的体验度。涉及一种语音处理方法、装置、计算机设备和存储介质，该方法包括：获取待处理的语音数据；对语音数据进行语音识别，得到文本信息；调用情绪识别模型，将语音数据输入情绪识别模型进行情绪识别，得到粗粒度情绪类别与细粒度情绪类别；根据文本信息与粗粒度情绪类别，确定语音数据对应的应答文本信息；根据细粒度情绪类别与应答文本信息进行语音合成，获得语音数据对应的应答语音信号。本申请还涉及区块链技术，情绪识别模型可存储于区块链中。

Description

语音处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的快速发展，出现了智能语音机器人，例如外呼机器人、聊天机器人以及智能客服等等。智能语音机器人通过语音识别、语义理解以及对话管理等人工智能技术，实现在线问答、咨询、指令执行等服务。然而，在现有的语音交互过程中，智能语音机器人一般是将接收到用户的语音转换成文本，根据文本确定答复文本进而合成语音，最后输出冰冷的应答语音；在这一过程中，智能语音机器人并没有考虑实际环境的影响，导致应答语音匹配的准确性较低，降低了用户的体验度。

因此如何提高智能语音机器人的应答语音的准确性成为亟需解决的问题。

发明内容

本申请提供了一种语音处理方法、装置、计算机设备和存储介质，通过将粗粒度情绪类别融合在意图识别过程中以及将细粒度情绪类别融合在语音合成过程中，实现根据用户的情绪特征进行语音应答，提高了应答语音信号的准确性和用户的体验度。

第一方面，本申请提供了一种语音处理方法，所述方法包括：

获取待处理的语音数据；

对所述语音数据进行语音识别，得到所述语音数据对应的文本信息；

调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别；

根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息；

根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号。

第二方面，本申请还提供了一种语音处理装置，所述装置包括：

语音数据获取模块，用于获取待处理的语音数据；

语音识别模块，用于对所述语音数据进行语音识别，得到所述语音数据对应的文本信息；

情绪识别模块，用于调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别；

应答文本生成模块，用于根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息；

语音合成模块，用于根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音处理方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语音处理方法。

本申请公开了一种语音处理方法、装置、计算机设备和存储介质，通过获取待处理的语音数据，对语音数据进行语音识别，可以得到语音数据对应的文本信息；通过调用情绪识别模型，将语音数据输入情绪识别模型进行情绪识别，可以得到语音数据对应的粗粒度情绪类别与细粒度情绪类别；通过根据文本信息与粗粒度情绪类别，确定语音数据对应的应答文本信息，实现将粗粒度情绪类别融合在意图识别过程中；通过根据细粒度情绪类别与应答文本信息进行语音合成，将细粒度情绪类别融合在语音合成过程中，实现根据用户的情绪特征进行语音应答，提高了应答语音信号的准确性和用户的体验度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音处理方法的示意性流程图；

图2是本申请实施例提供的一种根据语音数据生成应答语音信号的示意图；

图3是本申请实施例提供的一种获取待处理的语音数据的子步骤的示意性流程图；

图4是本申请实施例提供的一种对情绪识别模型进行训练的子步骤的示意性流程图；

图5是本申请实施例提供的一种确定应答文本信息的子步骤的示意性流程图；

图6是本申请实施例提供的一种进行语音合成的子步骤的示意性流程图；

图7是本申请实施例提供的一种语音处理装置的示意性框图；

图8是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种语音处理方法、装置、计算机设备和存储介质。其中，该语音处理方法可以应用于服务器或终端，通过将粗粒度情绪类别融合在意图识别过程以及将细粒度情绪类别融合在语音合成过程，实现根据用户的情绪特征进行语音应答，提高了应答语音信号的准确性和用户的体验度。

其中，服务器可以为独立的服务器，也可以为服务器集群。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，语音处理方法包括步骤S101至步骤S105。

步骤S101、获取待处理的语音数据。

需要说明的是，待处理的语音数据可以是预先采集用户的语音信号，也可以是实时采集用户的语音信号。在本申请实施例中，以实时采集用户的语音信号为例进行详细说明。

请参阅图2，图2是本申请实施例提供的一种根据语音数据生成应答语音信号的示意图。如图2所示，先将语音数据分别输入语音识别模型与情绪识别模型中，由语音识别模型对语音数据进行语音识别，输出文本信息至意图识别模型，由情绪识别模型对语音数据进行情绪识别，输出粗粒度情绪类别至意图识别模型以及输出细粒度情绪类别至声音合成模型；然后，意图识别模型根据文本信息与粗粒度情绪类别进行意图识别，输出应答文本信息至声音合成模型；最后，由声音合成模型根据应答文本信息与细粒度情绪类别进行声音合成，输出应答语音信号。

请参阅图3，图3是本申请实施例提供的获取待处理的语音数据的子步骤的示意性流程图，具体可以包括以下步骤S1011至步骤S1013。

步骤S1011、获取语音采集装置采集的语音信号。

示例性的，语音采集装置可以包括录音机、录音笔以及麦克风等采集语音的电子设备。其中，语音采集装置可以安装在智能语音机器人中。

在一些应用场景中，用户可以通过智能语音机器人办理业务。示例性的，在办理业务时，智能语音机器人可以通过语音采集装置采集用户输入的语音信号。其中，语音信号可以是用户在不同情绪时的语音信号。

步骤S1012、基于区块链中预设的语音检测模型，提取所述语音信号中的有用语音信号。

需要说明的是，由于语音信号可能包括无用信号，为提高后续识别情绪类别的准确度，因此需要提取语音信号中的有用语音信号。其中，无用信号可以包括但不限于脚步声、喇叭声、静音以及机器噪声等等。

示例性的，预设的语音检测模型可以包括语音活动端点检测模型。需要说明的是，在语音信号处理中，语音活动端点检测(Voice Activity Detection，VAD)用于检测是否存在语音，从而将信号中的语音段和非语音段分开。VAD可被用于回波消除、噪音抑制、语者识别和语音识别等。

在一些实施例中，可以预先对初始的语音活动端点检测模型进行训练，得到训练后的语音活动端点检测模型。为进一步保证上述训练后的语音活动端点检测模型的私密和安全性，上述训练后的语音活动端点检测模型可以存储于一区块链的节点中。当需要使用训练后的语音活动端点检测模型时，可以从区块链的节点中获取。

在一些实施例中，基于区块链中预设的语音检测模型，提取语音信号中的有用语音信号，可以包括：对语音信号进行切分，得到语音信号对应的至少一个分段语音信号；确定每个分段语音信号的短时能量；将短时能量大于预设的能量幅值对应的分段语音信号进行拼接，得到有用语音信号。

其中，预设的能量幅值可以根据实际情况设定，具体数值在此不作限定。

示例性的，在基于语音活动端点检测模型，提取语音信号中的有用语音信号时，除了短时能量，还可以根据语音信号的频谱能量、过零率等特征进行判断，具体过程在此不作限定。

步骤S1013、根据所述有用语音信号，确定所述语音数据。

示例性的，可以将上述从语音信号中提取的有用语音信号，确定为语音数据。

通过基于预设的语音检测模型提取语音信号中的有用语音信号，可以提高后续语音识别与情绪类别的识别准确度。

步骤S102、对所述语音数据进行语音识别，得到所述语音数据对应的文本信息。

示例性的，可以调用语音识别模型，对语音数据进行语音识别，得到语音数据对应的文本信息。

其中，语音识别模型可以包括但不限于隐马尔可夫模型、卷积神经网络、受限玻尔兹曼机、循环神经网络、长短时记忆网络以及时延神经网络等等。

在本申请实施例中，语音识别模型可以是时延神经网络(Time Delay NeuralNetwork，TDNN)为例进行详细说明。需要说明的是。TDNN网络是一种人工神经网络结构，用来分类语音信号中的音素以自动识别语音；TDNN识别音素及其基本的声学/语音特征，与时间上的位置无关，不受时间偏移影响。

示例性的，语音识别模型为预先训练好的时延神经网络模型。具体的训练过程在此不作限定。

在一些实施例中，可以基于GPU集群，将语音数据输入语音识别模型中进行语音识别，得到语音数据对应的文本信息。例如，文本信息为“不要再给我打电话了”。

需要说明的是，GPU(Graphics Processing Unit，图形处理单元)集群是一个计算机集群，其中每个节点配备有图形处理单元。由于通用计算的GPU具有很高的数据并行架构，可以并行处理大量的数据点，从而可以使GPU集群执行非常快速的计算，提高计算吞吐量。

通过基于GPU集群，将语音数据输入语音识别模型中进行语音识别，可以提高语音识别的准确度与效率。

步骤S103、调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别。

在本申请实施例中，情绪识别模型可以包括第一情绪识别模型与第二情绪识别模型。其中，第一情绪识别模型用于识别粗粒度情绪类别，第二情绪识别模型用于识别细粒度情绪类别。

需要说明的是，粗粒度情绪类别可以包括正面情绪、轻微负面情绪和强烈负面情绪。细粒度情绪是在粗粒度情绪下具体进行划分。

示例性的，正面情绪对应的细粒度情绪可以包括但不限于：开心、乐观以及高兴等；轻微负面情绪对应的细粒度情绪可以包括但不限于：焦虑、紧张、悲伤、抱怨以及责备等等；强烈负面情绪对应的细粒度情绪可以包括但不限于：辱骂、愤怒以及投诉等等。

示例性的，第一情绪识别模型与第二情绪识别模型可以包括但不限于卷积神经网络、受限玻尔兹曼机或循环神经网络等等。

在一些实施例中，调用情绪识别模型，将语音数据输入情绪识别模型进行情绪识别，得到语音数据对应的粗粒度情绪类别与细粒度情绪类别之前，还可以包括：分别对第一情绪识别模型与第二情绪识别模型迭代训练至收敛，得到训练后的第一情绪识别模型与训练后的第二情绪识别模型。

可以理解的是，由于情绪识别模型包括第一情绪识别模型与第二情绪识别模型，因此在训练时，需要分别对第一情绪识别模型与第二情绪识别模型进行训练至收敛，从而得到训练好的情绪识别模型。

需要强调的是，为进一步保证上述训练好的情绪识别模型的私密和安全性，上述训练好的情绪识别模型可以存储于一区块链的节点中。当需要使用训练好的情绪识别模型时，可以从区块链的节点中获取。

请参阅图4，图4是本申请实施例提供的一种对情绪识别模型进行训练的子步骤的示意性流程图，具体可以包括以下步骤S1031至步骤S1034。

步骤S1031、获取第一训练数据，所述第一训练数据包括预设数量的文本数据、预设数量的语音数据以及标注的粗粒度情绪类别标签。

其中，第一训练数据中的文本数据与语音数据的数量比不作限定。示例性的，文本数据与语音数据的数量比可以是1:1，也可以是1:2。

示例性的，可以分别对文本数据和语音数据进行粗粒度情绪类别标注，得到标注的粗粒度情绪类别标签。其中，标注的粗粒度情绪类别标签可以包括正面情绪、轻微负面情绪和强烈负面情绪。

通过获取包含文本数据与语音数据的第一训练数据，使得第一情绪识别模型可以学习文本特征与语音特征，从而后续第一情绪识别模型预测输出的粗粒度情绪类别包括文本特征与语音特征，可以应用于意图识别过程或语音合成过程。

步骤S1032、获取第二训练数据，所述第二训练数据包括预设数量的文本数据、预设数量的语音数据以及标注的细粒度情绪类别标签。

示例性的，第二训练数据中的文本数据与语音数据的数量比不作限定。示例性的，文本数据与语音数据的数量比可以是2:1，也可以是1:2。需要说明的是，第二训练数据中的文本数据与语音数据是各粗粒度情绪类别对应的文本数据与语音数据。例如，第二训练数据中的文本数据与语音数据是正面情绪对应的文本数据与语音数据，也可以是轻微负面情绪对应的文本数据与语音数据，还可以是强烈负面情绪对应的文本数据与语音数据。

示例性的，可以分别对文本数据和语音数据进行细粒度情绪类别标注，得到标注的细粒度情绪类别标签。例如，当第一训练数据对应的粗粒度情绪类别标签为正面情绪时，标注的细粒度情绪类别标签可以包括开心、乐观以及高兴等等；当第一训练数据对应的粗粒度情绪类别标签为轻微负面情绪时，标注的细粒度情绪类别标签可以包括焦虑、紧张、悲伤、抱怨以及责备等等；当第一训练数据对应的粗粒度情绪类别标签为强烈负面情绪时，标注的细粒度情绪类别标签可以包括辱骂、愤怒以及投诉等等。

通过获取包含文本数据与语音数据的第二训练数据，使得第二情绪识别模型可以学习文本特征与语音特征，从而后续第二情绪识别模型预测输出的细粒度情绪类别包括文本特征与语音特征，可以应用于意图识别过程或语音合成过程。

步骤S1033、将所述第一训练数据输入所述第一情绪识别模型进行迭代训练，直至所述第一情绪识别模型收敛。

在一些实施例中，将第一训练数据输入第一情绪识别模型进行迭代训练，直至第一情绪识别模型收敛，可以包括：根据文本数据、语音数据以及粗粒度情绪类别标签，确定每一轮训练的训练样本数据；将当前轮训练样本数据输入第一情绪识别模型中进行情绪识别训练，得到情绪预测结果；根据当前轮训练样本数据对应的粗粒度情绪类别标签与情绪预测结果，确定损失函数值；若损失函数值大于预设的损失值阈值，则调整第一情绪识别模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于损失值阈值，结束训练，得到训练后的第一情绪识别模型。

示例性的，预设的损失值阈值可以根据实际情况进行设定，具体数值在此不作限定。

示例性的，可以采用0-1损失函数、绝对值损失函数、对数损失函数、交叉熵损失函数、平方损失函数或指数损失函数等损失函数来计算损失函数值。

示例性的，可以采用梯度下降算法、牛顿算法、共轭梯度法或柯西-牛顿法等收敛算法来调整第一情绪识别模型的参数。

步骤S1034、将所述第二训练数据输入所述第二情绪识别模型进行迭代训练，直至所述第二情绪识别模型收敛。

需要说明的是，第二情绪识别模型的训练过程与第一情绪识别模型的训练过程相似，具体过程在此不再赘述。

在本申请实施例中，在对第一情绪识别模型与第二情绪识别模型进行迭代训练至收敛之后，可以将语音数据分别输入训练后的第一情绪识别模型与训练后的第二情绪识别模型进行情绪识别。

在一些实施例中，调用情绪识别模型，将语音数据输入情绪识别模型进行情绪识别，得到语音数据对应的粗粒度情绪类别与细粒度情绪类别，可以包括：将语音数据输入第一情绪识别模型进行情绪预测，获得语音数据对应的粗粒度情绪类别；将语音数据输入粗粒度情绪类别对应的第二情绪识别模型进行情绪预测，获得语音数据对应的细粒度情绪类别。

示例性的，将语音数据输入训练后的第一情绪识别模型进行情绪预测，获得的粗粒度情绪类别可以是“正面情绪”；将语音数据输入“正面情绪”对应的第二情绪识别模型进行情绪预测，获得的粗粒度情绪类别可以是“开心”。

示例性的，将语音数据输入训练后的第一情绪识别模型进行情绪预测，获得的粗粒度情绪类别可以是“强烈负面情绪”；将语音数据输入“强烈负面情绪”对应的第二情绪识别模型进行情绪预测，获得的粗粒度情绪类别可以是“辱骂”。

通过根据预设的损失函数和收敛算法对第一情绪识别模型与第二情绪识别模型进行参数更新，可以使得第一情绪识别模型与第二情绪识别模型快速收敛，进而提高了情绪识别模型的训练效率和准确度。

步骤S104、根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息。

需要说明的是，在本申请实施例中，可以根据文本信息与粗粒度情绪类别进行意图识别处理，得到语音数据对应的应答文本信息。其中，意图识别处理可以包括意图识别与话术匹配。

请参阅图5，图5是步骤S104中根据文本信息与粗粒度情绪类别，确定语音数据对应的应答文本信息的子步骤的示意性流程图，具体步骤S104可以包括以下步骤S1041至步骤S1044。

步骤S1041、对所述文本信息进行分词处理，得到所述文本信息对应的多个词组。

在一些实施例中，可以基于预设的分词模型，对文本信息进行分词处理，得到文本信息对应的多个词组。

示例性的，预设的分词模型可以包括BI_LSTM-CRF神经网络模型，当然，也可以是其他的神经网络模型，在此不作限定。需要说明的是，BI_LSTM-CRF神经网络模型结合BI_LSTM网络和CRF(Conditional Random Field)层。BI_LSTM-CRF神经网络模型不仅可以使用过去输入的特征和语句标签信息，还可以使用将来的输入特征，考虑到长距离上下文信息对中文分词的影响，可以确保中文分词更高的准确性。

示例性的，对于文本信息“不要再给我打电话了”，得到的词组可以包括[“不要”，“再”，“给我”，“打电话”]。

步骤S1042、将每个所述词组输入词向量模型进行向量化，得到所述文本信息对应的词向量矩阵。

示例性的，词向量模型可以包括但不限于word2vec(词向量)模型、glove(Globalvectors for word representation)模型以及BERT(Bidirectional EncoderRepresentations from Transformer)模型等等。

例如，可以将每个词组输入BERT模型进行向量化，得到文本信息对应的词向量矩阵。

步骤S1043、将所述词向量矩阵输入意图识别模型中进行意图识别，获得所述文本信息对应的意图信息。

示例性的，意图识别模型为训练后的意图识别模型。在本申请实施例中，意图识别模型可以包括但不限于卷积神经网络、Han模型以及循环神经网络等等。

在一些实施例中，可以根据训练文本词向量与意图标签对初始的意图识别模型进行训练至收敛，得到训练好的意图识别模型。其中，具体的训练过程在此不作限定。

示例性的，将词组[“不要”，“再”，“给我”，“打电话”]对应的词向量矩阵输入训练好的意图识别模型中进行意图识别，得到识别的意图信息。例如，识别到的意图信息为“拒绝接电话”。

通过将词向量矩阵输入训练后的意图识别模型中进行意图识别，可以提高意图信息的预测准确性。

步骤S1044、对所述意图信息与所述粗粒度情绪类别进行话术匹配，获得所述应答文本信息。

在一些实施例中，对意图信息与粗粒度情绪类别进行话术匹配，获得应答文本信息，可以包括：基于情绪类别与话术数据库之间预设的对应关系，根据粗粒度情绪类别确定目标话术数据库；基于目标话术数据库，匹配与意图信息对应的话术信息，获得应答文本信息。

在本申请实施例中，可以预先根据情绪类别将话术进行划分至不同的话术数据库中。示例性的，将情绪类别为“正面情绪”的话术划分至话术数据库A中，将情绪类别为“轻微负面情绪”的话术划分至话术数据库B中，将情绪类别为“强烈负面情绪”的话术划分至话术数据库C中；然后将话术数据库与对应的情绪类别标签进行关联。

示例性的，若根据粗粒度情绪类别为“轻微负面情绪”，则可以根据粗粒度情绪类别“轻微负面情绪”确定目标话术数据库为话术数据库B。

在一些实施方式中，可以基于目标话术数据库，根据意图信息中的关键词，匹配对应的话术信息。

例如，当意图信息为“拒绝接电话”且话术数据库为话术数据库A时，可以根据意图信息中的关键词“拒绝”与关键词“接电话”，在话术数据库A中匹配对应的话术信息，得到应答文本信息为：好的，不好意思，打扰了。

例如，当意图信息为“拒绝接电话”且话术数据库为话术数据库B时，可以根据意图信息中的关键词“拒绝”与关键词“接电话”，在话术数据库B中匹配对应的话术信息，得到应答文本信息为：非常抱歉，给您带来了不好的体验。

又例如，当意图信息为“拒绝接电话”且话术数据库为话术数据库C时，可以根据意图信息中的关键词“拒绝”与关键词“接电话”，在话术数据库C中匹配对应的话术信息，得到应答文本信息为：请您原谅，后续不会再打扰您了。

通过根据文本信息与粗粒度情绪类别进行意图识别，可以将粗粒度情绪类别融合到意图识别过程中，实现根据用户的情绪特征生成应答文本信息，使得应答文本信息可以反映用户的情绪状态。

步骤S105、根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号。

需要说明的是，通过根据细粒度情绪类别与应答文本信息进行语音合成，可以将用户对应的细粒度情绪类别融合到语音合成中，使得应答语音信号可以反映用户的真实情绪状态。

请参阅图6，图6是步骤S105中根据细粒度情绪类别与应答文本信息进行语音合成的子步骤的示意性流程图，具体步骤S105可以包括以下步骤S1051至步骤S1053。

步骤S1051、基于情绪类别与语调类型之间预设的对应关系，根据所述细粒度情绪类别确定目标语调类型。

示例性的，情绪类别可以是开心、乐观以及高兴等正面情绪；可以是焦虑、紧张、悲伤、抱怨以及责备等轻微负面情绪；还可以是辱骂、愤怒以及投诉等强烈负面情绪。

示例性的，语调类型包括包括但不限于平静、轻微安抚以及强烈安抚等等。

在本申请实施例中，可以预先将情绪类别与语调类型进行关联，如表1所示。

表1

情绪类别	语调类型
		开心，乐观，高兴	平静
焦虑，紧张，悲伤，抱怨，责备	轻微安抚
		辱骂，愤怒，投诉	强烈安抚

步骤S1052、对所述应答文本信息进行声音合成，得到对应的声音频谱图。

示例性的，可以通过TTS(Text To Speech，语音合成)模型，根据目标语调，对应答文本信息进行声音合成。需要说明的是，TTS模型包括文本分析、声学模型、音频合成等模块，可以实现将一段文本转换为语音信号。

示例性的，TTS模型可以对应答文本信息进行向量化、傅里叶变换以及通过梅尔滤波器组，得到梅尔频谱，即声音频谱图。

步骤S1053、根据所述目标语调类型调节所述声音频谱图的语调，将调节后的所述声音频谱图确定为所述应答语音信号。

在本申请实施例中，可以通过预设的自动化脚本，根据目标语调类型调节声音频谱图的语调，将调节后的声音频谱图确定为应答语音信号。

示例性的，可以根据目标语音类型调节声音频谱图中的基频。需要说明的是，基频是指基音的频率，用于决定整个音的音高。因此，通过调节基频，可以使得调节后的声音频谱图具有不同的语调与语气。

例如，可以每隔预设时间在声音频谱图中添加一段基频数据。其中，预设时间可以是10ms，也可以是其它时长；基频数据可以是0KHz-4KHz的频段。

示例性的，当目标语音类型为“平静”时，可以在声音频谱图中添加一段频段较小的基频数据；当目标语音类型为“轻微安抚”或“强烈安抚”时，可以在声音频谱图中添加一段频段较大的基频数据。

在一些实施例中，获得语音数据对应的应答语音信号之后，还可以播报应答语音信号。

示例性的，可以在智能语音机器人的播报界面播报应答语音信号。此外，在播报应答语音信号之后，还可以实时监控用户通话界面信息，用于接收用户实时问答语音信号。

通过根据目标语调类型调节语音频谱图的语调，实现将用户的情绪特征融入应答语音信号中，使得在语音播报过程中需要根据用户的情绪状态时刻调整播报的语气和语调，从而输出的应答语音信号更加自然、更具情感以及更加真实，提高了用户的体验度。

上述实施例提供的语音处理方法，通过基于预设的语音检测模型提取语音信号中的有用语音信号，可以提高后续语音识别与情绪类别的识别准确度；通过基于GPU集群，将语音数据输入语音识别模型中进行语音识别，可以提高语音识别的准确度与效率；通过获取包含文本数据与语音数据的第一训练数据，使得第一情绪识别模型可以学习文本特征与语音特征，从而后续第一情绪识别模型预测输出的粗粒度情绪类别包括文本特征与语音特征，可以应用于意图识别过程或语音合成过程；通过根据预设的损失函数和收敛算法对第一情绪识别模型与第二情绪识别模型进行参数更新，可以使得第一情绪识别模型与第二情绪识别模型快速收敛，进而提高了情绪识别模型的训练效率和准确度；通过根据文本信息与粗粒度情绪类别进行意图识别，可以将粗粒度情绪类别融合到意图识别过程中，实现根据用户的情绪特征生成应答文本信息，使得应答文本信息可以反映用户的情绪状态；通过根据细粒度情绪类别与应答文本信息进行语音合成，可以将用户对应的细粒度情绪类别融合到语音合成中，使得应答语音信号可以反映用户的真实情绪状态；通过根据目标语调类型调节语音频谱图的语调，实现将用户的情绪特征融入应答语音信号中，使得在语音播报过程中需要根据用户的情绪状态时刻调整播报的语气和语调，从而输出的应答语音信号更加自然、更具情感以及更加真实，提高了用户的体验度。

请参阅图7，图7是本申请的实施例还提供一种语音处理装置1000的示意性框图，该语音处理装置用于执行前述的语音处理方法。其中，该语音处理装置可以配置于服务器或终端中。

如图7所示，该语音处理装置1000，包括：语音数据获取模块1001、语音识别模块1002、情绪识别模块1003、应答文本生成模块1004以及语音合成模块1005。

语音数据获取模块1001，用于获取待处理的语音数据。

语音识别模块1002，用于对所述语音数据进行语音识别，得到所述语音数据对应的文本信息。

情绪识别模块1003，用于调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别。

应答文本生成模块1004，用于根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息。

语音合成模块1005，用于根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

请参阅图8，该计算机设备包括通过***总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音处理方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待处理的语音数据；对所述语音数据进行语音识别，得到所述语音数据对应的文本信息；调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别；根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息；根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号。

在一个实施例中，所述情绪识别模型包括第一情绪识别模型与第二情绪识别模型；所述处理器在实现调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别之前，还用于实现：

分别对所述第一情绪识别模型与所述第二情绪识别模型进行迭代训练至收敛，得到训练后的所述第一情绪识别模型与训练后的所述第二情绪识别模型。

在一个实施例中，所述处理器在实现调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别时，用于实现：

将所述语音数据输入所述第一情绪识别模型进行情绪预测，获得所述语音数据对应的所述粗粒度情绪类别；将所述语音数据输入所述粗粒度情绪类别对应的所述第二情绪识别模型进行情绪预测，获得所述语音数据对应的所述细粒度情绪类别。

在一个实施例中，所述处理器在实现分别对所述第一情绪识别模型与所述第二情绪识别模型迭代训练至收敛，得到训练后的所述第一情绪识别模型与训练后的所述第二情绪识别模型时，用于实现：

获取第一训练数据，所述第一训练数据包括预设数量的文本数据、预设数量的语音数据以及标注的粗粒度情绪类别标签；获取第二训练数据，所述第二训练数据包括预设数量的文本数据、预设数量的语音数据以及标注的细粒度情绪类别标签；将所述第一训练数据输入所述第一情绪识别模型进行迭代训练，直至所述第一情绪识别模型收敛；将所述第二训练数据输入所述第二情绪识别模型进行迭代训练，直至所述第二情绪识别模型收敛。

在一个实施例中，所述处理器在实现根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息时，用于实现：

对所述文本信息进行分词处理，得到所述文本信息对应的多个词组；将每个所述词组输入词向量模型进行向量化，得到所述文本信息对应的词向量矩阵；将所述词向量矩阵输入意图识别模型中进行意图识别，获得所述文本信息对应的意图信息；对所述意图信息与所述粗粒度情绪类别进行话术匹配，获得所述应答文本信息。

在一个实施例中，所述处理器在实现对所述意图信息与所述粗粒度情绪类别进行话术匹配，获得所述应答文本信息时，用于实现：

基于情绪类别与话术数据库之间预设的对应关系，根据所述粗粒度情绪类别确定目标话术数据库；基于所述目标话术数据库，匹配与所述意图信息对应的话术信息，获得所述应答文本信息。

在一个实施例中，所述处理器在实现根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号时，用于实现：

基于情绪类别与语调类型之间预设的对应关系，根据所述细粒度情绪类别确定目标语调类型；对所述应答文本信息进行声音合成，得到对应的声音频谱图；根据所述目标语调类型调节所述声音频谱图的语调，将调节后的所述声音频谱图确定为所述应答语音信号。

在一个实施例中，所述处理器在实现获取待处理的语音数据时，用于实现：

获取语音采集装置采集的语音信号；基于区块链中预设的语音检测模型，提取所述语音信号中的有用语音信号；根据所述有用语音信号，确定所述语音数据。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语音处理方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待处理的语音数据；

2.根据权利要求1所述的语音处理方法，其特征在于，所述情绪识别模型包括第一情绪识别模型与第二情绪识别模型；所述调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别之前，还包括：

分别对所述第一情绪识别模型与所述第二情绪识别模型进行迭代训练至收敛，得到训练后的所述第一情绪识别模型与训练后的所述第二情绪识别模型；

所述调用情绪识别模型，将所述语音数据输入所述情绪识别模型进行情绪识别，得到所述语音数据对应的粗粒度情绪类别与细粒度情绪类别，包括：

将所述语音数据输入所述第一情绪识别模型进行情绪预测，获得所述语音数据对应的所述粗粒度情绪类别；

将所述语音数据输入所述粗粒度情绪类别对应的所述第二情绪识别模型进行情绪预测，获得所述语音数据对应的所述细粒度情绪类别。

3.根据权利要求2所述的语音处理方法，其特征在于，所述分别对所述第一情绪识别模型与所述第二情绪识别模型迭代训练至收敛，得到训练后的所述第一情绪识别模型与训练后的所述第二情绪识别模型，包括：

获取第一训练数据，所述第一训练数据包括预设数量的文本数据、预设数量的语音数据以及标注的粗粒度情绪类别标签；

获取第二训练数据，所述第二训练数据包括预设数量的文本数据、预设数量的语音数据以及标注的细粒度情绪类别标签；

将所述第一训练数据输入所述第一情绪识别模型进行迭代训练，直至所述第一情绪识别模型收敛；

将所述第二训练数据输入所述第二情绪识别模型进行迭代训练，直至所述第二情绪识别模型收敛。

4.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述文本信息与所述粗粒度情绪类别，确定所述语音数据对应的应答文本信息，包括：

对所述文本信息进行分词处理，得到所述文本信息对应的多个词组；

将每个所述词组输入词向量模型进行向量化，得到所述文本信息对应的词向量矩阵；

将所述词向量矩阵输入意图识别模型中进行意图识别，获得所述文本信息对应的意图信息；

对所述意图信息与所述粗粒度情绪类别进行话术匹配，获得所述应答文本信息。

5.根据权利要求4所述的语音处理方法，其特征在于，所述对所述意图信息与所述粗粒度情绪类别进行话术匹配，获得所述应答文本信息，包括：

基于情绪类别与话术数据库之间预设的对应关系，根据所述粗粒度情绪类别确定目标话术数据库；

基于所述目标话术数据库，匹配与所述意图信息对应的话术信息，获得所述应答文本信息。

6.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述细粒度情绪类别与所述应答文本信息进行语音合成，获得所述语音数据对应的应答语音信号，包括：

基于情绪类别与语调类型之间预设的对应关系，根据所述细粒度情绪类别确定目标语调类型；

对所述应答文本信息进行声音合成，得到对应的声音频谱图；

根据所述目标语调类型调节所述声音频谱图的语调，将调节后的所述声音频谱图确定为所述应答语音信号。

7.根据权利要求1-6任一项所述的语音处理方法，其特征在于，所述获取待处理的语音数据，包括：

获取语音采集装置采集的语音信号；

基于区块链中预设的语音检测模型，提取所述语音信号中的有用语音信号；

根据所述有用语音信号，确定所述语音数据。

8.一种语音处理装置，其特征在于，包括：

语音数据获取模块，用于获取待处理的语音数据；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7任一项所述的语音处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的语音处理方法。