CN113808619B

CN113808619B - 一种语音情绪识别方法、装置及电子设备

Info

Publication number: CN113808619B
Application number: CN202110929972.9A
Authority: CN
Inventors: 陈蓉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-10-20
Anticipated expiration: 2041-08-13
Also published as: CN113808619A

Abstract

本公开提供了一种语音情绪识别方法、装置及电子设备，包括：获取目标对象的原始语音特征；获取原始语音特征的原始区域，其中，原始区域用于表征原始语音特征在原始粒度中的情绪信息；对原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于原始区域和目标区域对原始语音特征进行处理，得到目标语音特征，其中，目标区域用于表征原始语音特征在目标粒度中的情绪信息，目标粒度大于原始粒度；对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。本公开解决了相关技术中识别语音中情绪的准确率较低的技术问题。

Description

一种语音情绪识别方法、装置及电子设备

技术领域

本公开涉及深度学习技术领域，进一步涉及语音技术领域，尤其涉及一种语音情绪识别方法、装置及电子设备。

背景技术

语音是人类交流中情感的重要载体，语音识别时关注说话者说了什么，而情绪识别是关注说话者是如何说的，人们在不同情绪状态下的语音表达方式会有不同，例如高兴时说话的语调会比较欢快，而烦躁伤心时语气会比较沉闷。

目前，可以通过注意力模型来对语音中的情绪进行识别。但是传统的注意力模型是使用预设的粒度来对语音中有关情绪的信息进行处理的。通过预设的粒度难以得到语音中更多的情绪信息。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了一种语音情绪识别方法、装置及电子设备。以至少解决相关技术中识别语音中情绪的准确率较低的技术问题。

根据本公开的一方面，提供了一种语音情绪识别方法，包括：获取目标对象的原始语音特征；获取原始语音特征的原始区域，其中，原始区域用于表征原始语音特征在原始粒度中的情绪信息；对原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于原始区域和目标区域对原始语音特征进行处理，得到目标语音特征，其中，目标区域用于表征原始语音特征在目标粒度中的情绪信息，目标粒度大于原始粒度；对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。

根据本公开的又一方面，还提供了一种语音情绪识别装置，包括：第一获取模块，用于获取目标对象的原始语音特征；第二获取模块，用于获取原始语音特征的原始区域，其中，原始区域用于表征原始语音特征在原始粒度中的情绪信息；第一处理模块，用于对原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于原始区域和目标区域对原始语音特征进行处理，得到目标语音特征，其中，目标区域用于表征原始语音特征在目标粒度中的情绪信息，目标粒度大于原始粒度；第一识别模块，用于对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一项的语音情绪识别方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据上述任一项的语音情绪识别方法。

在本公开中，可以先获取目标对象的原始语音特征，然后获取原始语音特征的原始区域，其中，原始区域用于描述原始语音特征在原始粒度中的情绪信息，通过对原始区域中包括的至少两个单元进行合并处理，得到处理结果，可以基于该处理结果得到目标区域，其中，目标区域用于描述原始语音特征在目标粒度中的情绪信息，其中，目标粒度大于原始粒度，以使得到的目标语音特征中的包含有不同粒度的目标区域，然后可以对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果，达到了对原始语音特征中的原始区域进行扩展的目的，从而实现通过不同粒度的原始区域以及目标区域来得到包含有多个粒度的情绪信息的目标语音特征，从而对该目标语音特征进行识别，可以提高语音情绪识别的准确率，进而解决相关技术中识别语音中情绪的准确率较低的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种语音情绪识别方法的流程图；

图2是根据本公开实施例的一种原始区域和目标区域的示意图；

图3是根据本公开实施例的另一种原始区域和目标区域的示意图；图4a是根据本公开实施例的一种第一神经网络和第二神经网络的训练过程示意图；

图4b是根据本公开实施例的一种第一神经网络和第二神经网络的训练过程流程图；

图4c是根据本公开实施例的一种第一神经网络和第二神经网络的预测过程流程图；

图5是根据本公开实施例的一种语音情绪识别装置的示意图；

图6是根据本公开实施例的示例电子设备600的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本公开实施例，提供了一种语音情绪识别方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况系，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本公开实施例的一种语音情绪识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取目标对象的原始语音特征。

上述的目标对象可以为待识别情绪的对象。

在一种可选的实施例中，可以通过采集设备采集目标对象的语音信息，然后对语音信息进行处理，得到目标对象的原始语音特征。其中，采集设备可以是收音装置、麦克风等设备。

在另一种可选的实施例中，采集设备采集到的语音信息中可以会出现的混叠、高次谐波失真等问题，因此，可以先对语音信息进行预处理，得到预处理后的语音信息，然后通过特征提取网络提取预处理后的语音信息中的原始语音特征。其中，特征提取网络可以为卷积神经网络。

可选的，对语音信息进行预处理的过程可以为，先检测语音信息中语音信号的起始点和终止点，根据语音信号的起始点和终止点可以将语音信号转化为短时平稳分析帧的加窗分帧，可以对转化后的语音信号的高频部分进行加重，以增强转化后的语音信号中的分辨率，从而实现对语音信息的预处理。

步骤S104，获取原始语音特征的原始区域。

其中，原始区域用于表征原始语音特征在原始粒度中的情绪信息。

在一种可选的实施例中，可以通过第一神经网络获取原始语音特征的原始区域，其中，第一神经网络可以为多层卷积神经网络，第一神经网络主要用于获取原始语音特征中有关于情绪信息的原始区域，第一神经网络可以为注意力模型。

上述的粒度用于描述同一维度下数据的粗细程度，其中，原始粒度可以为1，也可以是其他的任何值。

上述的情绪信息可以是原始语音特征中有关于情绪的特征，其中，情绪信息可以为伤心的情绪信息、快乐的情绪信息、激动的情绪信息、愤怒的情绪信息等。

步骤S106，对原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于原始区域和目标区域对原始语音特征进行处理，得到目标语音特征。

其中，目标区域用于表征原始语音特征在目标粒度中的情绪信息，目标粒度大于原始粒度。

上述的目标区域可以是通过对原始区域扩展后得到的区域，上述目标区域的数量可以为一个也可以为多个。其中，目标区域的数量可以根据需求自行设定，目标区域的数量还可以是对原始区域进行扩展所得到的最多目标区域的数量。

上述的原始区域中可以包括有两个以上的单元，可以对其中至少两个单元进行合并处理。

在一种可选的实施例中，还可以对原始区域中的每个单元进行合并处理，基于处理结果得到目标区域。

在另一种可选的实施例中，在获取到目标区域之后，可以将原始区域和目标区域进行合并，并基于合并后的原始区域和目标区域对原始语音特征进行处理，得到目标语音特征，其中，目标语音特征中包括有原始区域和目标区域，即，目标语音特征相对于原始语音特征其所包含有的有关于情绪信息的区域增多。

上述的目标粒度可以是大于原始粒度的多个粒度，其中，若原始粒度的大小为1，则目标粒度的大小可以为2、3等。

步骤S108，对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。

在一种可选的实施例中，可以使用包含有多粒度区域的目标语音特征作为待识别的语音特征，以便在识别该目标语音特征的过程中，可以自适应的确定出目标语音特征中哪种粒度的区域更适合当前的情绪识别问题，从而得到更加精确的语音情绪结果。

在另一种可选的实施例中，可以通过第二神经网络对目标语音特征进行识别，预测得到与目标语音特征匹配的语音情绪结果。其中，第二神经网络可以为多层卷积神经网络，第二神经网络主要用于对目标语音特征进行分类识别，以确定目标语音特征对应的语音情绪结果，第二神经网络可以为分类模型。

在另一种可选的实施例中，可以对目标语音特征进行识别，预测得到目标语音特征在各类语音情绪中的概率值，也即上述的语音情绪结果，并按照各类语音情绪的概率值中从大到小进行排列，确定概率值最大的语音情绪为目标语音特征对应的语音情绪。

通过上述步骤，可以先获取目标对象的原始语音特征，然后获取原始语音特征的原始区域，其中，原始区域用于描述原始语音特征在原始粒度中的情绪信息，通过对原始区域中包括的至少两个单元进行合并处理，得到处理结果，可以基于该处理结果得到目标区域，其中，目标区域用于描述原始语音特征在目标粒度中的情绪信息，其中，目标粒度大于原始粒度，以使得到的目标语音特征中的包含有不同粒度的目标区域，然后可以对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果，达到了赌对原始语音特征中的原始区域进行扩展的目的，从而实现通过不同粒度的原始区域以及目标区域来得到包含有多个粒度的情绪信息的目标语音特征，从而对该目标语音特征进行识别，可以提高语音情绪识别的准确率，进而解决相关技术中识别语音中情绪的准确率较低的技术问题。

可选地，目标区域包括如下至少之一：第一区域、第二区域，目标粒度包括如下至少之一：第一粒度、第二粒度，对原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，包括：将原始区域中的第一单元和第一相邻单元进行合并，得到合并后的第一区域，其中，第一区域用于描述原始语音特征在第一粒度中的情绪信息，第一粒度大于原始粒度，第一相邻单元为与第一单元相邻的一个单元；将原始区域中的第二单元和第二相邻单元进行合并，得到合并后的第二区域，其中，第二区域用于描述原始语音特征在第二粒度中的情绪信息，第二粒度大于第一粒度，第二相邻单元为与第二单元相邻的两个单元。

上述的第一单元可以是原始区域中具有一个以上相邻单元的一个单元或者多个单元，还可以是原始区域中具有一个以上相邻单元的所有单元。

上述的第二单元可以是原始区域中具有两个以上相邻单元的一个单元或者多个单元，还可以是原始区域中具有两个以上相邻单元的所有单元。

在一种可选的实施例中，可以将原始区域中的第一单元和第一相邻单元进行合并，得到合并后的第一区域，其中，第一区域的第一粒度相对于原始区域的原始粒度更大。

如图2为根据本公开实施例的一种原始区域和目标区域的示意图，其中，原始区域中可以包括四个单元，其中，可以将四个单元中的每个单元与相邻的一个单元进行合并，得到三个单元，其三个单元对应的区域为第一区域。其中，原始区域可以是大小为1网格，第一区域可以是大小为2的网格。

如图3所示的原始区域中可以包括九个单元，其中，可以将九个单元中的每个单元按照列与相邻的一个单元进行合并，得到六个单元，其六个单元对应的区域为第一区域，还可以将九个单元中的每个单元按照行与相邻的一个单元进行合并，得到六个单元，其六个单元对应的区域为第一区域。其中，原始区域可以是大小为3*3的网格，第一区域可以是大小为1*2的网格，第一区域还可以是大小为2*1的网格。

在另一种可选的实施例中，可以将原始区域中的每个单元和第二相邻单元进行合并，得到第二区域，其中，第二区域的第二粒度相对于第一区域的第一粒度更大。

如图2所示的原始区域中可以包括四个单元，其中，可以将四个单元中的每个单元与相邻的两个单元进行合并，得到两个单元。需要说明的是，存在有单元无相邻的两个单元时，可以将该单元合并至存在有相邻两个单元的单元中。其两个单元对应的区域为第二区域。其中，第二区域可以是大小为3的网格。

如图3所示的原始区域中可以包括九个单元，其中，可以将九个单元中的每个单元与相邻的两个单元进行合并，得到四个单元。需要说明的是，存在有单元无相邻的两个单元时，可以将该单元合并至存在有相邻两个单元的单元中。其四个单元对应的区域为第三区域。其中，第三区域可以是大小为2*2的网格。

可选地，基于原始区域和目标区域对原始语音特征进行处理，包括：获取原始区域中每个单元的第一键值；对每个单元的第一键值进行处理，得到原始区域的第一目标键值；获取目标区域中每个单元的第二键值；对每个单元的第二键值进行处理，得到目标区域的第二目标键值；基于第一目标键值和第二目标键值对原始语音特征进行处理，得到目标语音特征。

上述的第一键值可以为原始区域的键值对(“key＝value”)。上述的第二键值可以为目标区域的键值对。

在一种可选的实施例中，可以获取原始区域中每个单元的第一键值，并求多个第一键值的平均值，得到原始区域的第一目标键值。还可以求多个第一键值中的最大值，并将多个第一键值中值最大的键值作为第一目标键值。还可以对多个第一键值求和，得到第一目标键值。

在另一种可选的实施例中，可以获取目标区域中每个单元的第二键值，并求多个第二键值的平均值，得到原始区域的第二目标键值。还可以求多个第二键值中的最大值，并将多个第二键值中值最大的键值作为第二目标键值。还可以对多个第二键值求和，得到第二目标键值。

在又一种可选的实施例中，可以根据第一目标键值对原始语音特征的原始区域进行处理，得到处理后的原始区域，可以根据第二目标键值对目标区域进行处理，得到处理后的目标区域，基于处理后的原始区域和处理后的目标区域可以得到目标语音特征。

可选地，获取原始语音特征的原始区域，包括：利用第一神经网络获取原始语音特征的原始区域。

可选地，对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果，包括：利用第二神经网络对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。

可选地，该方法还包括：获取样本语音数据；根据预设时长对样本语音数据进行划分，得到样本语音片段；提取样本语音片段中的样本语音特征；基于样本语音特征对第一预设神经网络和第二预设神经网络进行训练，得到第一神经网络和第二神经网络。

上述的样本语音数据可以从交互式情绪二元运动捕捉(iemocap)中得到。

上述的预设时长可以为2秒。

上述的样本语音数据对应有情绪标签。示例性的，样本语音数据可以为生气的语音，其对应的标签为生气；样本语音数据可以为伤心的语音，其对应的标签为伤心；样本语音数据可以为激动的语音，其对应的标签为激动；样本语音数据可以为高兴的语音，其对应的标签为高兴。

在一种可选的实施例中，可以根据预设时长对样本语音数据进行划分，得到样本语音片段，其中，样本语音片段具有与样本语音数据对应的情绪标签。需要说明的是，划分得到的样本语音片段中会存在一部分的重叠，例如，样本语音片段的时长为2秒，其中存在重叠的语音片段为1秒。通过对样本语音数据进行划分得到样本语音片段实际上为对样本语音数据进行数据增广的过程，通过更多的样本来对神经网络进行训练，可以使得到的神经网络更加的准确。

在另一种可选的实施例中，在得到样本语音片段后，可以通过梅尔频谱(mel-spectrogram)提取样本语音片段中的样本语音特征。

在另一种可选的实施例中，可以将样本语音特征输入到第一预设神经网络中，训练得到第一神经网络，并根据第一预设网络输出的特征对第二预设神经网络进行训练，具体的，可以将第一预设网络输出的特征输入到第二预设神经网络中，训练得到第二神经网络。

可选地，基于样本语音特征对第一预设神经网络和第二预设神经网络进行训练，得到第一神经网络和第二神经网络，包括：利用预设卷积层对样本语音特征进行处理，得到样本抽象特征；利用样本抽象特征对第一预设神经网络进行训练，得到第一神经网络，并输出样本目标特征；基于样本目标特征对第二预设神经网络进行训练，输出训练结果，并得到第二神经网络。

上述的预设卷积层的数量可以为5个。上述的预设卷积层可以为卷积神经网络。

在一种可选的实施例中，可以根据预设卷积层对样本语音特征进行处理，得到样本抽象特征，然后将样本抽象特征输入到第一预设神经网络中，得到不同粒度的区域，以便提取到样本抽样特征中的重要部分，得到样本目标特征。

在另一种可选的实施例中，在得到样本目标特征之后，可以将样本目标特征输入到第二预设神经网络中，计算得到样本目标特征在各个类别的情绪标签中的概率值，并得到第二神经网络。

可选地，利用样本抽象特征对第一预设神经网络进行训练，得到第一神经网络，并输出样本目标特征，包括：利用样本抽象特征对第一预设神经网络中原始区域对应的第一键值和目标区域对应的第二键值进行训练，得到第一神经网络；并利用第一神经网络提取样本语音特征中的样本目标特征。

在一种可选的实施例中，通过样本抽象特征可以对第一预设神经网络中原始区域对应的第一键值和目标区域对应的第二键值进行训练，使得原始区域对应的第一键值和目标区域对应的第二键值更加的准确，从而使得到的第一神经网络更加的准确。通过该第一神经网络可以更加精确的提取到样本语音特征中的重要部分，也即上述的样本目标特征。

可选地，基于样本目标特征对第二预设神经网络进行训练，输出训练结果，并得到第二神经网络，包括：将样本目标特征输入到第二预设神经网络中；利用第二预设神经网络确定样本目标特征在预设标签中的目标概率，得到第二神经网络。

上述的预设标签可以为预设的各种类型的情绪标签。

在一种可选的实施例中，样本目标特征在预设标签中的目标概率是指样本目标特征对应于每种情绪类型的标签的概率值，若某种情绪类型的概率值最大，则说明该样本目标特征与该情绪对应。

可选地，在基于样本目标特征对第二预设神经网络进行训练，输出训练结果，并得到第二神经网络之后，方法还包括：基于目标损失函数和训练结果对第一神经网络和第二神经网络进行更新。

上述的目标损失函数用于表示训练结果与预测值的不一致程度。通过目标损失函数可以计算到训练结果的损失值，并根据该损失值可以对第一神经网络和第二神经网络进行更新，以达到对第一神经网络和第二神经网络进行优化的效果。

在一种可选的实施例中，还可以利用梯度优化器(Adam)来反向更新第一神经网络和第二神经网络，以达到优化第一神经网络和第二神经网络的效果。

下面结合图4a对本公开一种优选的实施例进行详细说明。

如图4a所示为第一神经网络和第二神经网络训练过程的示意图，可以利用梅尔频谱获取到原始语音特征，然后采用卷积层1A和卷积层1B对原始语音特征进行处理，分别得到两个处理后的原始语音特征，将两个处理后的原始语音特征进行拼接，将拼接后的原始语音特征输入到卷积层2、将卷积层2输出的结果输出到卷积层3中，将卷积层3输出的结果输出到卷积层4中，将卷积层4输出的结果输出到卷积层5中，然后将卷积层5输出的结果输入到注意力层中，也即上述的第一神经网络，得到目标语音特征，将目标语音特征输出到全连接层中，也即上述的第二神经网络，得到与目标语音特征匹配的语音情绪识别结果。其中，卷积层2和卷积层3之后连接有池化层。

上述的卷积层1A可以为Conv1A：10×2×1×8；上述的卷积层1B可以为Conv1B：2×8×1×8。上述的卷积层2可以为Conv2：3×3×16×32；上述的卷积层3可以为Conv3：3×3×32×48；上述的卷积层4可以为Conv4：3×3×48×64；上述的卷积层5可以为Conv5：3×3×64×60；上述的池化层可以为Max pooling：2×2；上述的注意力层可以为Area Attention；上述的全连接层可以为Fully Connected layer。

下面结合图4b对本公开的一种训练第一神经网络和第二神经网络的实施例进行详细说明。

步骤S401，使用交互式情绪二元运动捕捉数据集，将该数据集中的四种情绪数据提取出来作为训练数据；

上述的交互式情绪二元运动捕捉数据集为IEMOCAP数据集。

其中，四种情绪数据可以为angry(生气)、sad(伤心)、excited(激动)、neutral(自然)提取出来，可以将四种情绪数据中的80％作为训练数据，将四种情绪数据中的20％作为验证数据。

其中，训练数据可以划分为2秒的片段，重叠为1秒，每个片段使用同样的情绪标签，可以作为一种数据增广的方式。

步骤402：对训练数据中的特征提取，提取有效的人声语音数据中的样本语音特征；

上述的样本语音特征为mel-spectrogram特征。

步骤403：利用上述样本语音特征对区域注意力网络进行训练，得到样本目标特征。

上述的区域注意力网络对应于第一神经网络。

其中，对区域注意力网络进行训练的过程可以为，将上述的样本语音特征提经过5个卷积层，获得抽象特征，即，样本抽象特征；然后经过区域注意力网络，得到不同粒度下的注意力，提取特征中更重要的部分，即样本目标特征。

步骤S404，将样本目标特征输入至全连接层和分类层，得到在各个情绪类别上的概率，结合标签计算损失。

进一步地，可以通过Adam优化器反向更新网络参数，迭代多轮，直至网络收敛。

上述的全连接层和分类层对应于第二神经网络。

步骤S405:利用20％验证数据对区域注意力网络、全连接层以及分类层进行验证。

下面结合图4c对本公开的一种训练第一神经网络和第二神经网络的实施例进行详细说明。

预测步骤如下：

步骤S406：获取待预测语音情绪的数据；

步骤S407：通过特征提取模块对待预测语音情绪的数据进行特征提取，得到原始语音特征，对原始语音特征进行处理得到目标语音特征。

上述的目标语音特征为mel-spectrogram特征。

步骤S408，通过训练好的第二神经网络对目标语音特征中的情绪进行预测，得到待预测语音情绪的数据在四类情绪上的概率值，以概率最大的情绪类别为最终预测结果。

根据本公开实施例，根据本发明实施例，还提供了一种语音情绪识别装置，该装置可以执行上述实施例中的语音情绪识别方法，具体实现方式和优选应用场景与上述实施例相同，在此不做赘述。

图5是根据本公开实施例的一种语音情绪识别装置的示意图，如图5所示，该装置包括：

第一获取模块502，用于获取目标对象的原始语音特征；

第二获取模块504，用于获取原始语音特征的原始区域，其中，原始区域用于表征原始语音特征在原始粒度中的情绪信息；

第一处理模块506，用于对原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于原始区域和目标区域对原始语音特征进行处理，得到目标语音特征，其中，目标区域用于表征原始语音特征在目标粒度中的情绪信息，目标粒度大于原始粒度；

第一识别模块508，用于对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。

可选地，目标区域包括如下至少之一：第一区域、第二区域，目标粒度包括如下至少之一：第一粒度、第二粒度，第一处理模块包括：第一合并单元，用于将原始区域中的第一单元和第一相邻单元进行合并，得到合并后的第一区域，其中，第一区域用于描述原始语音特征在第一粒度中的情绪信息，第一粒度大于原始粒度，第一相邻单元为与第一单元相邻的一个单元；第二合并单元，用于将原始区域中的第二单元和第二相邻单元进行合并，得到合并后的第二区域，其中，第二区域用于描述原始语音特征在第二粒度中的情绪信息，第二粒度大于第一粒度，第二相邻单元为与第二单元相邻的两个单元。

可选地，第一处理模块包括：第一获取单元，用于获取原始区域中每个单元的第一键值；第一处理单元，用于对每个单元的第一键值进行处理，得到原始区域的第一目标键值；第二获取单元，用于获取目标区域中每个单元的第二键值；第二处理单元，用于对每个单元的第二键值进行处理，得到目标区域的第二目标键值；第三处理单元，用于基于第一目标键值和第二目标键值对原始语音特征进行处理，得到目标语音特征。

可选地，第一获取模块包括：第三获取单元，用于利用第一神经网络获取原始语音特征的原始区域。

可选地，第一获取模块包括：第一识别单元，用于利用第二神经网络对目标语音特征进行识别，得到与目标语音特征匹配的语音情绪结果。

可选地，该装置包括：第三获取模块，用于获取样本语音数据；第一划分模块，用于根据预设时长对样本语音数据进行划分，得到样本语音片段；第一提取模块，用于提取样本语音片段中的样本语音特征；第一训练模块，用于基于样本语音特征对第一预设神经网络和第二预设神经网络进行训练，得到第一神经网络和第二神经网络。

可选地，第一训练模块包括：第四处理单元，利用预设卷积层对样本语音特征进行处理，得到样本抽象特征；第一训练单元，用于利用样本抽象特征对第一预设神经网络进行训练，得到第一神经网络，并输出样本目标特征；第二训练单元，用于基于样本目标特征对第二预设神经网络进行训练，输出训练结果，并得到第二神经网络。

可选地，第一训练单元包括：第一训练子单元，用于利用样本抽象特征对第一预设神经网络中原始区域对应的第一键值和目标区域对应的第二键值进行训练，得到第一神经网络；第一提取子单元，用于利用第一神经网络提取样本语音特征中的样本目标特征。

可选地，第二训练单元包括：第一输入子单元，用于将样本目标特征输入到第二预设神经网络中；第一确定子单元，用于利用第二预设神经网络确定样本目标特征在预设标签中的目标概率，得到第二神经网络。

可选地，该装置还包括：更新模块，用于基于目标损失函数和训练结果对第一神经网络和第二神经网络进行更新。

根据本公开实施例，还提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实任一语音情绪识别方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一语音情绪识别方法。

一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述实施例1中的情绪识别方法。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如方法XXX。例如，在一些实施例中，方法XXX可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的方法XXX的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法XXX。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音情绪识别方法，包括：

获取目标对象的原始语音特征；

获取所述原始语音特征的原始区域，其中，所述原始区域用于表征所述原始语音特征在原始粒度中的情绪信息；

对所述原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于所述原始区域和所述目标区域对所述原始语音特征进行处理，得到目标语音特征，其中，所述目标区域用于表征所述原始语音特征在目标粒度中的所述情绪信息，所述目标粒度大于所述原始粒度，所述目标语音特征相对于所述原始语音特征包含的有关于情绪信息的特征增多；

对所述目标语音特征进行识别，得到与所述目标语音特征匹配的语音情绪结果；

其中，

获取所述原始语音特征的原始区域，包括：

利用第一神经网络获取所述原始语音特征的所述原始区域；

对所述目标语音特征进行识别，得到与所述目标语音特征匹配的语音情绪结果，包括：

利用第二神经网络对所述目标语音特征进行识别，得到与所述目标语音特征匹配的所述语音情绪结果。

2.根据权利要求1所述的方法，其中，所述目标区域包括如下至少之一：第一区域、第二区域，所述目标粒度包括如下至少之一：第一粒度、第二粒度，对所述原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，包括：

将所述原始区域中的第一单元和第一相邻单元进行合并，得到合并后的所述第一区域，其中，所述第一区域用于描述所述原始语音特征在所述第一粒度中的情绪信息，所述第一粒度大于所述原始粒度，所述第一相邻单元为与所述第一单元相邻的一个单元；

将所述原始区域中的第二单元和第二相邻单元进行合并，得到合并后的所述第二区域，其中，所述第二区域用于描述所述原始语音特征在所述第二粒度中的情绪信息，所述第二粒度大于所述第一粒度，所述第二相邻单元为与所述第二单元相邻的两个单元。

3.根据权利要求1所述的方法，其中，基于所述原始区域和所述目标区域对所述原始语音特征进行处理，得到目标语音特征，包括：

获取所述原始区域中每个单元的第一键值；

对所述每个单元的所述第一键值进行处理，得到所述原始区域的第一目标键值；

获取所述目标区域中所述每个单元的第二键值；

对所述每个单元的所述第二键值进行处理，得到所述目标区域的第二目标键值；

基于所述第一目标键值和所述第二目标键值对所述原始语音特征进行处理，得到所述目标语音特征。

4.根据权利要求1所述的方法，还包括：

获取样本语音数据；

根据预设时长对所述样本语音数据进行划分，得到样本语音片段；

提取所述样本语音片段中的样本语音特征；

基于所述样本语音特征对第一预设神经网络和第二预设神经网络进行训练，得到所述第一神经网络和所述第二神经网络。

5.根据权利要求4所述的方法，其中，基于所述样本语音特征对第一预设神经网络和第二预设神经网络进行训练，得到第一神经网络和第二神经网络，包括：

利用预设卷积层对所述样本语音特征进行处理，得到样本抽象特征；

利用所述样本抽象特征对所述第一预设神经网络进行训练，得到所述第一神经网络，并输出样本目标特征；

基于所述样本目标特征对所述第二预设神经网络进行训练，输出训练结果，并得到所述第二神经网络。

6.根据权利要求5所述的方法，其中，利用样本抽象特征对所述第一预设神经网络进行训练，得到第一神经网络，并输出样本目标特征，包括：

利用所述样本抽象特征对所述第一预设神经网络中所述原始区域对应的第一键值和所述目标区域对应的第二键值进行训练，得到所述第一神经网络；

并利用所述第一神经网络提取所述样本语音特征中的所述样本目标特征。

7.根据权利要求5所述的方法，其中，基于所述样本目标特征对所述第二预设神经网络进行训练，输出训练结果，并得到第二神经网络，包括：

将所述样本目标特征输入到所述第二预设神经网络中；

利用所述第二预设神经网络确定所述样本目标特征在预设标签中的目标概率，得到所述第二神经网络。

8.根据权利要求7所述的方法，在基于所述样本目标特征对所述第二预设神经网络进行训练，输出训练结果，并得到第二神经网络之后，还包括：

基于目标损失函数和所述训练结果对所述第一神经网络和所述第二神经网络进行更新。

9.一种语音情绪识别装置，包括：

第一获取模块，用于获取目标对象的原始语音特征；

第二获取模块，用于获取所述原始语音特征的原始区域，其中，所述原始区域用于表征所述原始语音特征在原始粒度中的情绪信息；

第一处理模块，用于对所述原始区域中包括的至少两个单元进行合并处理，基于处理结果得到目标区域，并基于所述原始区域和所述目标区域对所述原始语音特征进行处理，得到目标语音特征，其中，所述目标区域用于表征所述原始语音特征在目标粒度中的所述情绪信息，所述目标粒度大于所述原始粒度，所述目标语音特征相对于所述原始语音特征包含的有关情绪信息的特征增多；

第一识别模块，用于对所述目标语音特征进行识别，得到与所述目标语音特征匹配的语音情绪结果；

其中，第二获取模块还用于利用第一神经网络获取所述原始语音特征的所述原始区域；

第一识别模块还用于利用第二神经网络对所述目标语音特征进行识别，得到与所述目标语音特征匹配的所述语音情绪结果。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。