CN111312292A

CN111312292A - 基于语音的情绪识别方法、装置、电子设备及存储介质

Info

Publication number: CN111312292A
Application number: CN202010100148.8A
Authority: CN
Inventors: 刘帅朋; 江会星
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-19

Abstract

本申请实施例公开了一种基于语音的情绪识别方法、装置、电子设备及存储介质，该方法包括：获取待识别语音数据；生成待识别语音数据对应的语谱图；将待识别语音数据对应的语谱图输入情绪识别模型，得到待识别语音数据对应的情绪识别结果。本申请实施例由于直接使用待识别语音数据的语谱图，而不需要将待识别语音数据转换为文本，语谱图包含了更加丰富的信息量，而且基于深度学习的情绪识别模型相对于基于传统机器学习和特征工程的方法，特征抽取与建模能力更加强大，从而可以提升情绪识别结果的准确性。

Description

基于语音的情绪识别方法、装置、电子设备及存储介质

技术领域

本申请实施例及语音处理技术领域，特别是涉及一种基于语音的情绪识别方法、装置、电子设备及存储介质。

背景技术

现有技术中，通过语音进行情绪识别的方法主要有两种：第一种是利用语音识别技术，先将语音识别为文本，然后基于文本进行情绪识别；第二种是直接利用语音数据对说话者的情绪进行建模。第二种方法主要是基于传统机器学习和特征工程的方法，首先对音频信号提取声学特征，主要包括韵律学特征、基于谱的特征、声音质量特征等，然后利用传统机器学习的算法(如LR、SVM、HMM等)对情绪进行建模。

在背景噪声较多的场景中，语音识别的结果会存在较多噪声，这些噪声会影响情绪识别的结果。而传统机器学习效果严重依赖于特征工程的好坏，而语音应用中使用的特征往往要求参与的人具有较高的声学背景知识，与此同时，传统机器学习算法的建模能力也相对较弱，这些因素一起限制了该类算法的效果。

发明内容

本申请实施例提供一种基于语音的情绪识别方法、装置、电子设备及存储介质，以提升识别结果的准确性。

为了解决上述问题，第一方面，本申请实施例提供了一种基于语音的情绪识别方法，包括：

获取待识别语音数据；

生成所述待识别语音数据对应的语谱图；

将所述待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果。

第二方面，本申请实施例提供了一种基于语音的情绪识别装置，包括：

数据获取模块，用于获取待识别语音数据；

语谱图生成模块，用于生成所述待识别语音数据对应的语谱图；

情绪识别模块，用于将所述待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果。

第三方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的基于语音的情绪识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例公开的基于语音的情绪识别方法的步骤。

本申请实施例提供的基于语音的情绪识别方法、装置、电子设备及存储介质，通过获取待识别语音数据，生成待识别语音数据对应的语谱图，将待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到待识别语音数据对应的情绪识别结果，由于直接使用待识别语音数据的语谱图，而不需要将待识别语音数据转换为文本，语谱图包含了更加丰富的信息量，而且基于深度学习的情绪识别模型相对于基于传统机器学习和特征工程的方法，特征抽取与建模能力更加强大，从而可以提升情绪识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的基于语音的情绪识别方法的流程图；

图2是本申请实施例二的基于语音的情绪识别方法的流程图；

图3是本申请实施例三的基于语音的情绪识别方法的流程图；

图4是本申请实施例四的基于语音的情绪识别装置的结构示意图；

图5是本申请实施例五的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本实施例提供的一种基于语音的情绪识别方法，如图1所示，该方法包括：步骤110至步骤130。

步骤110，获取待识别语音数据。

在需要识别说话人的情绪时，可以采集该说话人的音频信号，将音频信号转换为数字信号，得到音频数据，将该音频数据作为待识别语音数据。

在本申请的一个实施例中，所述获取待识别语音数据的步骤包括：采集电话通话中的音频信号；对所述音频信号进行声道分离，并将分离得到的单声道音频数据分别作为所述待识别语音数据。

在待识别情绪的说话人为电话通话中的双方时，可以采集这两个说话人的音频信号，将采集到的音频信号转换为数字信号，对数字信号进行声道分离，得到两个单声道音频数据，将分离得到的单声道音频数据分别作为待识别语音数据，从而可以对每个单声道音频数据分别进行情绪识别，得到电话通话中的双方的情绪识别结果。

对电话通话中的说话人进行情绪识别一个比较重要的应用场景是客服热线，客服热线是一些公司对外服务的重要交流通道，在售前、售中和售后的各个环节中发挥着重要作用，为用户提供意见处理、资料管理、技术支持等多项服务。通过对客服和用户的情绪进行识别，可以改善服务水平。在客服热线电话通话中，可以采集音频信号，将采集到的音频信号转换为对应的数字信号，基于转转换后的数字信号，对音频信号进行声道分离，提取音频信号中的客服坐席侧声道对应的音频数据和用户侧对应的音频数据，即得到两个单声道音频数据，将这两个单声道音频数据分别作为待识别语音数据，后续可以基于每个待识别语音数据分别进行情绪识别，从而在客服坐席侧或用户侧的情绪识别结果不佳时，可以对坐席侧客服进行提醒，使得客服可以改善服务水平。

步骤120，生成所述待识别语音数据对应的语谱图。

其中，语谱图即语音频谱图，是指通过处理接收的语音时域信号得到语音频谱图，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。在语谱图中，由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色越深，表示该点的语音数据能量越强。

所述语谱图可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。在生成待识别语音数据对应的MFCC时，对待识别语音数据进行分帧和加窗，在分帧时，对于相邻两帧可以有一段重叠区域，如可以重叠1/3，这样可以避免相邻两帧之间的变化太大，对每帧进行加窗可以消除每帧两端的信号不连续性；对分帧和加窗处理后的每一帧，进行傅里叶变化得到对应的频谱；将得到的频谱通过梅尔滤波器组得到梅尔频谱，对梅尔频谱进行倒谱分析，得到MFCC。

步骤130，将所述待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果。

其中，所述情绪识别模型可以包括深度卷积神经网络、注意力机制和全连接神经网络。所述深度卷积神经网络可以是预训练深度卷积神经网络，例如可以是VGGish，VGGish是一种预训练深度学习模型，它是VGG模型的的变种，可用于将声音提取成128维特征，该模型是使用AudioSet训练集训练得到的。

将待识别语音数据对应的语谱图输入训练完成的情绪识别模型，通过情绪识别模型对待识别语音数据进行情绪识别，得到待识别语音数据对应的情绪识别结果。其中，情绪识别模型可以是一个分类模型，情绪识别结果可以包括情绪类别和对应的概率，如情绪识别结果可以包括激动和对应的概率，以及不激动和对应的概率，还可以包括声调以及对应的概率等。这里，情绪识别模型为分类模型，只是举例，不作为限定。

在本申请的一个实施例中，将所述待识别语音数据对应的语谱图输入所述基于深度学习的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果，包括：将所述待识别语音数据对应的语谱图输入所述基于深度学习的情绪识别模型，通过情绪识别模型中的深度卷积神经网络提取所述待识别语音数据对应的语谱图中的音频特征；通过注意力机制对所述音频特征进行处理，得到处理后音频特征；通过情绪识别模型中的全连接神经网络对所述处理后音频特征进行情绪识别，得到所述待识别语音数据对应的情绪识别结果。

将待识别语音数据对应的语谱图输入训练完成的情绪识别模型，通过深度卷积神经网络提取语谱图中的音频特征，之后通过注意力机制对音频特征进行处理，捕获音频特征中的关键语音片段的信息，忽略噪声干扰，得到处理后音频特征，之后通过全连接神经网络对处理后音频特征进行情绪识别，得到待识别语音数据对应的情绪识别结果。通过注意力机制可以有效的捕获音频特征中的有效语音信息，忽略噪声的干扰，从而可以提高情绪识别结果的准确性。

注意力机制可以模仿生物观察行为的内部过程，是一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，从而通过注意力机制可以快速提取到音频特征中的重要的语音特征，而忽略噪声的干扰。注意力机制例如可以是自注意力机制，自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。当然，本申请并不限于自注意力机制，也可以使用其他注意力机制，只要能够提取到音频特征的有用信息即可。

本申请实施例提供的基于语音的情绪识别方法，通过获取待识别语音数据，生成待识别语音数据对应的语谱图，将待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到待识别语音数据对应的情绪识别结果，由于直接使用待识别语音数据的语谱图，而不需要将待识别语音数据转换为文本，语谱图包含了更加丰富的信息量，而且基于深度学习的情绪识别模型相对于基于传统机器学习和特征工程的方法，特征抽取与建模能力更加强大，从而可以提升情绪识别结果的准确性。

实施例二

本实施例提供的一种基于语音的情绪识别方法，如图2所示，该方法包括：步骤210至步骤270。

步骤210，获取情绪识别模型的初始训练样本集，所述初始训练样本集中的每个训练样本包括语音样本数据的语谱图和对应的情绪标注。

可以根据初始训练样本集的存储位置获取初始训练样本集，或者，接收用户导入的初始训练样本集。初始训练样本集中的训练样本是人工进行标注的训练样本，每个训练样本包括语音样本数据的语谱图和情绪标注，即每个训练样本包括语谱图和与语谱图对应的情绪标注。所述情绪标注可以包括激动、不激动等。

步骤220，采用预设数据增强方式，分别对每个训练样本中的语谱图进行音频数据增强处理，得到每个训练样本对应的增强语谱图，并将所述语谱图对应的情绪标注作为所述增强语谱图的情绪标注，得到新的训练样本。

针对初始训练样本集中的每个训练样本，可以采用不同的预设数据增强方式，分别对该训练样本中的语谱图进行音频数据增强处理，可以得到多个增强语谱图。一个训练样本通过一种预设数据增强方式处理后得到一个增强语谱图，从而一个训练样本通过多种预设数据增强方式处理后得到多个增强语谱图，如一个训练样本通过三种预设数据增强方式处理后得到三个增强语谱图，将该训练样本中的语谱图对应的情绪标注作为多个增强语谱图的情绪标注，从而将多个增强语谱图和对应的情绪标注组成多个新的训练样本。

其中，所述预设数据增强方式可以包括时域调整、频率覆盖和时域覆盖中的至少一种。时域调整是指对语谱图中的预设步长内的随机点在水平方向进行变形的调整方式。频率覆盖是指对语谱图中的预设频率范围进行掩膜覆盖。时域覆盖是指对语谱图中的预设时间范围进行掩膜覆盖。

在对一个训练样本的语谱图进行时域调整时，假设该训练样本的语谱图的时间步长为τ，可以将该语谱图视为一张图像，时间轴为水平维度，频率轴为垂直维度，在该语谱图中对于时间步长为(W,τ-W)的图像，对穿过图像中心水平线的随机点进行变形，该随机点变形后位于变形前左侧或右侧距离w的位置。其中，w从[0,W]的均匀分布中选择，W为时间变形参数。

在对一个训练样本的语谱图进行频率覆盖时，以该语谱图为梅尔频率倒谱为例，对f个连续的梅尔频率通道[f,f0+f)应用掩膜，f是从[0,F]的均匀分布中选择得到，F为频率掩膜参数，f0从[0,v-f)中选择得到，v代表梅尔频率通道的数量。

在对一个训练样本的语谱图进行时域覆盖时，在该语谱图中，对时间范围[t0,t0+t)上连续时间的频谱应用掩膜覆盖，t是从[0,T]的均匀分布中选择得到，t0是[0,τ-t)之间的一个值，τ为语谱图的时间步长，T为时域掩膜参数。

在对一个训练样本中的语谱图进行时域调整、频率覆盖和时域覆盖中的至少两种音频数据增强处理时，依次进行每种音频数据增强处理，如对一个语谱图进行时域调整和频率覆盖时，可以先对语谱图进行时域调整，之后再对时域调整后的语谱图进行频率覆盖，或者，先对语谱图进行频率覆盖，之后再对频率覆盖后的语谱图进行时域调整。

对一个训练样本中的语谱图可以分别采用时域调整、频率覆盖和时域覆盖进行处理，从而可以得到三个不同的增强语谱图；也可以对一个训练样本中的语谱图采用时域调整、频率覆盖和时域覆盖中至少两种进行处理，这会有四种组合方式，从而可以得到更多的增强语谱图。

对每个训练样本中的语谱图分别进行一种或多种预设数据增强方式的处理，一个训练样本可以得到一个或多个新的训练样本，从而扩充了训练样本，可以降低模型过拟合的问题。

步骤230，将所述新的训练样本补充到所述初始训练样本集中，得到训练样本集。

将对每个训练样本进行音频数据增强处理得到的新的训练样本与初始训练样本集组成训练样本集。所述训练样本集用于训练情绪识别模型。通过对初始训练样本集进行数据增强处理得到的新的训练样本，扩充了训练样本，从而在初始训练样本集中的训练样本较少的情况下达到训练样本较多的效果，可以减少模型过拟合的情况。

步骤240，根据所述训练样本集，对基于深度学习的情绪识别模型进行训练，得到训练完成的情绪识别模型。

在对情绪识别模型进行训练时，从训练样本集中选取一批训练样本，将该批训练样本依次输入情绪识别模型，得到对应的情绪识别结果，根据该批训练样本的情绪识别结果以及训练样本中的情绪标注，调整情绪识别模型中的网络参数，再选取一批训练样本输入情绪识别模型并调整网络参数，依次进行选取训练样本并调整网络参数的操作，直至网络参数收敛，得到训练完成的情绪识别模型。

若情绪识别模型包括深度卷积神经网络、注意力机制和全连接神经网络，对情绪识别模型的网络参数进行初始化时，深度卷积神经网络的初始化网络参数为预训练得到的网络参数，并对注意力机制和全连接神经网络的网络参数进行初始化，基于初始化网络参数对情绪识别模型进行训练，基于训练样本的情绪识别结果和对应的情绪标注对网络参数进行调整。若深度卷积神经网络使用VGGish，该预训练模型是基于AudioSet大规模数据集预训练而来，已经具备较好的语义抽取能力，从而通过迁移学习的方式，可以有效提升算法效果。

步骤250，获取待识别语音数据。

步骤260，生成待识别语音数据对应的语谱图。

步骤270，将所述待识别语音数据对应的语谱图输入所述训练完成的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果。

本申请实施例提供的基于语音的情绪识别方法，通过获取情绪识别模型的初始训练样本集，采用预设数据增强方式分别对每个训练样本中的语谱图进行音频数据增强处理，得到每个训练样本对应的增强语谱图，并将语谱图对应的情绪标注作为增强语谱图的情绪标注，得到多个新的训练样本，将多个新的训练样本补充到初始训练样本集中，得到训练样本集，根据训练样本集，对基于深度学习的情绪识别模型进行训练，得到训练完成的情绪识别模型，在获取到待识别语音数据对应的语谱图后，将待识别语音数据对应的语谱图输入训练完成的情绪识别模型，得到待识别语音数据对应的语谱图输入训练完成的情绪识别模型，得到待识别语音数据对应的情绪识别结果，由于直接使用待识别语音数据的语谱图，而不需要将待识别语音数据转换为文本，待识别语音数据包含了更加丰富的信息量，而且基于深度学习的情绪识别模型，特征抽取与建模能力更加强大，从而可以提升情绪识别结果的准确性，而且通过对语谱图进行音频数据增强处理，丰富了训练样本的数量，从而使用较少的初始训练样本的情况下可以得到样本较多的效果，从而可以降低标注数据的获取成本。

实施例三

本实施例提供的一种基于语音的情绪识别方法，本方法应用于客服热线中对客服和用户的情绪分别进行识别的具体场景中，如图3所示，该方法包括：步骤310至步骤380。

步骤310，获取情绪识别模型的初始训练样本集，所述初始训练样本集中的每个训练样本包括语音样本数据的语谱图和对应的情绪标注。

步骤320，采用预设数据增强方式，分别对每个训练样本中的语谱图进行音频数据增强处理，得到每个训练样本对应的增强语谱图，并将所述语谱图对应的情绪标注作为所述增强语谱图的情绪标注，得到新的训练样本。

步骤330，将所述新的训练样本补充到所述初始训练样本集中，得到训练样本集。

步骤340，根据所述训练样本集，对基于深度学习的情绪识别模型进行训练，得到训练完成的情绪识别模型。

其中，情绪识别模型包括预训练深度卷积神经网络、注意力机制和全连接神经网络。

步骤350，采集电话通话中的音频信号。

步骤360，对所述音频信号进行声道分离，得到客服坐席侧音频数据和用户侧音频数据，之后分别执行步骤370和步骤380。

步骤370，生成所述客服坐席侧音频数据对应的语谱图，作为第一语谱图，将所述第一语谱图输入训练完成的情绪识别模型，得到客服坐席侧音频数据对应的情绪识别结果。

在连续预设时间内，若客服坐席侧音频数据对应的情绪识别结果持续不佳时，如情绪识别结果中激动的概率持续大于第一预设概率值或者声调大于第二预设概率值时，可以对客服坐席侧的客服进行提醒，以使得客服坐席侧可以改善语气，提升用户体验。

步骤380，生成所述用户侧音频数据对应的语谱图，作为第二语谱图，将所述第二语谱图输入训练完成的情绪识别模型，得到用户侧音频数据对应的情绪识别结果。

在连续预设时间内，若用户侧音频数据对应的情绪识别结果持续不佳时，如情绪识别结果中激动的概率持续大于第一预设概率值或者声调大于第二预设概率值时，可以对客服坐席侧的客服进行提醒，以使得客服坐席侧可以安抚用户情绪，提升用户体验。

各个步骤的具体内容可以参见上述实施例中的相关步骤，这里不再赘述。

本申请实施例提供的基于语音的情绪识别方法，对电话通话中的说话者进行情绪识别，直接利用音频数据进行情绪的识别，避免了语音转文字过程中引入的噪声干扰，准确率和实效性有较大提升；相比于传统机器学习和特征工程的方法，避免了特征工程环节，直接使用语谱图，同时结合深度神经网络的强大特征抽取能力，自动发现有用特征，从而整体性能更强；而且通过数据增强和预训练模型技术，同样数据量条件下，模型更不容易过拟合，从而取得更好的情绪识别效果。

实施例四

本实施例提供的一种基于语音的情绪识别装置，如图4所示，所述基于语音的情绪识别装置400包括：

数据获取模块410，用于获取待识别语音数据；

语谱图生成模块420，用于生成所述待识别语音数据对应的语谱图；

情绪识别模块430，用于将所述待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果。

可选的，所述情绪识别模块包括：

音频特征提取单元，用于将所述待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，通过情绪识别模型中的深度卷积神经网络提取所述待识别语音数据对应的语谱图中的音频特征；

注意力处理单元，用于通过注意力机制对所述音频特征进行处理，得到处理后音频特征；

情绪识别单元，用于通过情绪识别模型中的全连接神经网络对所述处理后音频特征进行情绪识别，得到所述待识别语音数据对应的情绪识别结果。

可选的，所述深度卷积神经网络是预训练深度卷积神经网络。

可选的，所述数据获取模块包括：

音频信号采集单元，用于采集电话通话中的音频信号；

声道分离单元，用于对所述音频信号进行声道分离，并将分离得到的单声道音频数据分别作为所述待识别语音数据；

可选的，所述装置还包括：

初始样本获取模块，用于获取情绪识别模型的初始训练样本集，所述初始训练样本集中的每个训练样本包括语音样本数据的语谱图和对应的情绪标注；

新样本生成模块，用于采用预设数据增强方式，分别对每个训练样本中的语谱图进行音频数据增强处理，得到每个训练样本对应的增强语谱图，并将所述语谱图对应的情绪标注作为所述增强语谱图的情绪标注，得到新的训练样本；

样本扩充模块，用于将所述新的训练样本补充到所述初始训练样本集中，得到训练样本集；

模型训练模块，用于根据所述训练样本集，对基于深度学习的情绪识别模型进行训练，得到训练完成的情绪识别模型。

可选的，所述预设数据增强方式包括时域调整、频率覆盖和时域覆盖中的至少一种；

其中，所述时域调整是指对语谱图中的预设步长内的随机点在水平方向进行变形的调整方式；所述频率覆盖是指对语谱图中的预设频率范围进行掩膜覆盖；所述时域覆盖是指对语谱图中的预设时间范围进行掩膜覆盖。

本申请实施例提供的基于语音的情绪识别装置，用于实现本申请实施例中所述的基于语音的情绪识别方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本申请实施例提供的基于语音的情绪识别装置，通过数据获取模块获取待识别语音数据，语谱图生成模块生成待识别语音数据对应的语谱图，情绪识别模块将待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型，得到待识别语音数据对应的情绪识别结果，由于直接使用待识别语音数据对应的语谱图，而不需要将待识别语音数据转换为文本，待识别语音数据包含了更加丰富的信息量，而且基于深度学习的情绪识别模型相对于基于传统机器学习和特征工程的方法，特征抽取与建模能力更加强大，从而可以提升情绪识别结果的准确性。

实施例五

本申请实施例还提供了一种电子设备，如图5所示，该电子设备500可以包括一个或多个处理器510以及与处理器510连接的一个或多个存储器520。电子设备500还可以包括输入接口530和输出接口540，用于与另一装置或***进行通信。被处理器510执行的程序代码可存储在存储器520中。

电子设备500中的处理器510调用存储在存储器520的程序代码，以执行上述实施例中的基于语音的情绪识别方法。

上述电子设备中的上述元件可通过总线彼此连接，总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。

本申请实施例还公提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的基于语音的情绪识别方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请实施例提供的一种基于语音的情绪识别方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种基于语音的情绪识别方法，包括：

获取待识别语音数据；

生成所述待识别语音数据对应的语谱图；

2.根据权利要求1所述的方法，将所述待识别语音数据对应的语谱图输入所述基于深度学习的情绪识别模型，得到所述待识别语音数据对应的情绪识别结果，包括：

将所述待识别语音数据对应的语谱图输入所述基于深度学习的情绪识别模型，通过情绪识别模型中的深度卷积神经网络提取所述待识别语音数据对应的语谱图中的音频特征；

通过注意力机制对所述音频特征进行处理，得到处理后音频特征；

通过情绪识别模型中的全连接神经网络对所述处理后音频特征进行情绪识别，得到所述待识别语音数据对应的情绪识别结果。

3.根据权利要求2所述的方法，其特征在于，所述深度卷积神经网络是预训练深度卷积神经网络。

4.根据权利要求1所述的方法，所述获取待识别语音数据的步骤包括：

采集电话通话中的音频信号；

对所述音频信号进行声道分离，并将分离得到的单声道音频数据分别作为所述待识别语音数据。

5.根据权利要求1所述的方法，在所述将所述待识别语音数据对应的语谱图输入基于深度学习的情绪识别模型之前，还包括：

获取情绪识别模型的初始训练样本集，所述初始训练样本集中的每个训练样本包括语音样本数据的语谱图和对应的情绪标注；

采用预设数据增强方式，分别对每个训练样本中的语谱图进行音频数据增强处理，得到每个训练样本对应的增强语谱图，并将所述语谱图对应的情绪标注作为所述增强语谱图的情绪标注，得到新的训练样本；

将所述新的训练样本补充到所述初始训练样本集中，得到训练样本集；

根据所述训练样本集，对基于深度学习的情绪识别模型进行训练，得到训练完成的情绪识别模型。

6.根据权利要求5所述的方法，所述预设数据增强方式包括时域调整、频率覆盖和时域覆盖中的至少一种；

7.一种基于语音的情绪识别装置，包括：

数据获取模块，用于获取待识别语音数据；

8.根据权利要求7所述的装置，所述情绪识别模块包括：

音频特征提取单元，用于将所述待识别语音数据对应的语谱图输入所述基于深度学习的情绪识别模型，通过情绪识别模型中的深度卷积神经网络提取所述待识别语音数据对应的语谱图中的音频特征；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的基于语音的情绪识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至6任意一项所述的基于语音的情绪识别方法的步骤。