CN113571096B

CN113571096B - 语音情绪分类模型训练方法、装置、计算机设备及介质

Info

Publication number: CN113571096B
Application number: CN202110836890.XA
Authority: CN
Inventors: 张超; 魏韬; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-04-07
Anticipated expiration: 2041-07-23
Also published as: CN113571096A

Abstract

本发明公开了一种语音情绪分类模型训练方法、装置、计算机设备及存储介质，该方法通过确定每一个待识别语音数据的包括目标对象以及目标情绪标签的目标情绪识别结果；将待识别语音数据输入至包含初始参数的预设分类模型中，通过预设分类模型对待识别语音数据进行情绪跟踪识别，得到与待识别语音数据对应的包括预测对象以及预测情绪标签的预测情绪识别结果；根据目标对象、目标情绪标签、预测对象以及预测情绪标签确定预设分类模型的预测损失值；在预测损失值未达到预设的收敛条件时，迭代更新预设分类模型中的初始参数，直至预测损失值达到收敛条件时，将收敛之后的预设分类模型记录为语音情感分类模型。本发明提高了语音情绪识别的准确率。

Description

语音情绪分类模型训练方法、装置、计算机设备及介质

技术领域

本发明涉及分类模型技术领域，尤其涉及一种语音情绪分类模型训练方法、装置、计算机设备及介质。

背景技术

情绪识别在智能人机交互***，特别是自动客户服务***中起到非常重要的作用。比如，在自动客户服务***中，***需要即时识别用户对话中表露出来的情绪，以便针对情绪采取相应的措施。

现有技术中，主要是通过机器识别将语音数据先转换为文本，再对文本进行文本情绪识别。然而上述方法仅利用了语音数据中文本信息所反映的情绪信息，丢失了语音数据中的情绪信息，进而导致情绪识别准确率较低；并且在将语音数据转换为文本时，若发生了文本转换错误，则更容易导致情绪识别准确率较低。

发明内容

本发明实施例提供一种语音情绪分类模型训练方法、装置、计算机设备及介质，以解决情绪识别准确率较低的问题。

一种语音情绪分类模型训练方法，包括：

获取预设语音训练集；所述预设语音训练集中包含至少一个待识别语音数据；

确定每一个所述待识别语音数据的目标情绪识别结果；每一个所述目标情绪识别结果中包括至少一个目标对象以及与所述目标对象对应的目标情绪标签；一个目标对象对应至少一个目标情绪标签；

将所述待识别语音数据输入至包含初始参数的预设分类模型中，通过所述预设分类模型对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果；所述情绪识别结果中包括预测对象以及与所述预测对象对应的预测情绪标签；

根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值；

在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型。

一种语音情绪分类模型训练装置，包括：

语音训练集获取模块，用于获取预设语音训练集；所述预设语音训练集中包含至少一个待识别语音数据；

目标情绪识别结果确定模块，用于确定每一个所述待识别语音数据的目标情绪识别结果；每一个所述目标情绪识别结果中包括至少一个目标对象以及与所述目标对象对应的目标情绪标签；一个目标对象对应至少一个目标情绪标签；

预测情绪识别结果确定模块，用于将所述待识别语音数据输入至包含初始参数的预设分类模型中，通过所述预设分类模型对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果；所述情绪识别结果中包括预测对象以及与所述预测对象对应的预测情绪标签；

预测损失值确定模块，用于根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值；

模型更新训练模块，用于在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音情绪分类模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音情绪分类模型训练方法。

上述语音情绪分类模型训练方法、装置、计算机设备及存储介质，该方法通过获取预设语音训练集；所述预设语音训练集中包含至少一个待识别语音数据；确定每一个所述待识别语音数据的目标情绪识别结果；每一个所述目标情绪识别结果中包括至少一个目标对象以及与所述目标对象对应的目标情绪标签；一个目标对象对应至少一个目标情绪标签；将所述待识别语音数据输入至包含初始参数的预设分类模型中，通过所述预设分类模型对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果；所述情绪识别结果中包括预测对象以及与所述预测对象对应的预测情绪标签；根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值；在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型。

本发明通过预设分类模型对待识别语音数据进行情绪识别时，采用情绪跟踪识别的方法跟踪待识别语音数据中相同的情绪，使得相同情绪间的语音片段进行融合判断，生成准确率更高的预测情绪标签，进而提高情绪识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音情绪分类模型训练方法的一应用环境示意图；

图2是本发明一实施例中语音情绪分类模型训练方法的一流程图；

图3是本发明一实施例中语音情绪分类模型训练方法中步骤S30的一流程图；

图4是本发明一实施例中语音情绪分类模型训练装置的一原理框图；

图5是本发明一实施例中语音情绪分类模型训练装置中预测情绪识别结果确定模块的一原理框图；

图6是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音情绪分类模型训练方法，该语音情绪分类模型训练方法可应用如图1所示的应用环境中。具体地，该语音情绪分类模型训练方法应用在语音情绪分类模型训练***中，该语音情绪分类模型训练***包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决情绪识别准确率较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音情绪分类模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取预设语音训练集；所述预设语音训练集中包含至少一个待识别语音数据；

可以理解地，待识别语音数据是指需要进行情绪识别的语音数据，基于不同的应用场景，待识别语音数据的数据来源不同。示例性地，如在智能客服应用场景中，待识别语音数据可以是***接收到的用户的语音数据。

S20：确定每一个所述待识别语音数据的目标情绪识别结果；每一个所述目标情绪识别结果中包括至少一个目标对象以及与所述目标对象对应的目标情绪标签；一个目标对象对应至少一个目标情绪标签；

可以理解地，目标对象即为待识别语音数据中的参与方，示例性地，在智能客服应用场景中，待识别语音数据可能包含用户、机器人或者客服三个目标对象。目标情绪标签指的是目标对象在对话过程中的情绪，该目标情绪标签可以包括但不限于如开心情绪标签、伤心情绪标签、平静情绪标签或者愤怒情绪标签；进一步地，目标情绪标签表征的是待识别语音数据中目标对象在某一语音片段时的情绪，而不是目标对象在整个待识别语音数据中的情绪，也即针对一个待识别语音数据中的每一个语音片段均存在一个目标对象的目标情绪标签。进一步地，本实施例中的目标对象和目标情绪标签可以通过人工标注的方式进行确定，也可以通过下述步骤进行确定。

在一实施例中，步骤S20中，包括：

对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的所有目标对象；

可以理解地，角色识别是指识别出待识别语音数据中不同的说话对象的方法，针对于每一个不同的说话对象的声纹特征都是不同的，因此可以根据待识别语音数据中的声纹特征确定出所有的目标对象。

将所述待识别语音数据划分为与各所述目标对象对应的语音数据片段；一个所述目标对象对应至少一个语音数据片段；

可以理解地，在对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的所有目标对象之后，可以根据各目标对象对待识别语音数据进行划分，也即将待识别语音数据划分成多个语音数据片段，每个语音数据片段均为一个目标对象的对话数据；而在整个待识别语音数据中可能是多个目标对象的多轮对话语音数据组成的，因此在待识别语音数据中，一个目标对象对应至少一个语音数据片段，也即一个目标对象可能对应一个语音数据片段，也可能对应多个语音数据片段。

对各所述语音数据片段进行语音情绪识别，得到与各所述语音数据片段对应的目标情绪标签；

可以理解地，语音情绪识别即为确定语音数据片段中目标对象的对话情绪的方法。

在一实施例中，所述对各所述语音数据片段进行语音情绪识别，得到与各所述语音数据片段对应的目标情绪标签，包括：

对所述语音数据片段进行语音预处理，得到预处理后的所述语音数据片段的语音预处理特征；

可以理解地，语音预处理是指对语音数据片段中除了目标对象的对话人声语音之外的其它语音(如噪音、背景音)进行消除的过程，进而在提取预处理后的语音数据片段的语音预处理特征时的准确率较高。语音预处理特征即为预处理后的语音数据片段中的目标对象的声音特征。

对所述语音数据片段进行端点检测以及语音过滤处理，得到与各所述语音数据片段对应的语音数据特征；

可以理解地，端点检测是用于检测语音数据片段中目标对象的对话人声语音的开始时间点以及结束时间点的方法。语音过滤处理是用于过滤语音数据片段中除了目标对象的对话人声语音之外的噪音、静音等其它声音的方法。语音数据特征即为端点检测以及语音过滤处理后的语音数据片段中目标对象的声音特征。

对所述语音预处理特征以及所述语音数据特征进行特征融合，得到语音融合特征，并对所述语音融合特征进行特征降维，得到语音情绪特征；

可以理解地，通过对上述不同语音处理方式得到的语音预处理特征以及语音数据特征进行特征融合，可以更加准确的反应待识别语音数据中的语音特征信息，进而提高情绪识别的准确率。对语音融合特征进行特征降维之后，可以更好的显现语音融合特征中的情绪变化特征，进而提高情绪识别的准确率。

根据所述语音情绪特征确定与各所述语音数据片段对应的目标情绪标签。

具体地，在对所述语音融合特征进行特征降维，得到语音情绪特征之后，可以将语音情绪特征输入至训练完成的情绪识别模型中，进而使得该情绪识别模型输出与各语音数据片段对应的目标情绪标签。

根据各所述语音数据片段对应的目标对象以及所述目标情绪标签，生成所述目标情绪识别结果。

具体地，在根据所述语音情绪特征确定与各所述语音数据片段对应的目标情绪标签之后，根据各语音数据片段对应的目标对象以及目标情绪标签，生成目标情绪识别结果，也即目标情绪识别结果中包含每一语音数据片段对应的目标对象以及目标情绪标签。

S30：将所述待识别语音数据输入至包含初始参数的预设分类模型中，对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果；所述情绪识别结果中包括预测对象以及与所述预测对象对应的预测情绪标签；

可以理解地，预设分类模型可以为基于深度学习网络和分类器构建的模型，该预设分类模型用于对待识别语音数据进行情绪跟踪识别。情绪跟踪识别是指在对待识别语音数据进行识别过程中，对待识别语音数据中的情绪进行跟踪识别，以提高情绪识别的准确性。预测对象是指通过预设分类模型进行情绪跟踪识别时识别到在待识别语音数据中的所有对话者。预测情绪标签表征各预测对象对话时的情绪。

在一实施例中，如图3所示，步骤S30中，也即所述对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果，包括：

S301：对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的预测对象；

可以理解地，角色识别是指识别出待识别语音数据中不同的说话对象的方法，针对于每一个不同的说话对象的声纹特征都是不同的，因此可以通过预设分类模型根据待识别语音数据中的声纹特征确定出所有的预测对象。进一步地，本实施例中的预测对象与目标对象均为待识别语音数据中的对话对象，而步骤S20中确定出的目标对象是准确的，本实施例中确定的预测对象可能是正确的也可能是错误的，因此在针对相同的语音数据片段预设分类模型确定的预测对象与目标对象不同时，则可以通过目标对象与预测对象之间的区别调整预设分类模型的初始参数，使得预设分类模型可以准确区分不同对象之间的声纹特征。

S302：根据各所述预测对象对所述待识别语音数据进行划分，得到包含与各预测对象对应的待识别语音片段的语音序列，所述语音序列中的各所述待识别语音片段按照其在所述待识别语音数据中的时间顺序排列；一个所述预测对象对应至少一个待识别语音片段；

可以理解地，在对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的预测对象之后，可以根据各预测对象对待识别语音数据进行划分，也即将待识别语音数据划分成多个待识别语音片段，每个待识别语音片段均为一个预测对象的对话数据；而在整个待识别语音数据中可能是多个预测对象的多轮对话语音数据组成的，因此在待识别语音数据中，一个预测对象对应至少一个待识别语音片段，也即一个预测对象可能对应一个待识别语音片段，也可能对应多个待识别语音片段。

进一步地，在将待识别语音数据以各预测对象划分成多个待识别语音片段之后，将各待识别语音片段按照在待识别语音数据中的时间顺序排列，形成语音序列。可以理解地，每个待识别语音片段均是从待识别语音数据中划分出来的，因此各待识别语音片段在待识别语音数据中具有时间上的先后顺序，也即对话生成的先后顺序，进而可以将各待识别语音片段按照在待识别语音数据中的时间顺序排列，形成语音序列。

S303：对各所述待识别语音片段进行初始情绪识别，得到与各所述待识别语音片段对应的初始语音情绪；

可以理解地，初始情绪识别即为确定各待识别语音片段中预测对象的对话情绪的方法。具体地，对待识别语音片段进行语音预处理，得到预处理后的待识别语音片段的第一待识别特征；对待识别语音片段进行端点检测以及语音过滤处理，得到与各所述待识别语音片段对应的第二待识别特征；对第一待识别特征以及第二待识别特征进行特征融合，得到待识别融合特征，并对待识别融合特征进行特征降维，得到待识别情绪特征，进而根据该待识别情绪特征确定初始语音情绪。

S304：获取在所述语音序列中相邻且与同一预测对象对应的两个待识别语音片段各自对应的初始语音情绪，并根据获取的两个所述初始语音情绪确定情绪变化特征；

可以理解地，情绪变化特征表征了在语音序列中相邻且与同一预测对象对应的两个待识别语音片段各自对应的初始语音情绪之间的关系；示例性地，情绪变化特征可以为两个初始语音情绪未发生变化的特征(例如两个初始语音情绪均为开心情绪)；情绪变化特征可以为两个初始语音情绪发生变化的特征(例如一个初始语音情绪为开心情绪，另一个初始语音情绪为伤心情绪)。

在一实施例中，步骤S304中，包括：

对获取的两个所述初始语音情绪进行情绪比较，确定情绪比较结果；

可以理解地，情绪比较即确定获取的两个初始语音情绪是否为相同的情绪，进而得到情绪比较结果。进一步地，若初始语音情绪中的种类较多，例如开心情绪中分为：大笑情绪，愉悦情绪等同类情绪，则可以通过判定两个初始语音情绪是否为同类别情绪，进而确定情绪比较结果。

在所述情绪比较结果为相同情绪结果时，确定所述情绪变化特征为跟踪情绪特征；所述相同情绪结果表征获取的两个所述初始语音情绪相同；

可以理解地，在对获取的两个初始语音情绪进行情绪比较，确定情绪比较结果之后，若两个初始语音情绪相同(或者如上述说明中初始语音情绪中的种类较多时，若两个初始语音情绪为同类别情绪，则可以认为两个初始语音情绪相同)，则可以确定情绪比较结果为相同情绪结果，进而确定情绪变化特征为跟踪情绪特征，也即需要对这两个初始语音情绪对应的待识别语音片段进行情绪跟踪。

在所述情绪比较结果为不同情绪结果时，确定所述情绪变化特征为单体情绪特征；所述不同情绪结果表征获取的两个所述初始语音情绪不同。

可以理解地，在对获取的两个初始语音情绪进行情绪比较，确定情绪比较结果之后，若两个初始语音情绪不同(或者如上述说明中初始语音情绪中的种类较多时，若两个初始语音情绪为不同类别情绪，则可以认为两个初始语音情绪不同)，则可以确定情绪比较结果为不同情绪结果，进而确定情绪变化特征为单体情绪特征，也即这两个初始语音情绪对应的待识别语音片段不需要进行情绪跟踪。

S305：根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签；

具体地，在根据获取的两个所述初始语音情绪确定情绪变化特征之后，根据待识别语音片段、初始语音情绪以及情绪变化特征，确定与各待识别语音片段对应的预测情绪标签。

在一实施例中，步骤S305中，包括：

在所述情绪变化特征为所述单体情绪特征，根据与第一语音片段对应的初始语音情绪，确定与所述第一语音片段对应的预测情绪标签；所述第一语音片段是指获取的两个所述初始语音情绪中前一个初始语音情绪对应的待识别语音片段；

根据与所述第二语音片段对应的初始语音情绪，确定与第二语音片段对应的预测情绪标签；所述第二语音片段是指获取的两个所述初始语音情绪中后一个初始语音情绪对应的待识别语音片段。

可以理解地，在根据获取的两个所述初始语音情绪确定情绪变化特征之后，若情绪变化特征为单体情绪特征，则可以直接根据第一语音片段对应的初始语音情绪确定与第一语音片段对应的预测情绪标签，且直接根据第二语音片段对应的初始语音情绪确定与第二语音片段对应的预测情绪标签。其中，第一语音片段和第二语音片段的先后顺序即为在待识别语音数据中的对话发生先后顺序。

在一实施例中，步骤S305中，还包括：

在所述情绪变化特征为所述跟踪情绪特征时，对所述第一语音片段与所述第二语音片段进行语音融合，得到语音融合片段；

可以理解地，在情绪变化特征为跟踪情绪特征时，表征获取的两个初始语音情绪相同，因此需要对这两个初始语音情绪对应的待识别语音片段进行语音融合，也即对第一语音片段以及第二语音片段进行语音融合，得到语音融合片段，进而可以对相同情绪之间语音片段进行跟踪，提高相同情绪识别的准确率。

对所述语音融合片段进行语音情绪识别，得到与所述第二语音片段对应的预测情绪标签；

可以理解地，对所述第一语音片段与所述第二语音片段进行语音融合，得到语音融合片段之后，对语音融合片段进行语音情绪识别，确定与第二语音片段对应的预测情绪标签。可以理解地，预测情绪标签可能与初始语音情绪相同，也可能与初始语音情绪不相同。

根据与所述第一语音片段对应的初始语音情绪，确定与所述第一语音片段对应的预测情绪标签。

可以理解地，由于第二语音片段的时间顺序在第一语音片段之后，因此只需要根据第一语音片段对第二语音片段进行情绪跟踪即可，针对第一语音片段，直接根据与第一语音片段对应的初始语音情绪，确定与第一语音片段对应的预测情绪标签。

S306：根据各所述待识别语音片段对应的所述预测对象以及所述预测情绪标签，生成所述预测情绪识别结果。

具体地，在根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签之后，根据各待识别语音片段对应的预测对象以及预测情绪标签，生成预测情绪识别结果，也即预测情绪识别结果中包括与各待识别语音片段关联的预测对象以及预测情绪标签。

S40：根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值；

可以理解地，预测损失值即为预设分类模型对待识别语音数据进行情绪跟踪识别过程中生成的损失。

在一实施例中，步骤S40中，包括：

在所述情绪变化特征为跟踪情绪特征时，获取与第二语音片段对应的初始语音情绪以及预测情绪标签；所述第二语音片段是指获取的两个所述初始语音情绪中后一个初始语音情绪对应的待识别语音片段；

根据与所述第二语音片段对应的初始语音情绪以及预测情绪标签，确定情绪识别损失值；

可以理解地，在待识别语音数据中，若存在情绪变化特征为跟踪情绪特征，则表征待识别语音数据中出现两个相邻且与同一预测对象对应的两个待识别语音片段各自对应的初始语音情绪为相同语音情绪的情况，且在出现情绪变化特征为跟踪情绪特征时，对第一语音片段以及第二语音片段进行融合，并对融合后的语音融合片段进行语音情绪识别生成与第二语音片段对应的预测情绪标签，而该预测情绪标签与初始语音情绪可能相同也可能不同，因此在情绪变化特征为跟踪情绪特征时，第二语音片段对应的初始语音情绪与预测情绪标签之间存在情绪识别损失值。

根据所述情绪识别损失值、目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预测损失值。

可以理解地，在确定出目标对象、目标情绪标签、预测对象以及预测情绪标签之后，确定各目标对象与各预测对象之间的对象损失值，同时确定目标情绪标签与预测情绪标签之间的标签损失值，进而根据情绪识别损失值、对象损失值以及标签损失值，通过预设损失模型确定预测损失值。其中，预设损失模型可以为基于交叉熵损失函数构建的模型，也可以为基于最大似然函数构建的模型等。

进一步地，确定对象损失值和标签损失值的方法如下：将待识别语音数据中目标对象以及目标情绪标签关联的语音数据片段按照时间顺序排列，进而将待识别语音片段关联的预测对象以及预测情绪标签，与序列相同的语音数据片段的目标对象以及目标情绪标签进行比较；也即按照时间排序，将位于第一的语音数据片段对应的目标对象以及目标情绪标签，与位于第一的待识别语音片段对应的预测对象以及预测情绪标签进行比较，确定目标对象与预测对象之间的对象损失值，以及确定目标情绪标签与预测情绪标签之间的标签损失值；进而将位于第二的语音数据片段对应的目标对象以及目标情绪标签，与位于第二的待识别语音片段对应的预测对象以及预测情绪标签进行比较，直至所有语音数据片段与待识别语音片段均比较完成，即可确定预测损失值。

S50：在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型。

可以理解地，该收敛条件可以为预测损失值小于设定阈值的条件，也即在预测损失值小于设定阈值时，停止训练；收敛条件还可以为预测损失值经过了10000次计算后值为很小且不会再下降的条件，也即预测损失值经过 10000次计算后值很小且不会下降时，停止训练，将收敛之后的所述预设分类模型记录为语音情感分类模型。

进一步地，根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值之后，在预测损失值未达到预设的收敛条件时，根据该预测损失值调整预设分类模型的初始参数，并将该待识别语音数据重新输入至调整初始参数后的预设分类模型中，以在该待识别语音数据的预测损失值达到预设的收敛条件时，选取预设语音训练集中另一个待识别语音数据，并执行上述步骤S20至S40，并得到与该待识别语音数据的预测损失值，并在该预测损失值未达到预设的收敛条件时，根据该预测损失值再次调整预设分类模型的初始参数，使得该待识别语音数据的预测损失值达到预设的收敛条件。

如此，在通过预设语音训练集中所有待识别语音数据，对预设分类模型进行训练之后，使得预设分类模型输出的结果可以不断向准确地结果靠拢，让识别准确率越来越高，直至所有待识别语音数据的预测损失值均达到预设的收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型。

在本实施例中，通过预设分类模型对待识别语音数据进行情绪识别时，采用情绪跟踪识别的方法跟踪待识别语音数据中相同的情绪，使得相同情绪间的语音片段进行融合判断，生成准确率更高的预测情绪标签，进而提高情绪识别的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音情绪分类模型训练装置，该语音情绪分类模型训练装置与上述实施例中语音情绪分类模型训练方法一一对应。如图4 所示，该语音情绪分类模型训练装置包括语音训练集获取模块10、目标情绪识别结果确定模块20、预测情绪识别结果确定模块30、预测损失值确定模块 40和模型更新训练模块50。各功能模块详细说明如下：

语音训练集获取模块10，用于获取预设语音训练集；所述预设语音训练集中包含至少一个待识别语音数据；

目标情绪识别结果确定模块20，用于确定每一个所述待识别语音数据的目标情绪识别结果；每一个所述目标情绪识别结果中包括至少一个目标对象以及与所述目标对象对应的目标情绪标签；一个目标对象对应至少一个目标情绪标签；

预测情绪识别结果确定模块30，用于将所述待识别语音数据输入至包含初始参数的预设分类模型中，通过所述预设分类模型对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果；所述情绪识别结果中包括预测对象以及与所述预测对象对应的预测情绪标签；

预测损失值确定模块40，用于根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值；

模型更新训练模块50，用于在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型。

优选地，目标情绪识别结果确定模块20包括：

目标对象确定单元，用于对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的所有目标对象；

语音数据片段划分单元，用于将所述待识别语音数据划分为与各所述目标对象对应的语音数据片段；一个所述目标对象对应至少一个语音数据片段；

目标情绪标签确定单元，用于对各所述语音数据片段进行语音情绪识别，得到与各所述语音数据片段对应的目标情绪标签；

目标情绪识别结果确定单元，用于根据各所述语音数据片段对应的目标对象以及所述目标情绪标签，生成所述目标情绪识别结果。

优选地，如图5所示，预测情绪识别结果确定模块30包括：

预测对象确定单元301，用于对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的预测对象；

语音序列确定单元302，用于根据各所述预测对象对所述待识别语音数据进行划分，得到包含与各预测对象对应的待识别语音片段的语音序列，所述语音序列中的各所述待识别语音片段按照其在所述待识别语音数据中的时间顺序排列；一个所述预测对象对应至少一个待识别语音片段；

初始情绪识别单元303，用于对各所述待识别语音片段进行初始情绪识别，得到与各所述待识别语音片段对应的初始语音情绪；

情绪变化特征确定单元304，用于获取在所述语音序列中相邻且与同一预测对象对应的两个待识别语音片段各自对应的初始语音情绪，并根据获取的两个所述初始语音情绪确定情绪变化特征；

预测情绪标签确定单元305，用于根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签；

预测情绪识别结果确定单元306，用于根据各所述待识别语音片段对应的所述预测对象以及所述预测情绪标签，生成所述预测情绪识别结果。

优选地，情绪变化特征确定单元304包括：

情绪比较子单元，用于对获取的两个所述初始语音情绪进行情绪比较，确定情绪比较结果；

第一情绪变化子单元，用于在所述情绪比较结果为相同情绪结果时，确定所述情绪变化特征为跟踪情绪特征；所述相同情绪结果表征获取的两个所述初始语音情绪相同；

第二情绪变化子单元，用于在所述情绪比较结果为不同情绪结果时，确定所述情绪变化特征为单体情绪特征；所述不同情绪结果表征获取的两个所述初始语音情绪不同。

优选地，预测情绪标签确定单元305包括：

第一预测情绪标签确定子单元，用于在所述情绪变化特征为所述单体情绪特征，根据与所述第一语音片段对应的初始语音情绪，确定与所述第一语音片段对应的预测情绪标签；所述第一语音片段是指获取的两个所述初始语音情绪中前一个初始语音情绪对应的待识别语音片段；

第二预测情绪标签确定子单元，用于根据与所述第二语音片段对应的初始语音情绪，确定与所述第二语音片段对应的预测情绪标签；所述第二语音片段是指获取的两个所述初始语音情绪中后一个初始语音情绪对应的待识别语音片段。

优选地，预测情绪标签确定单元305还包括：

语音融合子单元，用于在所述情绪变化特征为所述跟踪情绪特征时，对所述第一语音片段与所述第二语音片段进行语音融合，得到语音融合片段；

第三预测情绪标签确定子单元，用于对所述语音融合片段进行语音情绪识别，得到与所述第二语音片段对应的预测情绪标签；

第四预测情绪标签确定子单元，用于根据与所述第一语音片段对应的初始语音情绪，确定与所述第一语音片段对应的预测情绪标签。

优选地，预测损失值确定模块40包括：

数据获取单元，用于在所述情绪变化特征为跟踪情绪特征时，获取与第二语音片段对应的初始语音情绪以及预测情绪标签；所述第二语音片段是指获取的两个所述初始语音情绪中后一个初始语音情绪对应的待识别语音片段；

情绪识别损失值确定单元，用于根据与所述第二语音片段对应的初始语音情绪以及预测情绪标签，确定情绪识别损失值；

预测损失值确定单元，用于根据所述情绪识别损失值、目标对象、目标情绪标签、预测对象以及预测情绪标签，通过预设损失模型确定所述预测损失值。

关于语音情绪分类模型训练装置的具体限定可以参见上文中对于语音情绪分类模型训练方法的限定，在此不再赘述。上述语音情绪分类模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中语音情绪分类模型训练方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音情绪分类模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音情绪分类模型训练方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音情绪分类模型训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音情绪分类模型训练方法，其特征在于，包括：

在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型；

所述对所述待识别语音数据进行情绪跟踪识别，得到与所述待识别语音数据对应的预测情绪识别结果，包括：

对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的预测对象；

根据各所述预测对象对所述待识别语音数据进行划分，得到包含与各预测对象对应的待识别语音片段的语音序列，所述语音序列中的各所述待识别语音片段按照其在所述待识别语音数据中的时间顺序排列；一个所述预测对象对应至少一个待识别语音片段；

对各所述待识别语音片段进行初始情绪识别，得到与各所述待识别语音片段对应的初始语音情绪；

获取在所述语音序列中相邻且与同一预测对象对应的两个待识别语音片段各自对应的初始语音情绪，并根据获取的两个所述初始语音情绪确定情绪变化特征；

根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签；

根据各所述待识别语音片段对应的所述预测对象以及所述预测情绪标签，生成所述预测情绪识别结果；

所述根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签，包括：

在所述情绪变化特征为跟踪情绪特征时，对第一语音片段与第二语音片段进行语音融合，得到语音融合片段；所述第一语音片段是指获取的两个所述初始语音情绪中前一个初始语音情绪对应的待识别语音片段；所述第二语音片段是指获取的两个所述初始语音情绪中后一个初始语音情绪对应的待识别语音片段；所述跟踪情绪特征表征获取的两个所述初始语音情绪相同；

2.如权利要求1所述的语音情绪分类模型训练方法，其特征在于，所述确定每一个所述待识别语音数据的目标情绪识别结果，包括：

3.如权利要求1所述的语音情绪分类模型训练方法，其特征在于，所述根据获取的两个所述初始语音情绪确定情绪变化特征，包括：

4.如权利要求3所述的语音情绪分类模型训练方法，其特征在于，所述根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签，包括：

在所述情绪变化特征为所述单体情绪特征，根据与第一语音片段对应的初始语音情绪，确定与所述第一语音片段对应的预测情绪标签；

根据与所述第二语音片段对应的初始语音情绪，确定与第二语音片段对应的预测情绪标签。

5.如权利要求3所述的语音情绪分类模型训练方法，其特征在于，所述根据所述目标对象、目标情绪标签、预测对象以及预测情绪标签，确定所述预设分类模型的预测损失值，包括：

根据所述情绪识别损失值、目标对象、目标情绪标签、预测对象以及预测情绪标签，通过预设损失模型确定所述预测损失值。

6.一种语音情绪分类模型训练装置，其特征在于，包括：

模型更新训练模块，用于在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设分类模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设分类模型记录为语音情感分类模型；

预测情绪识别结果确定模块包括：

预测对象确定单元，用于对所述待识别语音数据进行角色识别，确定所述待识别语音数据中的预测对象；

语音序列确定单元，用于根据各所述预测对象对所述待识别语音数据进行划分，得到包含与各预测对象对应的待识别语音片段的语音序列，所述语音序列中的各所述待识别语音片段按照其在所述待识别语音数据中的时间顺序排列；一个所述预测对象对应至少一个待识别语音片段；

初始情绪识别单元，用于对各所述待识别语音片段进行初始情绪识别，得到与各所述待识别语音片段对应的初始语音情绪；

情绪变化特征确定单元，用于获取在所述语音序列中相邻且与同一预测对象对应的两个待识别语音片段各自对应的初始语音情绪，并根据获取的两个所述初始语音情绪确定情绪变化特征；

预测情绪标签确定单元，用于根据所述待识别语音片段、所述初始语音情绪以及所述情绪变化特征，确定与各所述待识别语音片段对应的预测情绪标签；

预测情绪识别结果确定单元，用于根据各所述待识别语音片段对应的所述预测对象以及所述预测情绪标签，生成所述预测情绪识别结果；

所述预测情绪标签确定单元还包括：

语音融合子单元，用于在所述情绪变化特征为跟踪情绪特征时，对第一语音片段与第二语音片段进行语音融合，得到语音融合片段；所述第一语音片段是指获取的两个所述初始语音情绪中前一个初始语音情绪对应的待识别语音片段；所述第二语音片段是指获取的两个所述初始语音情绪中后一个初始语音情绪对应的待识别语音片段；所述跟踪情绪特征表征获取的两个所述初始语音情绪相同；

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音情绪分类模型训练方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音情绪分类模型训练方法。