CN111210844B

CN111210844B - 语音情感识别模型的确定方法、装置、设备及存储介质

Info

Publication number: CN111210844B
Application number: CN202010079139.5A
Authority: CN
Inventors: 韩文静; 李岩; 姜涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2023-03-24
Anticipated expiration: 2040-02-03
Also published as: CN111210844A

Abstract

本公开的实施例所得到的语音情感识别模型的确定方法、装置、设备及存储介质，可以通过获取语音样本；将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K‑1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K‑1个输出节点为按照指定顺序排列的输出节点；基于预设损失函数根据输出结果，通过确定待训练的语音情感识别模型的损失；当待训练的语音情感识别模型的损失不满足预设条件时，根据损失对待训练的语音情感识别模型的参数进行调整，直至得到训练好的语音情感识别模型，从而可以是的所获得的语音情感识别模型兼顾情感数值的大小和相对顺序，增加情感分类的准确性。

Description

语音情感识别模型的确定方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及语音情感识别模型的确定方法、装置、设备及存储介质。

背景技术

语音情感识别技术有着广泛的应用场景，根据应用领域的不同，不同的情感识别任务所关注的情感种类也有所不同。例如，电话客服中心关注的多为用户的负面情绪程度，尤其要对用户的愤怒、厌恶等情绪进行监控和干预。

相关技术中，通过回归模型可以识别语音片段的情感属性值，同时回归模型的情感属性值的输出是有大小含义的实数值，因此通过回归模型可以根据该语音片段的情感属性值大小对语音情感进行区分。然而，在回归模型训练中使用均方差作为损失函数，在情感属性值的方差大小相同时，对分类的精度较差。

发明内容

本公开提供语音情感识别模型的确定方法、装置、设备及存储介质，以至少解决相关技术中情感分类不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音情感识别模型的确定方法，包括：

获取语音样本；

将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数；

基于预设损失函数根据输出结果，确定待训练的语音情感识别模型的损失；

当待训练的语音情感识别模型的损失不满足预设条件时，根据损失对待训练的语音情感识别模型的参数进行调整，直至当待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型。

可选的，语音样本为标记有K-1个二值标签的向量，获取语音样本包括多个语音片段，二值标签的向量为通过各个语音片段的情感属性预测分值判断得到的向量。

可选的，二值标签的向量的获取方法，包括：

获取第i个语音样本x_i的第i语音片段{x_i,y_i}的情感属性预测分值y_i，通过预设函数：

得到语音样本对应的二值标签向量

r_k为预设阈值。

可选的，上述方法还包括：

获取待识别语音信息，通过训练好的语音情感识别模型对待识别语音信息进行识别，得到待识别语音信息的情感种类。

可选的，将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，包括：

将语音样本输入待训练的语音情感识别模型，利用待训练的语音情感识别模型，提取语音片段的语音向量；

通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本的语音向量进行映射，得到输出结果。

可选的，基于预设损失函数根据输出结果，通过确定待训练的语音情感识别模型的损失，包括：

根据输出结果，通过预设损失函数：

确定待训练的语音情感识别模型的损失，

其中，L(W,b)为预设损失函数计算得到的损失；λ^k为依据训练数据的均衡程度设定的值；x_i为语音片段的语音向量；s()为激活函数的映射；

表示y_i的数值与r_k的大小关系,(1≤k≤K)，即/>

为语音片段的情感属性分值，符号＜代表了情感属性值内在的相对顺序，r₁代表最低分值，r_K代表最高分值；W为不包含输出层权值的权值矩阵，则g(x_i,W)为倒数第二层的输出；

表示第k个输出节点的输出，/>

表示，当

为输出层的各输出节点的输入，经s()映射得到的第k个输出节点的输出。

可选的，对语音样本的语音向量进行映射，得到输出结果，

其中，对语音样本x_i的语音向量进行映射，输出层第k个输出节点的输出为f_k(x_i)：

h(x_i)为第i个语音样本x_i的情感属性分值，r_q∈{r₁,r₂,…,r_K},(r₁＜…r_K-1＜r_K∈Z)，q∈[1,K]。

根据本公开实施例的第二方面，提供一种语音情感识别模型的确定装置，包括：

样本获取模块，用于获取语音样本；

样本分类模块，用于将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数；

损失确定模块，用于基于预设损失函数根据输出结果，确定待训练的语音情感识别模型的损失；

参数调整模块，用于当待训练的语音情感识别模型的损失不满足预设条件时，根据损失对待训练的语音情感识别模型的参数进行调整，直至当待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型。

可选的，二值标签的向量的获取方法，包括：

得到语音样本对应的二值标签向量

r_k为预设阈值。

可选的，上述装置还包括：

语音情感识别模块，用于获取待识别语音信息，通过训练好的语音情感识别模型对待识别语音信息进行识别，得到待识别语音信息的情感种类。

可选的，样本分类模块，包括：

标签向量子模块，用于将语音样本输入待训练的语音情感识别模型，利用待训练的语音情感识别模型，提取语音片段的语音向量；

输出结果子模块，用于通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本的语音向量进行映射，得到输出结果。

可选的，损失确定模块，包括：

损失函数子模块，用于根据输出结果，通过预设损失函数：

确定待训练的语音情感识别模型的损失，

表示y_i的数值与r_k的大小关系,(1≤k≤K)，即/>

表示第k个输出节点的输出，/>

表示，当

可选的，对语音样本的语音向量进行映射，得到输出结果，

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现上述任一语音情感识别模型的确定方法。

根据本公开实施例的第四方面，提供一种存储介质，

当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一语音情感识别模型的确定方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当计算机程序产品被计算机执行时，使得计算机能够执行上述任一语音情感识别模型的确定方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过本公开的实施例所得到的语音情感识别模型的确定方法、装置、设备及存储介质，可以获取语音样本；将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数；基于预设损失函数根据输出结果，通过确定待训练的语音情感识别模型的损失；当待训练的语音情感识别模型的损失不满足预设条件时，根据损失对待训练的语音情感识别模型的参数进行调整，直至当待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型，从而可以使得所获得的语音情感识别模型兼顾情感数值的大小和相对顺序，增加情感分类的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音情感识别模型的确定方法的一种流程图。

图2是根据一示例性实施例示出的一种输出结果获取方法流程图。

图3是根据一示例性实施例示出的一种语音情感识别模型的确定方法的另一种流程图。

图4是根据一示例性实施例示出的一种语音情感识别模型的确定装置的一种框图。

图5是根据一示例性实施例示出的一种用于语音情感识别模型的确定装置500的框图。

图6是根据一示例性实施例示出的一种用于语音情感识别模型的确定装置600的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例的语音情感识别模型的确定方法针对的是智能终端设备中的语音，因此可以通过智能终端设备执行，具体的，该智能终端设备可以为电脑或服务器等。

图1是根据一示例性实施例示出的一种语音情感识别模型的确定方法的一种流程图，如图1所示，语音情感识别模型的确定方法用于语音情感识别模型的训练过程中，包括以下步骤。

在步骤S11中，获取语音样本。

其中，上述语音样本可以为任一长度或格式的语音样本，上述语音样本可以为预先录制的语音样本，也可以为实时获取的语音样本。该语音样本可以为多种类型的情感，例如电话客服中心关注的用户的负面情绪程度，尤其要对用户的愤怒、厌恶等情绪，或智能驾驶***关注的是影响驾驶安全的司机情感状态，例如激动、疲劳等。

在步骤S12中，将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果。

其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数。上述待训练的语音情感识别模型可以为多种类型的网络模型，例如，可以根据需要设计和使用各种类型的神经网络，包括但不局限于全连接层、RNN层、CNN层等各种网络层的组合。

在步骤S13中，基于预设损失函数根据输出结果，确定待训练的语音情感识别模型的损失。

其中，上述预设损失函数可以为多种类型的损失函数，例如交叉熵损失函数。通过预设损失函数根据输出结果，确定待训练的语音情感识别模型的损失，可以根据计算得到的损失对模型的参数进行调整。

在步骤S14中，当待训练的语音情感识别模型的损失不满足预设条件时，根据损失对待训练的语音情感识别模型的参数进行调整，直至当待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型。

其中，当待训练的语音情感识别模型的损失满足预设条件，可以为计算得到的损失小于预设阈值，即通过预设损失函数计算上述网络模型的损失，当得到的损失小于预设阈值时得到训练好的语音情感识别模型。例如，通过计算上述待训练的语音情感识别模型对所述语音样本分类的错误率，当所述错误率小于一定的阈值，则该网络模型满足预设条件，即该网络模型的训练过程结束，输出该网络模型为训练好的语音情感识别模型。

其中，对当待训练的语音情感识别模型的损失不满足预设条件时，可使用反向传播算法进行模型权值更新，对上述待训练的语音情感识别模型参数进行调整。

因此通过本公开的实施例所得到的语音情感识别模型的确定方法，可以获取语音样本；将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数；基于预设损失函数根据输出结果，从而可以是的所获得的语音情感识别模型兼顾情感数值的大小和相对顺序，增加情感分类的准确性。

例如，通过上述待训练的网络模型，将上述语音样本输入待训练的网络模型，得到语音样本的各个语音片段的情感属性预测分值。根据上述情感属性预测分值判断得到二值标签向量。

可选的，二值标签的向量的获取方法，包括：

得到语音样本对应的二值标签向量

r_k为预设阈值。

其中，上述情感属性预测分值可以为通过分析上述语音片段对应的声学特性，所得到的向量，例如，当上述语音片段为某一个字的语音时，通过获取该字的语音所对应的Mel倒普系数、共振峰、基频等。

可见，通过本申请实施例的方法，可以根据上述语音样本的情感属性分值进行比较，得到语音样本对应的二值标签向量。

可选的，上述方法还包括：

其中，该情感种类可以为多种类型的情感，例如电话客服中心关注的用户的负面情绪程度，尤其要对用户的愤怒、厌恶等情绪，或智能驾驶***关注的是影响驾驶安全的司机情感状态，例如激动、疲劳等。

其中，通过训练好的语音情感识别模型对待识别语音信息进行识别，得到待识别语音信息的情感种类，可以为通过上述训练好的网络模型对所获取待识别语音信息进行打分，进而进行情感的分类和识别。

可见，通过训练好的语音情感识别模型对待识别语音信息进行识别，得到待识别语音信息的情感种类，可以便于对语音样本进行对应的分类处理，从而提升客户体验效果和安全性。

可选的，参见图2，将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，包括：

在步骤S21中，将语音样本输入待训练的语音情感识别模型，利用待训练的语音情感识别模型，提取语音片段的语音向量。

其中，上述语音片段的语音向量可以为通过分析上述语音片段对应的声学特性，所得到的向量，例如，当上述语音片段为某一个字的语音时，通过获取该字的语音所对应的Mel倒普系数、共振峰、基频等，组成上述语音片段的情感标签的语音向量，而语音片段的情感标签的标签向量为该语音片段对应的情感属性分值所组成的向量，例如语音的效价、激活度和支配度等。

在步骤S22中，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本的语音向量进行映射，得到输出结果。

通过将语音样本输入待训练的语音情感识别模型，利用待训练的语音情感识别模型，提取语音片段的语音向量，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本的语音向量进行映射，得到输出结果。可以兼顾情感数值的大小和对应语音片段的相对顺序，提高情感识别的准确性和效果。

根据输出结果，通过预设损失函数：

确定待训练的语音情感识别模型的损失，

表示，当/>

为输出层各输出节点的输入，经s()映射得到的第k个输出节点的输出；/>

表示y_i的数值与r_k的大小关系,(1≤k≤K)，即/>

为语音片段的情感属性分值，符号＜代表了情感属性值内在的相对顺序，r₁代表最低分值，r_K代表最高分值；W为不包含输出层权值的权值矩阵，则g(x_i,W)为倒数第二层的输出。

其中，y_i∈{r₁,r₂,…,r_K},(r₁＜…r_K-1＜r_K∈Z)，代表的是该语音片段的情感属性分值，该情感属性分值可以由人工听辩、标注得到，该打分对应上述r₁至r_K之间的某一数值，根据该数值对上述待识别语音信息的情感种类进行判断。例如，该数值处于数值较低的某一区间时对应悲伤的情绪，而当该数值处于较高的某一区间时对应高兴的情绪。从而可以根据情感属性的打分进行语音片段的情感分类，进而根据分类结果进行网络模型的训练，得到训练好的为网络模型。

可选的，对语音样本的语音向量进行映射，得到输出结果，

其中，r_q∈{r₁,r₂,…,r_K},(r₁＜…r_K-1＜r_K∈Z)，代表的是该语音片段的情感属性分值，该情感属性分值可以由人工听辩、标注得到，该打分对应上述r₁至r_K之间的某一数值，根据该数值对上述待识别语音信息的情感种类进行判断。例如，该数值处于数值较低的某一区间时对应悲伤的情绪，而当该数值处于较高的某一区间时对应高兴的情绪。从而可以使训练得到的网络模型可以使所得到的模型在情感预测过程中兼顾情感数值的大小和相对顺序。

图3是根据一示例性实施例示出的一种语音情感识别模型的确定方法的另一种流程图，如图3所示，包括以下步骤。

在步骤S11中，获取语音样本。

可选的，二值标签的向量的获取方法，包括：

得到语音样本对应的二值标签向量

r_k为预设阈值。

可选的，上述方法还包括：

根据输出结果，通过预设损失函数：

确定待训练的语音情感识别模型的损失，

表示y_i的数值与r_k的大小关系,(1≤k≤K)，即/>

表示第k个输出节点的输出，/>

表示，当

可选的，对语音样本的语音向量进行映射，得到输出结果，

图4是根据一示例性实施例示出的一种语音情感识别模型的确定装置的一种框图。参照图4，该装置包括样本获取模块121，样本分类模块122，损失确定模块123，参数调整模块124。

该样本获取模块121被配置为用于获取语音样本；

该样本分类模块122被配置为用于将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数；

该损失确定模块123被配置为用于基于预设损失函数根据输出结果，确定待训练的语音情感识别模型的损失；

该参数调整模块124被配置为用于当待训练的语音情感识别模型的损失不满足预设条件时，根据损失对待训练的语音情感识别模型的参数进行调整，直至当待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型。

可选的，二值标签的向量的获取方法，包括：

得到语音样本对应的二值标签向量

r_k为预设阈值。

可选的，上述装置还包括：

可选的，样本分类模块122，包括：

可选的，损失确定模块123，包括：

损失函数子模块，用于根据输出结果，通过预设损失函数：

确定待训练的语音情感识别模型的损失，

表示y_i的数值与r_k的大小关系,(1≤k≤K)，即/>

表示第k个输出节点的输出，/>

表示，当

为输出层的各输出节点的输入，经s()映射得到的第k个输出节点的输出。/>

可选的，对语音样本的语音向量进行映射，得到输出结果，

因此通过本公开的实施例所得到的语音情感识别模型的确定装置，可以获取语音样本；将语音样本输入待训练的语音情感识别模型，通过待训练的语音情感识别模型的输出层中预设的K-1个输出节点对语音样本进行分类，得到输出结果，其中，输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数；基于预设损失函数根据输出结果，从而可以是的所获得的语音情感识别模型兼顾情感数值的大小和相对顺序，增加情感分类的准确性。

图5是根据一示例性实施例示出的一种用于语音情感识别模型的确定装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM，Static Random-Access Memory)，电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)，可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)，可编程只读存储器(PROM，Programmable Read-Only Memory)，只读存储器(ROM，Read Only Memory)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD，Liquid Crystal Display)和触摸面板(TP，Touch Panel)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC，Microphone)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS(Complementary MetalOxide Semiconductor)或CCD(Charge Coupled Device)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi(Wireless-Fidelity)，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC，Near Field Communication)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID，Radio Frequency Identification)技术，红外数据协会(IrDA，Infrared Data Association)技术，超宽带(UWB，Ultra Wideband)技术，蓝牙(BT，Bluetooth)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital SignalProcessing)、数字信号处理设备(DSPD，Digital Signal Processing Devices)、可编程逻辑器件(PLD，Programmable Logic Device)、现场可编程门阵列(FPGA，FieldProgrammable Gate Array)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音情感识别模型的确定方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM(Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、CD-ROM(Compact DiscRead-Only Memory)、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种用于语音情感识别模型的确定装置600的框图。例如，装置600可以被提供为一服务器。参照图6，装置600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述语音情感识别模型的确定方法。

装置600还可以包括一个电源组件626被配置为执行装置600的电源管理，一个有线或无线网络接口650被配置为将装置600连接到网络，和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作***，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

根据本公开实施例还提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

根据本公开实施例还提供一种计算机程序产品，当计算机程序产品被计算机执行时，使得计算机能够执行上述任一语音情感识别模型的确定方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音情感识别模型的确定方法，其特征在于，包括：

获取语音样本；

将所述语音样本输入待训练的语音情感识别模型，通过所述待训练的语音情感识别模型的输出层中预设的K-1个输出节点对所述语音样本进行分类，得到输出结果，其中，所述输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数，所述语音样本为标记有K-1个二值标签的向量，所述获取语音样本包括多个语音片段，所述二值标签的向量为通过各个所述语音片段的情感属性预测分值判断得到的向量；

基于预设损失函数根据所述输出结果，确定所述待训练的语音情感识别模型的损失；

当所述待训练的语音情感识别模型的损失不满足预设条件时，根据所述损失对所述待训练的语音情感识别模型的参数进行调整，直至当所述待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型；

所述基于预设损失函数根据所述输出结果，通过确定所述待训练的语音情感识别模型的损失，包括：

根据所述输出结果，通过预设损失函数：

确定所述待训练的语音情感识别模型的损失，

表示y_i的数值与r_k的大小关系,(1≤k≤K)，即

表示第k个输出节点的输出，

表示，当

2.根据权利要求1所述的方法，其特征在于，所述二值标签的向量的获取方法，包括：

得到所述语音样本对应的二值标签向量

r_k为预设阈值。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别语音信息，通过所述训练好的语音情感识别模型对所述待识别语音信息进行识别，得到所述待识别语音信息的情感种类。

4.根据权利要求1所述的方法，其特征在于，所述将所述语音样本输入待训练的语音情感识别模型，通过所述待训练的语音情感识别模型的输出层中预设的K-1个输出节点对所述语音样本进行分类，得到输出结果，包括：

将所述语音样本输入待训练的语音情感识别模型，利用所述待训练的语音情感识别模型，提取所述语音片段的语音向量；

通过所述待训练的语音情感识别模型的输出层中预设的K-1个输出节点对所述语音样本的语音向量进行映射，得到输出结果。

5.根据权利要求1所述的方法，其特征在于，所述对所述语音样本的语音向量进行映射，得到输出结果，

其中，对所述语音样本x_i的语音向量进行映射，输出层第k个输出节点的输出为f_k(x_i)：

6.一种语音情感识别模型的确定装置，其特征在于，包括：

样本获取模块，用于获取语音样本；

样本分类模块，用于将所述语音样本输入待训练的语音情感识别模型，通过所述待训练的语音情感识别模型的输出层中预设的K-1个输出节点对所述语音样本进行分类，得到输出结果，其中，所述输出层中预设的K-1个输出节点为按照指定顺序排列的输出节点，K为大于2的正整数，所述语音样本为标记有K-1个二值标签的向量，所述获取语音样本包括多个语音片段，所述二值标签的向量为通过各个所述语音片段的情感属性预测分值判断得到的向量；

损失确定模块，用于基于预设损失函数根据所述输出结果，确定所述待训练的语音情感识别模型的损失；

参数调整模块，用于当所述待训练的语音情感识别模型的损失不满足预设条件时，根据所述损失对所述待训练的语音情感识别模型的参数进行调整，直至当所述待训练的语音情感识别模型的损失满足预设条件时，得到训练好的语音情感识别模型；

所述损失确定模块，包括：

损失函数子模块，用于根据所述输出结果，通过预设损失函数：