CN112133291B

CN112133291B - 一种语种识别模型训练、语种识别的方法和相关装置

Info

Publication number: CN112133291B
Application number: CN201910487339.1A
Authority: CN
Inventors: 褚繁; 赵佰军; 李晋; 方昕; 柳林
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2024-02-13
Anticipated expiration: 2039-06-05
Also published as: CN112133291A

Abstract

本申请公开了一种语种识别模型训练、语种识别的方法和相关装置，该方法包括：语种标签和随机噪声输入生成网络获得伪语种向量；训练语音数据的语种特征输入神经网络获得真语种向量；将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签；基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征，语种标签降低网络收敛难度；神经网络与判别网络处理训练语音数据的语种特征，降低生成网络的模拟复杂度；时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量，提高短时语音语种识别的精度和准确度。

Description

一种语种识别模型训练、语种识别的方法和相关装置

技术领域

本申请涉及语音数据处理技术领域，尤其涉及一种语种识别模型训练、语种识别的方法和相关装置。

背景技术

随着智能识别技术的快速发展，语种识别技术越来越多受到人们的关注。由于某些原因相邻地域的语言可能采用同一种语言但存在一些差别，即，一个语系下可能有多个小语种。针对同一语系下的小语种，语种识别技术的准确性要求较高。

目前，语种识别方法主要是基于全变量因子分析技术，具体地，提取待识别语音数据中反映语种信息的语种特征；通过前向-后向算法(Baum-Welch算法)按时序计算每帧待识别语音数据的语种特征在混合高斯模型每个高斯成分中的后验占有率；利用预先训练的全变量空间进行线性投影获得待识别语音数据的语种向量；基于该语种向量与各类语种的语种标准向量的相似度确定待识别语音数据的语种类别。

但是，采用上述语种识别方法，当待识别语音数据时长较短时，其语音内容较为稀疏，提取的特征无法精确反映语种信息；且提取的特征数量不够充分，则够进行统计计算的特征数量不足；即使采用时序帧移方式最终获得的语种向量也不够精确、稳定，从而导致语种识别的精度较低、准确度急剧下降。

发明内容

本申请所要解决的技术问题是，提供一种语种识别模型训练、语种识别的方法和相关装置，时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量，从而提高短时语音语种识别的精度和准确度。

第一方面，本申请实施例提供了一种语种识别模型训练的方法，该方法包括：

将语种标签和随机噪声输入生成网络获得伪语种向量；将训练语音数据的语种特征输入神经网络获得真语种向量；

利用判别网络获得所述伪语种向量的判别结果和所述真语种向量的判别结果，所述判别结果包括判别概率和预测语种标签；

基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型。

在本申请实施例一种可选的实施方式中，所述将语种标签和随机噪声输入生成网络获得伪语种向量，包括：

基于所述语种标签和所述生成网络的嵌入层获得语种标签向量；

拼接所述语种标签向量和对应的所述随机噪声获得拼接向量；

基于所述拼接向量和所述生成网络的全连接层获得所述伪语种向量。

在本申请实施例一种可选的实施方式中，所述基于所述语种标签和所述生成网络的嵌入层获得语种标签向量，包括：

将多个不同类别的语种标签输入所述生成网络的嵌入层获得各类别语种标签的语种标签向量；

基于每个所述语种标签的类别筛选所述各类别语种标签的语种标签向量，获得每个所述语种标签的语种标签向量。

在本申请实施例一种可选的实施方式中，所述多个不同类别的语种标签中各类别语种标签的数量均衡；所述随机噪声符合正态分布；所述神经网络包括双向长短期记忆网络。

在本申请实施例一种可选的实施方式中，所述基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型，包括：

基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得生成模型、神经网络模型和判别模型；

基于所述神经网络模型和所述判别模型获得目标语种识别模型。

在本申请实施例一种可选的实施方式中，所述基于所述判别概率和所述预测语种标签训练所述生成网络，包括：

基于所述伪语种向量的判别概率、期望概率1、预测语种标签和所述语种标签，利用交叉熵损失函数获得所述生成网络的损失函数；

基于所述生成网络的损失函数更新所述生成网络的网络参数。

在本申请实施例一种可选的实施方式中，所述基于所述判别概率和所述预测语种标签训练所述神经网络和所述判别网络，包括：

基于所述伪语种向量的判别概率、期望概率0、预测语种标签和所述语种标签，利用交叉熵损失函数获得所述判别网络的第一损失函数；

基于所述真语种向量的判别概率、期望概率1、预测语种标签和标记语种标签，利用交叉熵损失函数获得所述判别网络的第二损失函数；

基于所述判别网络的第一损失函数和第二损失函数更新所述神经网络和所述判别网络的网络参数。

在本申请实施例一种可选的实施方式中，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络收敛；或，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络的迭代次数大于等于预设迭代次数。

在本申请实施例一种可选的实施方式中，还包括：

获得多个待验证语音数据的语种特征；

将每个所述待验证语音数据的语种特征输入所述目标语种识别模型获得每个所述待验证语音数据的预测语种标签；

基于多个所述待验证语音数据的预测语种标签和标记语种标签，统计所述目标语种识别模型的识别准确率。

第二方面，本申请实施例提供了一种语种识别的方法，利用上述第一方面所述的目标语种识别模型，该方法包括：

获得待识别语音数据的语种特征；

将所述待识别语音数据的语种特征输入所述目标语种识别模型获得所述待识别语音数据的预测语种标签；

基于所述预测语种标签确定所述待识别语音数据的语种类别。

第三方面，本申请实施例提供了一种语种识别模型训练的装置，该装置包括：

真、伪语种向量获得单元，用于将语种标签和随机噪声输入生成网络获得伪语种向量；将训练语音数据的语种特征输入神经网络获得真语种向量；

判别结果获得单元，用于利用判别网络获得所述伪语种向量的判别结果和所述真语种向量的判别结果，所述判别结果包括判别概率和预测语种标签；

语种识别模型获得单元，用于基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型。

在本申请实施例中一种可选的实施方式中，所述真、伪语种向量获得单元包括：

语种标签向量获得子单元，用于基于所述语种标签和所述生成网络的嵌入层获得语种标签向量；

拼接向量获得子单元，用于拼接所述语种标签向量和对应的所述随机噪声获得拼接向量；

伪语种向量获得子单元，用于基于所述拼接向量和所述生成网络的全连接层获得所述伪语种向量。

在本申请实施例中一种可选的实施方式中，所述语种标签向量获得子单元包括：

第一语种标签向量获得模块，用于将多个不同类别的语种标签输入所述生成网络的嵌入层获得各类别语种标签的语种标签向量；

第二语种标签向量获得模块，用于基于每个所述语种标签的类别筛选所述各类别语种标签的语种标签向量，获得每个所述语种标签的语种标签向量。

在本申请实施例中一种可选的实施方式中，所述多个不同类别的语种标签中各类别语种标签的数量均衡；所述随机噪声符合正态分布；所述神经网络包括双向长短期记忆网络。

在本申请实施例中一种可选的实施方式中，所述语种识别模型获得单元包括：

第一模型获得子单元，用于基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得生成模型、神经网络模型和判别模型；

第二模型获得子单元，用于基于所述神经网络模型和所述判别模型获得目标语种识别模型。

在本申请实施例中一种可选的实施方式中，所述第一模型获得子单元包括：

第一损失函数获得模块，用于基于所述伪语种向量的判别概率、期望概率1、预测语种标签和所述语种标签，利用交叉熵损失函数获得所述生成网络的损失函数；

第一网络参数更新模块，用于基于所述生成网络的损失函数更新所述生成网络的网络参数。

第二损失函数获得模块，用于基于所述伪语种向量的判别概率、期望概率0、预测语种标签和所述语种标签，利用交叉熵损失函数获得所述判别网络的第一损失函数；

第三损失函数获得模块，用于基于所述真语种向量的判别概率、期望概率1、预测语种标签和标记语种标签，利用交叉熵损失函数获得所述判别网络的第二损失函数；

第二网络参数更新模块，用于基于所述判别网络的第一损失函数和第二损失函数更新所述神经网络和所述判别网络的网络参数。

在本申请实施例中一种可选的实施方式中，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络收敛；或，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络的迭代次数大于等于预设迭代次数。

在本申请实施例中一种可选的实施方式中，还包括：

语种特征获得单元，用于获得多个待验证语音数据的语种特征；

预测语种标签获得单元，用于将每个所述待验证语音数据的语种特征输入所述目标语种识别模型获得每个所述待验证语音数据的预测语种标签；

识别准确率统计单元，用于基于多个所述待验证语音数据的预测语种标签和标记语种标签，统计所述目标语种识别模型的识别准确率。

第四方面，本申请实施例提供了一种语种识别的装置，利用上述第一方面所述的目标语种识别模型，该装置包括：

语种特征获得单元，用于获得待识别语音数据的语种特征；

预测语种标签获得单元，用于将所述待识别语音数据的语种特征输入所述目标语种识别模型获得所述待识别语音数据的预测语种标签；

语种类别确定单元，用于基于所述预测语种标签确定所述待识别语音数据的语种类别。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，首先，利用生成网络将语种标签和随机噪声转换为伪语种向量；并利用神经网络将训练语音数据的语种特征转换为真语种向量；然后，将伪语种向量输入判别网络获得伪语种向量的判别概率和预测语种标签，并将真语种向量输入判别网络获得真语种向量的判别概率和预测语种标签；最后，基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。由此可见，生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征，且语种标签指导网络收敛方向以降低网络收敛难度；神经网络与判别网络处理训练语音数据的语种特征，降低生成网络的模拟复杂度；时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量，从而提高短时语音语种识别的精度和准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的***框架示意图；

图2为本申请实施例提供的一种语种识别模型训练的方法的流程示意图；

图3为本申请实施例提供的一种语种识别模型训练的结构示意图；

图4为本申请实施例提供的一种语种识别的方法的流程示意图；

图5为本申请实施例提供的一种语种识别模型训练的装置的结构示意图；

图6为本申请实施例提供的一种语种识别的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于一个语系下可能有多个小语种。针对同一语系下的小语种，语种识别技术的准确性要求较高。现阶段，通常基于全变量因子分析技术进行语种识别，具体地，首先，提取待识别语音数据中反映语种信息的位移差分倒谱(英文：Shifted Delta Cepstral，缩写：SDC)特征或瓶颈(英文：BottleNeck，缩写：BN)特征等语种特征；然后，通过Baum-Welch算法按时序计算每帧待识别语音数据对应的语种特征在混合高斯模型的每个高斯成分的后验占有率；其次，利用预先训练的全变量空间进行线性投影获得待识别语音数据的语种向量；最后，基于该语种向量与各类语种的语种标准向量的相似度确定待识别语音数据的语种类别。但是，发明人经过研究发现，当待识别语音数据时长较短时，其语音内容较为稀疏，提取的特征无法精确反映语种信息；且提取的特征数量不够充分，则够进行统计计算的特征数量不足；即使采用时序帧移方式最终获得的语种向量也不够精确、稳定，从而导致语种识别的精度较低、准确度急剧下降。

为了解决这一问题，在本申请实施例中，语种标签和随机噪声输入网络转换为伪语种向量；训练语音数据的语种特征输入神经网络转换为真语种向量；利用判别网络获得伪语种向量的判别概率和预测语种标签，并利用判别网络获得真语种向量的判别概率和预测语种标签；基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。由此可见，生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征，且语种标签指导网络收敛方向以降低网络收敛难度；神经网络与判别网络处理训练语音数据的语种特征，降低生成网络的模拟复杂度；时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量，从而提高短时语音语种识别的精度和准确度。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括用户终端101和处理器102，其中，用户终端101可以是个人计算机，也可以是其它的移动终端，如手机或平板电脑等。用户在用户终端101进行操作确定训练语音数据，由用户终端101将训练语音数据发送至处理器102，处理器102采用本申请实施例的技术方案获得语种识别模型。当用户在用户终端101输入时长较短的待识别语音数据后，用户终端101将待识别语音数据发送至处理器102。处理器102获得待识别语音数据的语种特征；处理器102将待识别语音数据的语种特征输入上述语种识别模型获得待识别语音数据的预测语种标签，处理器102基于该预测语种标签确定待识别语音数据的语种类别。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由处理器102执行，但是这些动作也可以由用户终端101执行，或者还可以部分由用户终端101执行、部分由处理器102执行。本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中语种识别模型训练、语种识别的方法和相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种语种识别模型训练的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：将语种标签和随机噪声输入生成网络获得伪语种向量；将训练语音数据的语种特征输入神经网络获得真语种向量。

需要说明的是，由于短时语音数据中表现语种信息的语音内容较为稀疏且语音时长较短，基于全变量因子分析技术提取的语种特征无法精确反映语种信息，且提取的语种特征数量也较少进而统计计算的语种特征数量不足，即使采用深度神经网络进行更复杂的语种特征提取，但并没有考虑语音数据的时域连续特性，获得的语种向量不够精确、稳定，从而语种识别的精度、准确度较低。由于生成式对抗网络包括用于模拟数据分布的生成网络和用于判别输入数据为“真实”数据概率的判别网络，生成网络的目的是尽量生成“真实”数据欺骗判别网络，而判别网络的目的是尽量判别生成网络生成的数据并非真实，这两个网络互相博弈学习效果较好；神经网络相较于深度神经网络，考虑到语音数据的时域连续特性，能够较好地提取语音数据中时间序列信息；则在本申请实施例中将生成式对抗网络与神经网络结合，以增强语种特征获得更加精准、稳定的语种向量，提高语种识别的精度和准确度。

在本申请实施例中，单独将随机噪声输入生成网络尽量模拟语种特征分布生成“真实”语种向量欺骗判别网络难度较大且整个训练过程时间较长，则需要将随机噪声辅以语种标签输入生成网络模拟语种特征分布增强语种特征获得伪语种向量。其中，语种标签是预先设定的，可以指导网络收敛方向以降低网络收敛难度，比如朝鲜语系包括三种类别语种标签：朝鲜语标签0、韩语标签1和延边语标签2；随机噪声符合正态分布，比如(0，1)区间内正态分布的随机噪声。训练语音数据的语种特征需要输入神经网络获得真语种向量，以降低生成网络的模拟语种特征分布的复杂度；其中，神经网络可以为循环神经网络，循环神经网络包括双向长短期记忆网络。

具体地，语种标签和随机噪声输入生成网络后，首先需要利用生成网络的嵌入层将语种标签转换为向量，记为语种标签向量；只有语种标签向量才能和随机噪声进行拼接得到一个新向量，记为拼接向量；最后，利用生成网络的全连接层将拼接向量转换为模拟语种特征分布的伪语种向量。因此，在本申请实施例一种可选的实施方式中，所述步骤201中将语种标签和随机噪声输入生成网络获得伪语种向量的步骤，例如可以包括以下步骤：

步骤A：基于所述语种标签和所述生成网络的嵌入层获得语种标签向量；

步骤B：拼接所述语种标签向量和对应的所述随机噪声获得拼接向量；

步骤C：基于所述拼接向量和所述生成网络的全连接层获得所述伪语种向量。

需要说明的是，考虑到训练的时间与效率，可以将多个不同类别的语种标签输入生成网络，由于语种标签是预先设定的，即使同一类别的语种标签有多个，多个同一类别的语种标签输入生成网络的嵌入层仅获得一个该类别语种标签的语种标签向量，则多个不同类别的语种标签输入生成网络时，首先，基于生成网络的嵌入层获得各类别语种标签的语种标签向量；然后，基于多个不同类别的语种标签中每个语种标签的类别，从各类别语种标签的语种标签向量筛选中对应的语种标签向量获得每个语种标签的语种标签向量。因此，在本申请实施例一种可选的实施方式中，所述步骤A例如可以包括以下步骤：

步骤A1：将多个不同类别的语种标签输入所述生成网络的嵌入层获得各类别语种标签的语种标签向量。

其中，为了保障训练生成网络时各类别语种标签的平衡性，输入生成网络的多个不同类别的语种标签中各类别语种标签的数量应当差异较小，比如多个不同类别的语种标签中各类别语种标签的数量均衡。

步骤A2：基于每个所述语种标签的类别筛选所述各类别语种标签的语种标签向量，获得每个所述语种标签的语种标签向量。

例如，预先设定朝鲜语系包括朝鲜语标签0、韩语标签1和延边语标签2共三种类别语种标签，同时多个不同类别的语种标签中各类别语种标签的数量均衡；比如16个不同类别的语种标签包括5个朝鲜语标签0，5个韩语标签1，6个延边语标签2。首先，将16个不同类别的语种标签输入生成网络的嵌入层获得朝鲜语标签的语种标签向量、韩语标签的语种标签向量和延边语标签的语种标签向量，共三种类别的语种标签的语种标签向量，其中，各个语种标签向量的维度为300维。然后，基于16个不同类别的语种标签中每个语种标签的类别，从三种类别的语种标签的语种标签向量筛选对应的语种标签向量获得每个语种标签的语种标签向量。其次，针对每个语种标签的语种标签向量，拼接300维语种标签向量与对应的(0，1)区间内正态分布的300维随机噪声获得600维拼接向量。最后，针对每个语种标签对应的拼接向量，将600维拼接向量输入生成网络的全连接层获得300维伪语种向量。针对训练语音数据而言，将训练语音数据的语种特征输入神经网络获得300维真语种向量。

步骤202：利用判别网络获得所述伪语种向量的判别结果和所述真语种向量的判别结果，所述判别结果包括判别概率和预测语种标签。

可以理解的是，基于生成式对抗网络中判别网络的原理，将判别网络应用于语种识别模型训练，则判别网络的作用一方面是判别输入的语种向量为“真实”语种向量的概率，记为判别概率；另一方面是预测输入的语种向量的语种标签，记为预测语种标签；即，判别概率和预测语种标签是判别网络的判别结果。因此，在本申请实施例中，在步骤201获得为语种向量和真语种向量之后，需要将伪语种向量输入判别网络获得伪语种向量的判别概率和预测语种标签；并将真语种向量输入判别网络获得真语种向量的判别概率和预测语种标签。

步骤203：基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型。

可以理解的是，本申请实施例训练过程中生成网络的目的是尽量生成“真实”语种向量以欺骗判别网络；而判别网络的目的是尽量把生成网络所生成的伪语种向量和神经网络获得真语种向量区分开，即，伪语种向量并非为“真实”语种向量，真语种向量为“真实”语种向量，生成网络和判别网络互相博弈学习；且训练过程中判别网络获得预测语种标签的目的是预测准确的语种标识。则考虑生成网络的目的和判别网络的目的，基于判别概率和预测语种标签可以训练生成网络、神经网络和判别网络最终获得语种模型，即，基于伪语种向量的判别概率、期望概率和预测语种标签和语种标签，以及真语种向量的判别概率、期望概率和预测语种标签和标记语种标签训练生成网络、神经网络和判别网络获得语种模型。

具体地，基于判别概率和预测语种标签训练生成网络可以得到训练好的生成模型，同理，基于判别概率和预测语种标签训练神经网络和判别网得到训练好的神经网络模型和判别模型，由于训练好的神经网络模型和判别模型，针对时长较短语音数据也能够获得更加精准、稳定的待识别语音数据的语种向量，从而获得更加精准、稳定的用于确定语种类别的预测语种标签，则将训练好的神经网络模型和判别模型从整个模型中分离出来获得用于短时语音语种识别的目标语种识别模型。因此，在本申请实施例一种可选的实施方式中，所述步骤203例如可以包括以下步骤：

步骤D：基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得生成模型、神经网络模型和判别模型。

首先，需要说明的是，训练生成网络实际上是指基于生成网络的损失函数更新生成网络的网络参数。由于本申请实施例中生成网络的目的是尽量生成“真实”语种向量以欺骗判别网络，欺骗判别网络获得的伪语种向量的判别概率尽量接近于1，即，伪语种向量的期望概率为1；同时，判别网络获得的伪语种向量的预测语种标签尽量接近输入生成网络的语种标签，则对伪语种向量的判别概率和期望概率1采用二元交叉熵损失函数，并对伪语种向量的预测语种标签和语种标签采用交叉熵损失函数即可获得生成网络的损失函数。因此，在本申请实施例一种可选的实施方式中，所述步骤D中基于所述判别概率和所述预测语种标签训练所述生成网络的步骤，例如可以包括以下步骤：

步骤a：基于所述伪语种向量的判别概率、期望概率1、预测语种标签和所述语种标签，利用交叉熵损失函数获得所述生成网络的损失函数；

步骤b：基于所述生成网络的损失函数更新所述生成网络的网络参数。

例如，伪语种向量的判别概率表示为D_fake，伪语种向量的预测语种标签概率表示为C_fake，伪语种向量的语种标签表示为C，由于伪语种向量的期望概率为1，则生成网络的损失函数利用如下公式获得：

其中，表示生成网络的损失函数，BCEloss()表示二元交叉熵损失函数对应二分类情况，CEloss()表示交叉熵损失函数对应多分类情况。

若生成网络的网络参数表示为θ_g，则生成网络的网络参数θ_g的更新公式如下所示：

其中，η表示学习步长。需要注意的是，在基于生成网络的损失函数更新生成网络的网络参数θ_g时不更新神经网络和判别网络的网络参数。

其次，需要说明的是，训练神经网络和判别网络实际上是指基于判别网络的损失函数更新神经网络和判别网络的网络参数。由于本申请实例中判别网络的目的一方面是将生成网络生成的伪语种向量判别为假，判别网络获得的伪语种向量的判别概率尽量接近于0，即，伪语种向量的期望概率为0；同时，判别网络获得的伪语种向量的预测语种标签尽量接近输入生成网络的语种标签；另一方面是将神经网络获得的真语种向量判别为真，判别网络获得的真语种向量的判别概率尽量接近于1，即，真语种向量的期望概率为1；同时，判别网络获得的真语种向量的预测语种标签尽量接近输入神经网络语种特征的标记语种标签。则对伪语种向量的判别概率和期望概率0采用二元交叉熵损失函数，并对伪语种向量的预测语种标签和语种标签采用交叉熵损失函数即可获得判别网络的第一损失函数；对真语种向量的判别概率和期望概率1采用二元交叉熵损失函数，并对真语种向量的预测语种标签和标记语种标签采用交叉熵损失函数即可获得判别网络的第二损失函数；基于判别网络的第一损失函数和第二损失函数才能获得判别网络的损失函数。因此，在本申请实施例一种可选的实施方式中，所述步骤D中基于所述判别概率和所述预测语种标签训练所述神经网络和所述判别网络的步骤，例如可以包括以下步骤：

步骤c：基于所述伪语种向量的判别概率、期望概率0、预测语种标签和所述语种标签，利用交叉熵损失函数获得所述判别网络的第一损失函数；

步骤d：基于所述真语种向量的判别概率、期望概率1、预测语种标签和标记语种标签，利用交叉熵损失函数获得所述判别网络的第二损失函数；

步骤e：基于所述判别网络的第一损失函数和第二损失函数更新所述神经网络和所述判别网络的网络参数。

其中，在本申请实施例中并不限定步骤c和步骤d的执行顺序，既可以先执行步骤c再执行步骤d，也可以先执行步骤d再执行步骤c，还可以同时执行步骤c和步骤d。

例如，伪语种向量的判别概率表示为D_fake，伪语种向量的预测语种标签概率表示为C_fake，伪语种向量的语种标签表示为C，真语种向量的判别概率表示为D_real，真语种向量的预测语种标签概率表示为C_real，真语种向量的标记语种标签表示为label，由于伪语种向量的期望概率为0，真语种向量的期望概率为1，则判别网络的损失函数利用如下公式获得：

其中，表示判别网络的第一损失函数，/>表示判别网络的第二损失函数，/>表示判别网络的损失函数，BCEloss()表示二元交叉熵损失函数对应二分类情况，CEloss()表示交叉熵损失函数对应多分类情况。

若判别网络的网络参数表示为θ_d，神经网络的网络参数表示为θ_r，则判别网络的网络参数θ_d和神经网络的网络参数θ_r的更新公式如下所示：

其中，η表示学习步长。需要注意的是，在基于判别网络的损失函数更新生成判别网络的网络参数θ_d和神经网络的网络参数θ_r时不更新生成网络的网络参数。

最后，需要说明的是，在本申请实施例中最终对生成网络、神经网络和判别网络的训练结果应当是生成网络可以生成足以“以假乱真”的伪语种向量，从而使得判别网络无法判别生成网络生成的伪语种向量的真伪，无法将生成网络所生成的伪语种向量和神经网络获得真语种向量区分开，即，判别网络获得的判别概率为0.5；且判别网络获得的伪语种向量的预测语种标签接近语种标签，获得的真语种向量的预测语种标签接近标记语种标签，即，交叉熵损失函数稳定；综上，生成网络、神经网络和判别网络收敛时结束训练。但是，有可能存在生成网络、神经网络和判别网络迭代很多次仍然未能收敛的情况，此时需要预先设置一个迭代次数，记为预设迭代次数，当生成网络、神经网络和判别网络的迭代次数达到预设迭代次数时结束训练。因此，在本申请实施例一种可选的实施方式中，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络收敛；或，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络的迭代次数大于等于预设迭代次数。

步骤E：基于所述神经网络模型和所述判别模型获得目标语种识别模型。

可以理解的是，针对短时语音语种识别的应用，仅需要生成模型、神经网络模型和判别模型三个模型中神经网络模型和判别模型，则将神经网络模型和判别模型分离出来获得目标语种识别模型，以便后续用于短时语音语种识别。

例如，如图3所示的语种识别模型训练的结构示意图；语种标签C输入生成网络的嵌入层获得语种标签向量，拼接语种标签向量和对应的(0，1)区间内正态分布的随机噪声Z获得拼接向量，拼接向量输入生成网络的全连接层获得伪语种向量X_fake；训练语音数据的语种特征输入神经网络获得真语种向量X_real，神经网络包括双向长短期记忆网络BiLSTM；伪语种向量X_fake输入判别网络获得伪语种向量X_fake的判别概率D_fake和预测语种标签C_fake，真语种向量X_real输入判别网络获得真语种向量X_real的判别概率D_real和预测语种标签C_real；基于伪语种向量X_fake的判别概率D_fake、期望概率1、预测语种标签C_fake和语种标签C训练生成网络获得生成模型，基于伪语种向量X_fake的判别概率D_fake、期望概率0、预测语种标签C_fake和语种标签C，以及真语种向量X_real的判别概率D_real预测语种标签C_real和标记语种标签label训练神经网络和判别网络获得神经网络模型和判别模型，基于神经网络模型和判别模型获得目标语种识别模型。

还需要说明的是，在步骤E获得目标语种识别模型后，还可以通过多个携带标记语种标签的待验证语音数据验证目标语种识别模型，明确待验证语音数据的预测语种标签是否正确，待验证语音数据的预测语种标签与待验证语音数据的标记语种标签相同则认为待验证语音数据的预测语种标签正确，统计预测语种标签正确数量与待验证语音数据总数量即可获得目标语种识别模型的识别准确率。因此，在本申请实施例一种可选的实施方式中，在步骤E之后例如还可以包括以下步骤：

步骤F：获得多个待验证语音数据的语种特征；

步骤G：将每个所述待验证语音数据的语种特征输入所述目标语种识别模型获得每个所述待验证语音数据的预测语种标签；

步骤H：基于多个所述待验证语音数据的预测语种标签和标记语种标签，统计所述目标语种识别模型的识别准确率。

通过本实施例提供的各种实施方式，首先，利用生成网络将语种标签和随机噪声转换为伪语种向量；并利用神经网络将训练语音数据的语种特征转换为真语种向量；然后，将伪语种向量输入判别网络获得伪语种向量的判别概率和预测语种标签，并将真语种向量输入判别网络获得真语种向量的判别概率和预测语种标签；最后，基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。由此可见，生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征，且语种标签指导网络收敛方向以降低网络收敛难度；神经网络与判别网络处理训练语音数据的语种特征，降低生成网络的模拟复杂度；时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量，从而提高短时语音语种识别的精度和准确度。

需要说明的是，当待识别语音数据为时长较短的语音数据时，将待识别语音数据输入上述方法实施例中训练获得的目标语种识别模型，其所包括的神经网络模型可获得更加精准、稳定的待识别语音数据的语种向量，其所包括的判别模型可基于待识别语音数据的语种向量获得更加精准、稳定的待识别语音数据的预测语种标签，从而基于待识别语音数据的预测语种标签即可确定待识别语音数据的语种类别。下面结合附图4，通过实施例来详细说明本申请应用上述方法实施例中目标语种识别模型进行语种识别的具体实现方式。

参见图4，示出了本申请实施例中另一种语种识别的方法的流程示意图。在本实施例中，利用上述实施例中的目标语种识别模型，所述方法例如可以包括以下步骤：

步骤401：获得待识别语音数据的语种特征。

可以理解的是，在确定待识别语音数据之后首先需要提取待识别语音数据的语种特征，以便可以输入目标语种识别模型进行语种识别，待识别语音数据的语种特征的获得方式在本申请实施例中并不限定，语种特征可以为SDC特征或BN特征。

步骤402：将所述待识别语音数据的语种特征输入所述目标语种识别模型获得所述待识别语音数据的预测语种标签。

需要说明的是，由于目标语种识别模型包括神经网络模型和判别模型，其中，神经网络模型用于将语种特征转换获得更加精准、稳定的语种向量，判别模型用于预测神经网络模型转换获得的语种向量的语种标签，则待识别语音数据的语种特征输入神经网络模型获得真语种向量，真语种向量输入判别模型获得用于确定语种类别的预测语种标签。因此，在本申请实施例一种可选的实施方式中，所述步骤402包括以下步骤：

步骤I：将所述待识别语音数据的语种特征输入所述神经网络模型获得所述待识别语音数据的真语种向量；

步骤J：将所述待识别语音数据的真语种向量输入所述判别模型获得所述待识别语音数据的预测语种标签。

步骤403：基于所述预测语种标签确定所述待识别语音数据的语种类别。

可以理解的是，由于预测语种标签用于确定语种类别，则步骤402获得的待识别语音数据的预测语种标签与预先设定的语种标签匹配即可确定待识别语音数据的语种类别。例如，待识别语音数据的预测语种标签为0，预先设定朝鲜语系包括朝鲜语标签0、韩语标签1和延边语标签2共三种类别语种标签，通过匹配确定待识别语音数据的语种类别为朝鲜语。

通过本实施例提供的各种实施方式，首先，处理待识别语音数据获得待识别语音数据的语种特征；然后，将待识别语音数据的语种特征输入目标语种识别模型，以便输出获得待识别语音数据的预测语种标签；最后，根据待识别语音数据的预测语种标签确定待识别语音数据的语种类别。由于目标语种识别模型包括基于生成网络、神经网络和判别网络训练得到的神经网络模型和判别模型，其网络参数更加精准、稳定，则时长较短语音数据通过神经网络模型能够得到更加精准、稳定的语种向量，并通过判别模型得到更加精准、稳定的预测语种标签以确定语种类别，从而利用目标语种识别模型提高短时语音语种识别的精度和准确度。

示例性装置

参见图5，示出了本申请实施例中一种语种识别模型训练的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

真、伪语种向量获得单元501，用于将语种标签和随机噪声输入生成网络获得伪语种向量；将训练语音数据的语种特征输入神经网络获得真语种向量；

判别结果获得单元502，用于利用判别网络获得所述伪语种向量的判别结果和所述真语种向量的判别结果，所述判别结果包括判别概率和预测语种标签；

语种识别模型获得单元503，用于基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型。

在本申请实施例中一种可选的实施方式中，所述真、伪语种向量获得单元501包括：

在本申请实施例中一种可选的实施方式中，所述语种识别模型获得单元503包括：

在本申请实施例中一种可选的实施方式中，还包括：

通过本实施例提供的各种实施方式，首先，真、伪语种向量获得单元利用生成网络将语种标签和随机噪声转换为伪语种向量；并利用神经网络将训练语音数据的语种特征转换为真语种向量；然后，判别结果获得单元将伪语种向量输入判别网络获得伪语种向量的判别概率和预测语种标签，并将真语种向量输入判别网络获得真语种向量的判别概率和预测语种标签；最后，语种识别模型获得单元基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。由此可见，生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征，且语种标签指导网络收敛方向以降低网络收敛难度；神经网络与判别网络处理训练语音数据的语种特征，降低生成网络的模拟复杂度；时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量，从而提高短时语音语种识别的精度和准确度。

参见图6，示出了本申请实施例中一种语种识别的装置的结构示意图。在本实施例中，利用上述实施例中的目标语种识别模型，所述装置例如具体可以包括：

语种特征获得单元601，用于获得待识别语音数据的语种特征；

预测语种标签获得单元602，用于将所述待识别语音数据的语种特征输入所述目标语种识别模型获得所述待识别语音数据的预测语种标签；

语种类别确定单元603，用于基于所述预测语种标签确定所述待识别语音数据的语种类别。

通过本实施例提供的各种实施方式，首先，语种特征获得单元处理待识别语音数据获得待识别语音数据的语种特征；然后，预测语种标签获得单元将待识别语音数据的语种特征输入目标语种识别模型，以便输出获得待识别语音数据的预测语种标签；最后，语种类别确定单元根据待识别语音数据的预测语种标签确定待识别语音数据的语种类别。由于目标语种识别模型包括基于生成网络、神经网络和判别网络训练得到的神经网络模型和判别模型，其网络参数更加精准、稳定，则时长较短语音数据通过神经网络模型能够得到更加精准、稳定的语种向量，并通过判别模型得到更加精准、稳定的预测语种标签以确定语种类别，从而利用目标语种识别模型提高短时语音语种识别的精度和准确度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种语种识别模型训练的方法，其特征在于，包括：

基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型；

其中，所述基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型，包括：

基于所述生成网络的损失函数更新所述生成网络的网络参数；

基于所述判别网络的第一损失函数和第二损失函数更新所述神经网络和所述判别网络的网络参数，获得神经网络模型和判别模型；

2.根据权利要求1所述的方法，其特征在于，所述将语种标签和随机噪声输入生成网络获得伪语种向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述语种标签和所述生成网络的嵌入层获得语种标签向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述多个不同类别的语种标签中各类别语种标签的数量均衡；所述随机噪声符合正态分布；所述神经网络包括双向长短期记忆网络。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络收敛；或，所述训练结束条件为所述生成网络、所述神经网络和所述判别网络的迭代次数大于等于预设迭代次数。

6.根据权利要求1所述的方法，其特征在于，还包括：

获得多个待验证语音数据的语种特征；

7.一种语种识别的方法，其特征在于，利用权利要求1所述的目标语种识别模型，包括：

获得待识别语音数据的语种特征；

8.一种语种识别模型训练的装置，其特征在于，包括：

语种识别模型获得单元，用于基于所述判别概率和所述预测语种标签训练所述生成网络、所述神经网络和所述判别网络获得语种识别模型；

其中，语种识别模型获得单元，具体用于：

9.一种语种识别的装置，其特征在于，利用权利要求1所述的目标语种识别模型，包括：

语种特征获得单元，用于获得待识别语音数据的语种特征；