CN114596845A

CN114596845A - 语音识别模型的训练方法、语音识别方法及装置

Info

Publication number: CN114596845A
Application number: CN202210385772.6A
Authority: CN
Inventors: 孟庆林; 蒋宁; 吴海英; 王洪斌; 刘敏; 陈燕丽
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-06-07

Abstract

本申请公开了一种语音识别模型的训练方法、语音识别方法及装置。所述训练方法包括：获取混合数据集及其中的语音数据的标注文本，混合数据集包括第一样本普通话语音数据和样本方言语音数据；将混合数据集及其中的语音数据的标注文本及语种标签输入初始语音识别模型，得到混合数据集中的语音数据的识别结果，内容识别网络用于对语音数据进行编码得到特征向量，以及基于语音数据的特征向量进行语音识别以得到识别文本，语种分类器用于基于语音数据的特征向量进行语音识别以得到识别语种；基于混合数据集中的语音数据的识别结果和语音数据的标注文本及语种标签，确定总识别损失；基于总识别损失，对初始语音识别模型进行迭代训练，得到语音识别模型。

Description

语音识别模型的训练方法、语音识别方法及装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音识别模型的训练、语音识别方法及装置。

背景技术

在现实生活中，往往需要对各种各样语种的语音进行识别，比如普通话、方言等。通常情况下，为每个语种训练一个对应的语音识别模型，进而在识别过程中，针对每个语种的语音使用对应的语音识别模型进行语音识别，能够达到较好的识别效果。

但是，实际应用中，不同语种的语音之间可能会混叠，比如说话者在说话时同时夹杂普通话和方言，这就导致如何判断和选择对这类语音有效的语音识别模型变得困难，进而无法有效进行语音识别。因此，如何训练出一种针对多类语种的语音都具有较好的识别效果的语音识别模型，是当前亟需解决的问题。

发明内容

本申请实施例的目的提供一种语音识别模型的训练方法、语音识别方法及装置，用于使训练出的语音识别模型对多类语音都具有较好的识别效果。

为了实现上述目的，本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种语音识别模型的训练方法，包括：

获取混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签，其中，所述混合数据集包括第一样本普通话语音数据和样本方言语音数据；

将所述混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签输入初始语音识别模型，得到所述混合数据集中的语音数据的识别结果，所述识别结果包括识别文本和识别语种；

基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签，确定所述初始语音识别模型的总识别损失；

基于所述总识别损失，对所述初始语音识别模型进行迭代训练，得到所述语音识别模型；

其中，所述初始语音识别模型包括内容识别网络和语种分类器，所述内容识别网络用于对所述混合数据集中的语音数据进行编码以得到对应的特征向量，以及基于所述特征向量进行语音识别，得到所述识别文本；所述语种分类器用于基于所述特征向量进行语种识别，得到所述识别语种，所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的。

可以看出，本申请实施例中，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果。

第二方面，本申请实施例提供一种语音识别方法，包括：

对待处理语音进行特征提取，得到所述待处理语音的语音数据；

通过语音识别模型的内容识别网络对所述待处理语音的语音数据进行语音识别，得到所述待处理语音的识别文本；

其中，所述语音识别模型是基于混合数据集中的语音数据的标注文本及语种标签以及所述语音识别模型针对所述混合数据集输出的识别结果进行模型训练得到的，所述混合数据集包括第一样本普通话语音数据和样本方言语音数据，所述语音识别模型包括内容识别网络和语种分类器，所述识别结果包括识别文本和识别语种，所述识别文本为所述内容识别网络对所述混合数据集中的语音数据进行语音识别得到，所述识别语种为所述语种分类器对所述混合数据集中的语音数据进行语种识别得到的，所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的。

可以看出，本申请实施例中，通过将待处理语音的语音数据输入预先训练的语音识别模型，即可得到待处理语音的识别文本，实现简单快捷、效率高；此外，语音识别模型是采用多任务学习思想进行训练得到的，具体而言，在训练过程中，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果，由此基于训练得到的语音识别模型对待处理语音进行语音识别，可以提高语音识别准确率。

第三方面，本申请实施例提供一种语音识别模型的训练装置，包括：

第一获取模块，用于获取混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签，其中，所述混合数据集包括第一样本普通话语音数据和样本方言语音数据；

第一识别模块，用于将所述混合数据集以及所述混合数据集中的语音数据的标注文本输入初始语音识别模型，得到所述混合数据集中的语音数据的识别结果，所述识别结果包括识别文本和识别语种，其中，所述初始语音识别模型包括内容识别网络和语种分类器，所述内容识别网络用于对所述混合数据集中的语音数据进行编码以得到对应的特征向量，以及基于所述特征向量进行语音识别，得到所述识别文本；所述语种分类器用于基于所述特征向量进行语种识别，得到所述识别语种，所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的；

第一损失确定模块，用于基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签，确定所述初始语音识别模型的总识别损失；

第一训练模块，用于基于所述总识别损失，对所述初始语音识别模型进行迭代训练，得到所述语音识别模型。

第四方面，本申请实施例提供一种语音识别装置，包括：

特征提取模块，用于对待处理语音进行特征提取，得到所述待处理语音的语音数据；

第二识别模块，用于通过语音识别模型的内容识别网络对所述待处理语音的语音数据进行语音识别，得到所述待处理语音的识别文本；

第五方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面或第二方面所述的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面或第二方面所述的方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的一个实施例提供的一种语音识别模型的训练方法的流程示意图；

图2为本申请的一个实施例提供的一种语音识别模型的结构示意图；

图3为本申请的一个实施例提供的一种内容识别网络的预训练方法的流程示意图；

图4为本申请的另一个实施例提供的一种内容识别网络的预训练方法的示意图；

图5为本申请的一个实施例提供的一种语音识别方法的流程示意图；

图6为本申请的一个实施例提供的一种语音识别模型的训练装置的结构示意图；

图7为本申请的一个实施例提供的一种语音识别装置的结构示意图；

图8为本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解，这样使用的数据在适当情况下可以互换，以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

部分概念说明：

语音识别(Speech Recognition)：目标是以计算机自动将人类的语音内容转换为相应的文字。

Transformer：一种基于自注意力机制的时序模型，它可以有效对时序信息进行编码，对时序信息的处理能力远远好于其他时序模型，且速度快。Transformer可广泛应用于自然语言处理、计算机视觉、机器翻译以及语音识别等领域中。

Conformer：将Transformer和卷积神经网络(Convolutional Neural Network，CNN)相结合的一种时序模型，Transformer擅长捕获基于内容的全局交互，而CNN则能够有效利用局部特征，因而Conformer能够有效结合长时全局交互信息和局部特征。

LSTM(Long Short-Term Memory)：长短期记忆网络，是一种时间递归神经网络(Recurrent Neural Network，RNN)，主要是为了解决长序列训练过程中的梯度消失和梯度***问题。简单来说，相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

多任务学习：是一种并行迁移模式。传统的迁移学习强调学习的先后顺序，即将在一个领域学到的知识迁移到另一个领域，且知识迁移的过程是串行进行的。而在多任务学习中，不同任务之间的相互共享信息，使得知识在不同的任务中相互迁移，因此多任务学习也被称为并行迁移学习。多任务学习方法通过多任务信息共享来提升整体学习效果，这对于小样本上的学习尤其有效。对于有大量的小样本学习任务，多任务学习方法可以充分利用多个小样本的信息，提升多任务整体的学习效果。

为了使训练出的语音识别模型对多类语音都具有较好的识别效果，本申请实施例旨在提出一种语音识别模型的训练方法，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果。

进一步，本申请实施例实施例还提出一种语音识别方法，基于训练得到的语音识别模型中的内容识别网络对待处理语音进行语音识别，在未知待处理语音所属的语种的情况下，尤其是待处理语音同时夹杂普通话和方言，即可准确地获得待处理语音的识别文本，不需要人为参与语种判断和识别模式的切换，进而可以提高语音识别效率。

应理解，本申请实施例提供的语音识别模型的训练方法和语音识别方法均可以由电子设备执行或安装在电子声中的软件执行，具体可以由终端设备或服务端设备执行。

以下结合附图，详细说明本申请各实施例提供的技术方案。

请参考图1，为本申请的一个实施例提供的一种语音识别模型的训练方法的流程示意图，该方法可以包括如下步骤：

S102，获取混合数据集以及混合数据集中的语音数据的标注文本及语种标签。

本申请实施例中，混合数据集包括第一样本普通话语音数据和样本方言语音数据。第一样本普通话语音数据可以包括第一样本普通话语音的声学特征，样本方言语音数据可以包括样本方言语音的声学特征，其中，语音的声学特征可以包括语音的fbank特征，其可通过kaldi工具包或torchaudio工具包对语音进行特征提取得到。实际应用中，混合数据集可以包括多条第一样本普通话语音数据和多种样本方言语音数据(比如包括川渝语音数据、粤语语音数据、闽南语语音数据等)。

实际应用中，样本库中的每条样本语音都具有对应的语音索引和语种索引，其中，样本语音的语音索引用于唯一标识该样本语音，例如样本语音的语音索引可以采用数字编号来表示；样本语音的语种索引用于唯一标识该样本语音的语种，例如普通话语音的语种索引为0，川渝语音的语种索引为1，粤语语音的语种索引为2，等等。由此，基于样本库中各条样本语音的语音索引及语种索引，即可从样本库中获取第一样本普通话语音和样本方言语音，并通过对提取的样本语音进行特征提取，得到样本语音对应的语音数据。

S104，将混合数据集以及混合数据集中的语音数据的标注文本及语种标签输入初始语音识别模型，得到混合数据集中的语音数据的识别结果。

本申请实施例中，初始语音识别模型可以采用多任务架构，如图2所示，初始语音识别模型可以包括内容识别网络和语种分类器，其中，内容识别网络用于对语音数据的内容进行识别以得到识别文本，语种分类器则用于对语音数据的语种进行识别以得到识别语种。基于此，通过将混合数据集以及混合数据集中的语音数据的标注文本输入初始语音识别模型，由内容识别网络执行语音内容识别任务，基于混合数据集中的语音数据的识别文本，从混合数据集中学习不同语种的语音数据的内容相关特征而具有内容识别能力，由语种分类器执行语种识别任务，基于混合数据集中的语音数据的语种标签，从混合数据集中学习不同语种的语音数据的语种相关特征而具有语种识别能力。

也就是说，在本申请实施例中，将混合数据集以及混合数据集中的语音数据的标注文本及语种标签输入初始语音识别模型，得到的混合数据集中的语音数据的识别结果包括混合数据集中的语音数据的识别文本及识别语种。

本申请实施例中，内容识别网络可以具有任意适当的结构，具体可根据实际需要进行设置，本申请实施例对此不作限定。可选地，为提升内容识别网络的语音识别效果，如图2所示，内容识别网络可以包括编码器和解码器。

其中，编码器用于基于混合数据集中的语音数据的标注文本，对混合数据集中的语音数据进行编码，得到混合数据集中语音数据的特征向量，并基于连接时序分类机制(Connectionist Temporal Classification，CTC)和混合数据集中的语音数据的特征向量，对混合数据集中的语音数据进行语音识别，得到混合数据集中的语音数据的第一识别文本。具体而言，编码器可基于混合数据集中的语音数据的标注文本，从混合数据集中的语音数据中提取声学特征，并对提取的声学特征进行编码，得到能够表征混合数据集中的语音数据的声学特征的特征向量，进一步基于连接时序分类机制和特征向量表征的声学特征，从整体时序上对混合数据集中的语音数据进行语音识别，得到混合数据集中的语音数据的识别文本，也即混合数据集中的语音数据的第一识别文本。

实际应用中，编码器可以采用任意具有编码及语音识别功能的结构，具体可根据实际需要进行设置，本申请实施例对此不作限定。可选地，由于语音数据是一种时序数据，为此，编码器可以包括Conformer编码器和/或Transformer编码器，其中，Transformer编码器可以有效对时序信息进行编码，对时序信息的处理能力远远好于其他时序模型、速度快，而Conformer编码器是一种将Transformer编码器和CNN相结合的时序模型，Transformer编码器擅长捕获基于语音数据的全局交互，而CNN则能够有效利用语音数据的局部特征，因而Conformer编码器能够有效结合语音数据的长时全局交互信息和局部特征，对语音数据进行编码以及基于CTC机制对语音数据进行语音识别。

解码器用于基于注意力机制(Attention)和混合数据集中的语音数据的特征向量，对混合数据集中的语音数据进行语音识别，得到混合数据集中的语音数据的第二识别文本。具体而言，注意力机制是指从大量信息中筛选出少量重要信息，并聚焦到这些重要信息上，忽略大多不重要的信息。在本申请实施例中，解码器主要是依据编码器得到的特征向量中各帧语音的声学特征之间的联系及差异性，增加对语音识别结果影响较大的一帧或多帧语音的声学特征的权重，减少对语音识别结果影响较小的一帧或多帧语音的声学特征，得到能够准确地表达混合数据集中的语音数据的语义的特征矩阵，而后基于得到的特征矩阵即可识别混合数据集中的语音数据的内容。

具体应用中，解码器可以采用任意具有编码及语音识别功能的结构，具体可根据实际需要进行设置，本申请实施例对此不作限定。可选地，由于语音数据是一种时序数据，解码器可以包括Transformer解码器和/或长短期记忆网络，其中，Transformer解码器可以有效基于混合数据集中的语音数据的时序性对混合数据集中的语音数据的特征向量进行解码，且解码速度快，而长短期记忆网络能够解决序列较长的语音数据在模型训练过程中出现的梯度消失和梯度***等问题，从而对序列较长的语音数据有更好的解码表现。

可以理解的是，由于语音信号具有非平稳性，在语音识别过程中只能对语音信号做短时傅里叶变换，这就造成了一段语音包含很多帧数据，而输出的文本中一个字符可能对应多帧数据，进而最后输出的文本长度会远小于输入的语音数据的长度，通过在编码器中采用连接时序分类机制进行语音识别，可以直接将语音在时间上的帧序列和相应的文本中的字符序列在模型训练过程中自动对齐，而无需对每个字符或音素出现的起止时间进行标注，从而实现直接在时间序列上进行分类，也即相当于从时序整体的角度对输入的语音数据进行语音识别；与此同时，在解码器中采用注意力机制进行语音识别，使得在模型训练过程中内容识别网络能够更关注不同帧的语音数据之间的联系，包括各帧语音数据自身的不同特征之间的联系以及各帧语音数据与其前后帧语音数据之间的联系，使得对语音识别结果产生较大影响的特征被增强，以增强语音数据的特征矩阵的语义而输出准确的识别文本，也即相当于从时间序列中单帧数据的角度进行语音识别。由此可见，上述内容识别网络能够从不同的角度进行语音内容识别的学习，因而学到的知识更丰富，从而进一步提升内容识别网络的语音识别效果。

S106，基于混合数据集中的语音数据的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失。

本申请实施例中，初始语音识别模型的总识别损失用于表示初始语音识别模型针对输入的语音数据得到的识别结果与该语音数据的标注信息之间的差异。

在一种可选的实现方式中，考虑到初始语音识别模型采用多任务学习架构，其不仅要对输入的语音数据的内容进行识别，还要对输入的语音数据的语种进行识别，这两个任务各自得到的识别结果与对应的标注信息均可能存在一定差异，为使得到的识别损失能够准确反映初始语音识别模型的多任务学习效果，上述S106可以包括如下步骤：

S161，基于识别文本以及语音数据的标注文本，确定内容识别网络的第一识别损失。

其中，内容识别网络的第一识别损失用于表示内容识别网络对混合数据集进行语音识别所引起的识别损失。

具体而言，如图2所示，由于内容识别网络中的编码器和解码器分别从两个不同的角度对输入的语音数据进行语音识别，在上述S161中，可基于混合数据集中的语音数据的第一识别文本及混合数据集中的语音数据的标注文本，确定第一识别子损失，其中，该第一识别子损失用于表示编码器基于连接时序机制对混合数据集进行语音识别所引起的识别损失，也即反映了编码器通过连接时序分类机制进行语音识别得到的识别文本与标注文本之间的差异；基于混合数据集中的语音数据的第二识别文本及混合数据集中的语音数据的标注文本，确定第二识别子损失，其中，第二识别子损失用于表示解码器基于注意力机制对混合数据集进行语音识别所引起的识别损失，也即反映了内容识别网络通过注意力机制进行语音识别得到是识别文本与标注文本之间的差异；而后，基于第一识别子损失和第二识别子损失，确定内容识别网络的第一识别损失。

示例地，对于第一识别子损失，可基于混合数据集中的语音数据的第一识别文本及标注文本以及本领域常用的损失函数CTC loss确定。对于第二识别子损失，可基于混合数据集中的语音数据的第二识别文本及标注文本以及与注意力机制对应的损失函数确定。进一步，可对第一识别子损失和第二识别子损失进行加权求和，得到内容识别网络的第一识别损失，也即Char loss₁＝λ₁·CTC loss₁+λ₂·attention loss₁，其中，Char loss₁表示内容识别网络的第一识别损失，CTC loss₁表示第一识别子损失，λ₁表示第一识别子损失对应的权重，attention loss₁表示第二识别子损失，λ₂表示第二识别子损失对应的权重，λ₁和λ₂可根据实际需要进行设置，例如λ₁＝λ₂＝0.5。

进一步地，考虑到混合数据集包括多类语种的语音数据，并且，内容识别网络基于注意力机制得到的第二识别文本通常是以独热(one-hot)编码或文本索引(即文本在字典中对应的索引)的形式表示，这就容易导致内容识别网络在学***滑处理；而后，基于混合数据集中的语音数据的第二识别文本和平滑处理后的标注文本，确定第二识别子损失。

其中，标注文本的标注形式可以包括独热编码形式和文本索引形式。针对不同的标注形式，可采用相应的平滑处理方式对标注文本进行平滑处理。示例地，若标注文本的标注形式为独热编码形式，则可以通过如下公式(1)对混合数据集中各语音数据的标注文本进行平滑处理；若标注文本的标注形式为文本索引形式，则可以通过如下公式(2)对混合数据集中各语音数据的标注文本进行平滑处理。

其中，

表示混合数据集中第i条语音数据的平滑处理后的标注文本；y_hot表示第i条语音数据的独热编码形式的标注文本；target表示第i条语音数据的真实文本的文本索引；i＝target表示第i条语音数据的文本索引形式的标注文本与真实文本的文本索引相同；i≠target表示第i条语音数据的文本索引形式的标注文本与真实文本的文本索引不同；K表示混合数据集中的语音数据的语种数量；α表示预设调节系数，其可实际需要进行设置，例如α＝0.1。

可以理解的是，通过对混合数据集中的各语音数据的标注文本进行平滑处理，相当于向混合数据集中的语音数据的真实类别分布中加入噪声；而后，基于混合数据集中的语音数据的第二识别文本及平滑处理后的标注文本确定内容识别网络的第二识别子损失，可以避免内容识别模型出现对正确的标注文本过于自信的问题，从而提高内容识别网络对错误语音数据的泛化性。

可以理解的是，基于混合数据集中的语音数据的第一识别文本、第二识别文本及标注文本，分别确定内容识别网络的连接时序分类机制引起的识别损失及注意力机制引起的识别损失，而后基于这两类识别损失确定内容识别网络的识别损失，不仅使得到的识别损失能够准确反映内容识别网络从不同的角度进行语音识别的效果，还有利于内容识别网络对从不同角度学习的知识进行有效融合，从而有利于提高内容识别网络对普通话语音数据的识别效果。

S162，基于混合数据集中的语音数据的识别语种及语种标签，确定语种分类器的识别损失。

本申请实施例中，语音数据的语种标签用于表示语音数据所属的真实语种。语种标签可以采用任意适当的形式表示，比如独热编码、语种索引等，其中，语种索引用于唯一表示对应的语种，例如，普通话语音的语种索引为0，川渝语音的语种索引为1，粤语语音的语种索引为2，等等。

具体而言，基于混合数据集中的语音数据的识别语种及语种标签之间的差异以及预设损失函数，即可确定语种分类器的识别损失。实际应用中，预设损失函数可以根据实际需要进行设置，例如预设损失函数可以为交叉熵损失函数等，本申请实施例对此不作限定。

S163，对内容识别网络的第一识别损失和语种分类器的识别损失进行归一化处理，得到初始语音识别模型的总识别损失。

考虑到混合数据集中的样本普通话语音数据与样本方言语音数据的分布不一致，这种分布不一致会引起初始语音识别模型震荡，从而影响初始语音识别模型的识别效果，有鉴于此，通过对内容识别网络的第一识别损失和语种分类器的识别损失进行归一化处理，可以尽可能减少这种分布不一致所引起初始语音识别模型震荡，从而提升初始语音识别模型的识别效果。

可选地，为在尽可能减少上述分布不一致所引起初始语音识别模型震荡的同时，能够更好地将由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，从而提高初始语音识别模型的识别效果，上述S163具体可实现为：对内容识别网络的第一识别损失和语种分类器的识别损失进行加权求和，得到初始语音识别模型的总识别损失，也即Total loss＝λ₃·Char loss₁+(1-λ₃)·CE loss，其中，Total loss表示初始语音识别模型的总识别损失，Char loss₁表示内容识别网络的第一识别损失，CE loss表示语种分类器的识别损失，λ₃表示权重调节系数，其可根据实际需要进行设置，例如λ₃可设置为0.9或0.95。

可以理解的是，基于混合数据集中的语音数据的识别文本、识别语种、标注文本及语种标签，分别确定内容识别网络的第一识别损失和语种分类器的识别损失，而后基于这两类识别损失确定初始语音识别模型的总识别损失，不仅使得到的总识别损失能够准确反映初始语音识别模型执行多任务学习的学习效果，还有利于初始语音识别模型在不同学习任务之间进行知识共享，不同学习任务之间相互促进，从而有利于提高最终得到的语音识别模型的跨语种鲁棒性，也即使最终得到的语音识别模型对多类语种的语音数据均具有较好的识别效果。

本申请实施例在此示出了上述S106的一种具体实现方式。当然，应理解，上述S106也可以采用其他的方式实现，本申请实施例对此不作限定。

S108，基于初始语音识别模型的总识别损失，对初始语音识别模型进行迭代训练，得到语音识别模型。

具体地，可基于初始语音识别模型的总识别损失，对初始语音识别模型的模型参数进行调整。其中，初始语音识别模型的模型参数具体可以包括内容识别网络的模型参数和语种分类器的模型参数。示例地，图2所示的内容识别模型的模型参数具体可以包括编码器的模型参数和解码器的模型参数，其中，编码器的模型参数包括但不限于编码器中各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等；解码器的模型参数包括但不限于解码器中各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。语种分类器的模型参数包括但不限于语种分类器中各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。

具体而言，基于初始语音识别模型的总识别损失和初始语音识别模型当前的模型参数，采用反向传播算法，确定初始语音识别模型中各网络层引起的识别损失；然后，以使初始语音识别模型的总识别损失下降为目标，逐层调整初始语音识别模型的模型参数。

示例地，以图2所示的初始语音识别模型为例，上述S108具体可实现为：基于初始语音识别模型的总识别损失和内容识别网络当前的模型参数，采用反向传播算法，确定内容识别网络的解码器及编码器各自中的各网络层引起的识别损失以及语种分类器中的各网络层引起的识别损失；然后，以使初始语音识别模型的识别损失下降为目标，逐层调整内容识别网络和语种分类器各自的模型参数。

需要说明的是，上述过程仅为一次调整过程，实际应用中，可能需要进行多次调整，因而可重复执行上述调整过程多次，直到满足第一预设训练停止条件，由此得到最终的语音识别模型。其中，第一预设训练停止条件可以包括：初始语音识别模型的总识别损失小于第一预设损失阈值或者调整次数达到第一预设次数等，本申请实施例对此不作限定。

本申请实施例在此示出了上述S108的一种具体实现方式。当然，应理解，上述S108也可以采用其他的方式实现，本申请实施例对此不作限定。

本申请实施例中，为了使得内容识别网络在对混合数据集进行学习之前，就具有对普通话语音数据进行语音识别的能力，以便在加快初始语音识别模型的收敛速度的同时，还能够使初始语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据之间的内容相关特征的差异性，从而有利于提高最终得到的语音识别模型的多语种语音识别效果，可以在利用混合数据集及其中的语音数据的标注文本及语种标签对初始语音识别模型进行训练之前，利用第二样本普通话语音数据及其标注文本，对初始语音识别模型中的内容识别网络进行预训练。

在一种可选的实现方式中，内容识别网络针对输入的语音数据得到的识别文本与输入的语音数据的标注文本之间的差异，能够反映内容识别网络的识别效果，为提高内容识别网络的语音识别效果，在上述S104之前，本申请实施例提供的语音识别模型的训练方法还可以包括内容识别网络的预训练方法，如图3所示，该预训练方法可以包括：

S302，将第二样本普通话语音数据及第二样本普通话语音数据的标注文本输入初始内容识别网络，得到第二样本普通话语音数据的识别文本。

其中，第二样本普通话语音数据的数量可以为多个。第二样本普通话语音数据可以包括第二样本普通话语音的声学特征，比如fbank特征等。第二样本普通话语音的声学特征可以通过本领域的各种特征提取方法得到，例如第二样本普通话语音的fbank特征可通过kaldi工具包或torchaudio工具包对第二样本普通话语音进行特征提取得到。

具体而言，如图4所示，初始内容识别网络中的编码器可基于第二样本普通话语音数据的标注文本，对第二样本普通话语音数据进行编码，得到第二样本普通话语音数据的特征向量，并基于连接时序分类机制和第二样本普通话语音数据的特征向量，对第二样本普通话语音数据进行语音识别，得到第三识别文本；初始内容识别网络中的解码器可基于注意力机制和编码器得到的第二样本普通话语音数据的特征向量，对第二样本普通话语音数据进行语音识别，得到第四识别文本。也就是说，第二样本普通话语音数据的识别文本包括第三识别文本和第四识别文本，这两个识别文本是由解码器和编码器分别从不同的角度对第二样本普通话语音数据进行语音识别得到的。

S304，基于第二样本普通话语音数据的识别文本及标注文本，确定初始内容识别网络的第二识别损失。

其中，内容识别网络的第二识别损失用于表示内容识别网络对第二样本普通话语音数据进行语音识别所引起的识别损失。

具体而言，如图4所示，由于内容识别网络中的编码器和解码器分别从两个不同的角度对第二样本普通话语音数据进行语音识别，在上述S122中，可基于第三识别文本及第二样本普通话语音数据的标注文本，确定第三识别子损失，其中，该第三识别子损失用于表示编码器基于连接时序机制对第二样本普通话语音数据进行语音识别所引起的识别损失，也即反映了内容识别网络通过连接时序分类机制进行语音识别得到的识别文本与标注文本之间的差异；基于第四识别文本及第二样本普通话语音数据的标注文本，确定第四识别子损失，该第四识别子损失用于表示解码器基于注意力机制对第二样本普通话语音数据进行语音识别所引起的识别损失，也即反映了内容识别网络通过注意力机制进行语音识别得到是识别文本与标注文本之间的差异；而后，基于第三识别子损失和第四识别子损失，确定内容识别网络的第二识别损失。

示例地，对于第三识别子损失，可基于第三识别文本及第二样本普通话语音数据的标注文本以及本领域常用的损失函数CTC loss确定。对于第四识别子损失，可基于第四识别文本及第二样本普通话语音数据的标注文本以及交叉熵损失函数确定。进一步，可对第三识别子损失和第四识别子损失进行加权求和，得到内容识别网络的第二识别损失，也即Char loss₂＝λ₁'·CTC loss₂+λ₂'·attention loss₂，其中，Char loss₂表示内容识别网络的第二识别损失，CTC loss₂表示第三识别子损失，λ₁'表示第三识别子损失对应的权重，attention loss₂表示第四识别子损失，λ₂'表示第四识别子损失对应的权重，λ₁'和λ₂'可根据实际需要进行设置，例如λ₁'＝λ₂'＝0.5。

可以理解的是，基于第三识别文本、第四文本及第二样本普通话语音数据的标注文本，分别确定内容通过连接时序分类机制引起的识别损失和通过注意力机制引起的识别损失，而后基于这两类识别损失确定内容识别网络的第二识别损失，不仅使得到的第二识别损失能够准确反映内容识别网络从不同的角度普通话语音数据进行语音识别的效果，还有利于内容识别网络对从不同角度学习的知识进行有效融合，从而有利于提高内容识别网络对普通话语音数据的识别效果。

S306，基于初始内容识别网络的第二识别损失，对初始内容识别网络进行迭代训练，得到初始语音识别模型中的内容识别网络。

具体而言，可基于初始内容识别网络的第二识别损失，对初始内容识别网络的模型参数进行调整。其中，初始内容识别网络的模型参数具体可以包括但不限于：各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。示例地，图4所示的初始内容识别网络的模型参数具体可以包括编码器的模型参数和解码器的模型参数，其中，编码器的模型参数包括但不限于编码器中各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等；解码器的模型参数包括但不限于解码器中各网络层的节点数量、不同网络层中的节点之间的连接关系及连接边权重、各网络层中的节点对应的偏置等。

具体而言，基于初始内容识别网络的第二识别损失和初始内容识别网络当前的模型参数，采用反向传播算法，确定初始内容识别网络中各网络层引起的识别损失；然后，以使初始内容识别网络的第二识别损失下降为目标，逐层调整初始内容识别网络的模型参数。

示例地，以图4所示的初始内容识别网络为例，上述S306具体可实现为：基于初始内容识别网络的第二识别损失和初始内容识别网络当前的模型参数，采用反向传播算法，确定解码器中的各网络层引起的识别损失以及编码器中的各网络层引起的识别损失；然后，以使初始内容识别网络的第二识别损失下降为目标，逐层调整解码器和编码器各自的模型参数。

需要说明的是，上述过程仅为一次调整过程，实际应用中，可能需要进行多次调整，因而可重复执行上述S302至S306多次，直到满足第二预设训练停止条件，由此得到初始语音识别模型中的内容识别网络。其中，第二预设训练停止条件可以包括初始内容识别网络的第二识别损失小于第二预设损失阈值或者调整次数达到第二预设次数等，本申请实施例对此不作限定。

本申请实施例在此示出了对初始语音识别模型中的内容识别网络进行预训练的一种具体实现方式。当然，应理解，对初始语音识别模型中的内容识别网络进行预训练也可以采用其他的方式实现，本申请实施例对此不作限定。

本申请实施例提供的语音识别模型的训练方法，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果。

上述实施例介绍了语音识别模型的训练方法，通过上述训练方法训练出的语音识别模型能够用于多种应用场景下的语音识别，例如包括但不限于语音翻译、语音记事本、客服语音质检、语音内容审查、音/视频字幕配置等。

基于本申请实施例提供的语音识别模型的训练方法，训练得到的语音识别模型可应用于任意需要进行语音识别的场景。下面对基于语音识别模型的应用过程进行详细说明。

请参考图5，为本申请的一个实施例提供的一种语音识别方法的流程示意图，该方法可以包括如下步骤：

S502，对待处理语音进行特征提取，得到待处理语音的语音数据。

本申请实施例中，待处理语音是指需要进行语音识别的语音。待处理语音既可以是普通话语音或方言语音，还可以是混合了普通话语音和方言语音的语音。

待处理语音的语音数据可以包括待处理语音的声学特征，例如fbank特征。待处理语音的声学特征可以通过本领域的各种特征提取方法得到，例如待处理语音的fbank特征可通过kaldi工具包或torchaudio工具包对待处理语音进行特征提取得到。

S404，通过语音识别模型的内容识别网络对待处理语音的语音数据进行语音识别，得到待处理语音的识别文本。

具体而言，可将待处理语音的语音数据输入语音识别模型的内容识别网络，经由内容识别网络中的编码器对待处理语音的语音数据进行编码以得到对应的特征向量，并基于连接时序分类机制和待处理语音的特征向量，对待处理语音进行语音识别，得到待处理语音的第一识别文本；此外，还经由内容识别网络中的解码器基于注意力机制对待处理语音的特征向量，对待处理语音进行语音识别，得到待处理语音的第二识别文本。

进一步，可综合待处理语音的第一识别文本和第二识别文本，确定待识别语音的识别文本。例如，若待识别语音的第一识别文本与第二识别文本一致，则可将该第一识别文本或第二识别文本确定为待识别语音的识别文本；又如，若待识别语音的第一识别文本与第二识别文本不一致，则可基于该第一识别文本与第二识别文本之间的交集，确定待识别语音的识别文本，等等。

本申请实施例提供的语音识别方法，通过将待处理语音的语音数据输入预先训练的语音识别模型，即可得到待处理语音的识别文本，实现简单快捷、效率高；此外，语音识别模型是采用多任务学习思想进行训练得到的，具体而言，在训练过程中，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果，由此基于训练得到的语音识别模型对待处理语音进行语音识别，可以提高语音识别准确率。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

此外，与上述图1所示的语音识别模型的训练方法相对应地，本申请实施例还提供一种语音识别模型的训练装置。请参考图6，为本申请的一个实施例提供的一种语音识别模型的训练装置600的结构示意图，该装置包括：

第一获取模块610，用于获取混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签，其中，所述混合数据集包括第一样本普通话语音数据和样本方言语音数据；

第一识别模块620，用于将所述混合数据集以及所述混合数据集中的语音数据的标注文本输入初始语音识别模型，得到所述混合数据集中的语音数据的识别结果，所述识别结果包括识别文本和识别语种，其中，所述初始语音识别模型包括内容识别网络和语种分类器，所述内容识别网络用于对所述混合数据集中的语音数据进行编码以得到对应的特征向量，以及基于所述特征向量进行语音识别，得到所述识别文本；所述语种分类器用于基于所述特征向量进行语种识别，得到所述识别语种，所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的；

第一损失确定模块630，用于基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签，确定所述初始语音识别模型的总识别损失；

第一训练模块640，用于基于所述总识别损失，对所述初始语音识别模型进行迭代训练，得到所述语音识别模型。

本申请实施例提供的语音识别模型的训练装置，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果。

可选地，所述第一损失确定模块包括：

第一损失确定子模块，用于基于所述识别文本以及所述语音数据的标注文本，确定所述内容识别网络的第一识别损失；

第二损失确定子模块，用于基于所述识别语种以及所述语音数据的语种标签，确定所述语种分类器的识别损失；

总损失确定子模块，用于对所述内容识别网络的第一识别损失和所述语种分类器的识别损失进行归一化处理，得到所述初始语音识别模型的总识别损失。

可选地，所述内容识别网络包括：

编码器，用于基于所述语音数据的标注文本，对所述语音数据进行编码，得到所述语音数据的特征向量，并基于连接时序分类机制和所述特征向量，对所述语音数据进行语音识别，得到所述语音数据的第一识别文本；

解码器，用于基于注意力机制和所述语音数据的特征向量，对所述语音数据进行语音识别，得到所述语音数据的第二识别文本。

可选地，所述第一损失确定子模块用于：

基于所述语音数据的第一识别文本及所述语音数据的标注文本，确定第一识别子损失，所述第一识别子损失用于表示所述编码器基于连接时序分类机制对所述混合数据集进行语音识别所引起的识别损失；

基于所述语音数据的第二识别文本及所述的语音数据的标注文本，确定第二识别子损失，所述第二识别子损失用于表示所述解码器基于注意力机制对所述混合数据集进行语音识别所引起的识别损失；

基于所述第一识别子损失和所述第二识别子损失，确定所述内容识别网络的第一识别损失。

可选地，所述第一损失确定子模块，基于所述语音数据的第二识别文本以及所述语音数据的标注文本，确定第二识别子损失，包括：

基于所述语音数据的语种数量和所述语音数据的标注文本的标注形式，对所述语音数据的标注文本进行平滑处理；

基于所述语音数据的第二识别文本和所述平滑处理后的标注文本，确定所述第二识别子损失。

可选地，所述训练装置还包括第二训练模块，所述第二训练模块用于：

在所述第一识别模块将所述混合数据集以及所述混合数据集中的语音数据的标注文本输入初始语音识别模型之前，将所述第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本输入初始内容识别网络，得到第三识别文本和第四识别文本，其中，所述第三识别文本为所述初始内容识别网络中的编码器基于连接时序分类机制和所述第二样本普通话语音数据的特征向量进行语音识别得到的，所述第四识别文本为所述初始内容识别网络中的解码器基于注意力机制和所述第二样本普通话语音数据的特征向量进行语音识别得到的；

基于所述第三识别文本和所述第二样本普通话语音数据的标注文本，确定第三识别子损失，所述第三识别子损失用于表示所述初始内容识别网络中的编码器基于连接时序分类机制对所述第二样本普通话语音数据进行语音识别所引起的识别损失；

基于所述第四识别文本和所述第二样本普通话语音数据的标注文本，确定第四识别子损失，所述第四识别子损失用于表示所述初始内容识别网络中的解码器基于注意力机制对所述第二样本普通话语音数据进行语音识别所引起的识别损失；

基于所述第三识别子损失和所述第四识别子损失，确定所述初始内容识别网络的第二识别损失；

基于所述初始内容识别网络的第二识别损失，对所述初始内容识别网络进行迭代训练，得到所述内容识别网络。

可选地，所述编码器包括Conformer编码器和/或Transformer编码器。

可选地，所述解码器包括Transformer解码器和/或长短期记忆网络。

显然，本申请实施例提供的语音识别模型的训练方法可以作为上述图1所示的语音识别模型的训练方法的执行主体，因此能够实现语音识别模型的训练装置在图1所实现的功能。由于原理相同，在此不再重复说明。

此外，与上述图5所示的语音识别方法相对应地，本申请实施例还提供一种语音识别装置。请参考图7，为本申请的一个实施例提供的一种语音识别装置700的结构示意图，该装置包括：

特征提取模块710，用于对待处理语音进行特征提取，得到所述待处理语音的语音数据；

第二识别模块720，用于通过语音识别模型的内容识别网络对所述待处理语音的语音数据进行语音识别，得到所述待处理语音的识别文本；

本申请实施例提供的语音识别装置，通过将待处理语音的语音数据输入预先训练的语音识别模型，即可得到待处理语音的识别文本，实现简单快捷、效率高；此外，语音识别模型是采用多任务学习思想进行训练得到的，具体而言，在训练过程中，使用包含第一样本普通话语音数据和样本方言语音数据的混合数据集训练一个语音识别模型，来替代针对每类语种单独训练一个语音识别模型，从而使得语音识别模型能够对多类语种的语音数据进行语音识别，避免针对每类语种单独训练一个语音识别模型而导致的无法有效选择识别效果好的语音识别模型的问题；在此基础上，采用包含内容识别网络和语种分类器的多任务学习架构，通过将混合数据集输入初始语音识别模型，由内容识别网络执行语音内容识别任务，从混合数据集中学习不同语种的语音数据的内容相关特征而具有识别语音数据对应的文本的能力，由语种分类器执行语种识别任务，从混合数据集中学习不同语种的语音数据的语种相关特征而具有识别语种的能力；进一步，基于初始语音识别模型针对混合数据集输出的识别结果以及混合数据集中的语音数据的标注文本及语种标签，确定初始语音识别模型的总识别损失，并基于总识别损失对初始语音识别模型进行迭代训练，得到语音识别模型，使得由内容识别网络执行语音内容识别任务和由语种分类器执行语种识别任务紧密联系起来，彼此之间进行信息相互共享而能够学习到更多的知识，不同学习任务之间相互促进，从而提高语音识别模型的跨语种鲁棒性，也即使语音识别模型对多类语种的语音数据都具有良好的识别效果；此外，使用第二样本普通话语音数据及其标注文本对内容识别网络进行预训练，使得内容识别网络在对混合数据集进行学习之前，就具有了对普通话语音数据进行语音识别的能力，不仅能够加快语音识别模型的收敛速度，还能够使语音识别模型能够更多地关注于从语音数据到文本这一语音内容识别任务，快速地学习普通话语音数据与方言语音数据各自的内容相关特征之间的差异性，从而有利于提高语音识别模型的多语种语音识别效果，由此基于训练得到的语音识别模型对待处理语音进行语音识别，可以提高语音识别准确率。

显然，本申请实施例提供的语音识别方法可以作为上述图5所示的语音识别方法的执行主体，因此能够实现语音识别装置在图5所实现的功能。由于原理相同，在此不再重复说明。

图8是本申请的一个实施例电子设备的结构示意图。请参考图8，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语音识别模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语音识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

其中，所述语音识别模型是基于混合数据集中的语音数据的标注文本及语种标签以及所述语音识别模型针对所述混合数据集输出的识别结果进行模型训练得到的，所述混合数据集包括第一样本普通话语音数据和样本方言语音数据，所述语音识别模型包括内容识别网络和语种分类器，所述识别结果包括识别文本和识别语种，所述识别文本为所述内容识别网络对所述混合数据集中的语音数据进行语音识别得到，所述混识别语种为所述语种分类器对所述混合数据集中的语音数据进行语种识别得到的，所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的。

上述如本申请图1所示实施例揭示的语音识别模型的训练装置执行的方法或者上述如本申请图5所示实施例揭示的语音识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现语音识别模型的训练装置在图1所示实施例的功能或者语音识别装置在图5所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

将所述混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签输入初始语音识别模型，得到所述混合数据集中的语音数据的识别结果，所述识别结果包括识别文本和识别语种的；

或者，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图5所示实施例的方法，并具体用于执行以下操作：

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括

2.根据权利要求1所述的方法，其特征在于，所述基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签，确定所述初始语音识别模型的总识别损失，包括：

基于所述识别文本以及所述语音数据的标注文本，确定所述内容识别网络的第一识别损失；

基于所述识别语种以及所述语音数据的语种标签，确定所述语种分类器的识别损失；

对所述内容识别网络的第一识别损失和所述语种分类器的识别损失进行归一化处理，得到所述初始语音识别模型的总识别损失。

3.根据权利要求2所述的方法，其特征在于，所述内容识别网络包括：

编码器，用于基于所述语音数据的标注文本，对所述语音数据进行编码，得到所述特征向量，并基于连接时序分类机制和所述特征向量，对所述语音数据进行语音识别，得到所述语音数据的第一识别文本；

解码器，用于基于注意力机制和所述特征向量，对所述语音数据进行语音识别，得到所述语音数据的第二识别文本。

4.根据权利要求3所述的方法，其特征在于，所述基于所述识别文本以及所述语音数据的标注文本，确定所述内容识别网络的第一识别损失，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述语音数据的第二识别文本以及所述语音数据的标注文本，确定第二识别子损失，包括：

6.根据权利要求3所述的方法，其特征在于，在将所述混合数据集以及所述语音数据的标注文本输入初始语音识别模型之前，所述方法还包括：

将所述第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本输入初始内容识别网络，得到第三识别文本和第四识别文本，其中，所述第三识别文本为所述初始内容识别网络中的编码器基于连接时序分类机制和所述第二样本普通话语音数据的特征向量进行语音识别得到的，所述第四识别文本为所述初始内容识别网络中的解码器基于注意力机制和所述第二样本普通话语音数据的特征向量进行语音识别得到的；

7.一种语音识别方法，其特征在于，包括：

8.一种语音识别模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的方法。