CN118136002A

CN118136002A - 构建语音识别模型的方法、设备及语音识别的方法、设备

Info

Publication number: CN118136002A
Application number: CN202410544270.2A
Authority: CN
Inventors: 游浩; 王晴
Original assignee: E Capital Transfer Co ltd
Current assignee: E Capital Transfer Co ltd
Priority date: 2024-05-06
Filing date: 2024-05-06
Publication date: 2024-06-04

Abstract

本申请涉及语音识别的技术领域，并且更具体地涉及用于构建语音识别模型的方法、计算机设备、计算机可读存储介质以及语音识别的方法、计算机设备、计算机可读存储介质。本申请的一个方面的用于构建语音识别模型的方法包括下列步骤：获取音频训练数据和文本训练数据，所述音频训练数据包括增强的音频数据的提取特征和对应于所述音频数据的语音识别标签，所述文本训练数据包括增强的文本数据；利用所述音频训练数据对声学模型进行训练以得到训练的声学模型，利用所述文本训练数据对语言模型进行训练以得到训练的语言模型；以及基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型。

Description

构建语音识别模型的方法、设备及语音识别的方法、设备

技术领域

本申请涉及语音识别的技术领域，并且更具体地涉及用于构建语音识别模型的方法、计算机设备、计算机可读存储介质以及语音识别的方法、计算机设备、计算机可读存储介质。

背景技术

自动语音识别技术(Automatic Speech Recognition，ASR)是将语音数据转换为相应的文字或符号的一种技术。自动语音识别技术已经广泛应用于日常生活中，例如，不同语言的语音之间的翻译、电子设备与用户的语音交互、即时语音输入到文本信息的转换等。

随着全球化发展，越来越多的场景中使用混合语言进行交流。因此，混合语言识别模型逐渐发展为自动语音识别技术的一个重要的研究方向。目前，混合语言识别模型可以通过深度神经网络、卷积神经网络、时间递归神经网络等各种神经网络结构来构建。

然而，在神经网络结构中同时对多种语言进行建模并非易事，因为不同的语言（例如，中文、英文等）在建模单元、发音方式等方面都存在显著差异。此外，即使在耗费大量人力物力的情况下也难以收集到足够的混合语言的训练数据来对神经网络模型进行训练。因此，目前的混合语言识别模型的识别准确性较低。

发明内容

为了解决或至少缓解以上问题中的一个或多个，提供了以下技术方案。

按照本申请的第一方面，提供一种用于构建语音识别模型的方法，所述方法包括下列步骤：获取音频训练数据和文本训练数据，所述音频训练数据包括增强的音频数据的提取特征和对应于所述音频数据的语音识别标签，所述文本训练数据包括增强的文本数据；利用所述音频训练数据对声学模型进行训练以得到训练的声学模型，利用所述文本训练数据对语言模型进行训练以得到训练的语言模型；以及基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型。

根据本申请一实施例所述的用于构建语音识别模型的方法，其中所述音频训练数据和所述文本训练数据各自至少包括第一语种的训练数据、第二语种的训练数据、第一语种与第二语种的混合训练数据。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述音频训练数据中的增强的音频数据通过以下方式中的一种或多种来生成：调整原始音频数据的音频速度以基于具有不同于原始音频数据的音频速度的一个或多个音频数据生成所述增强的音频数据；调整原始音频数据的音量以基于具有不同于原始音频数据的音量的一个或多个音频数据生成所述增强的音频数据；对原始音频数据进行频谱增强处理以生成所述增强的音频数据；以及利用文本转语音模型处理所述文本训练数据以生成所述增强的音频数据。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述增强的音频数据的提取特征包括以下中的一个或多个：Fbank特征、MFCC特征、PNCC特征。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述文本训练数据中的增强的文本数据通过以下方式来生成：将同一对话中按照时间顺序排列的多个句子随机成对组合以获取所述增强的文本数据。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述声学模型为感知语言编码模型或混合专家模型，所述语言模型为内置语言模型或长上下文语言模型。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述声学模型包括多个混合专家子模型或多个感知语言编码子模型，所述多个混合专家子模型或多个感知语言编码子模型中的每个包括：多头自注意力模块，其用于获取所述音频训练数据的注意力输出特征以基于所述注意力输出特征提取所述音频训练数据的全局上下文信息；以及卷积模块，其用于至少基于所述音频训练数据的注意力输出特征获取所述音频训练数据的音频卷积特征以基于所述音频卷积特征提取所述音频训练数据的局部特征信息。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述多个混合专家子模型或多个感知语言编码子模型中的每个包括：第一前向反馈模块，其用于对正则网络层输出的音频正则化特征进行线性变换和非线性映射以得到所述音频训练数据的第一变换特征；第二前向反馈模块，其用于对所述音频卷积特征的融合特征进行线性变换和非线性映射以得到所述音频训练数据的第二变换特征。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述多个混合专家子模型中的每个包括：第一语种前向神经网络，其用于处理与第一语种相关联的所述音频训练数据的第二变换特征的融合特征以生成第一语种向量；第二语种前向神经网络，其用于处理与第二语种相关联的所述音频训练数据的第二变换特征的融合特征以生成第二语种向量。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中所述多个感知语言编码子模型中的每个包括：共享编码器，其用于编码所述音频训练数据的第二变换特征的融合特征以生成共享编码信息；第一语种编码器，其用于编码所述共享编码信息以生成第一语种编码信息；第二语种编码器，其用于编码所述共享编码信息以生成第二语种编码信息；以及门控网络，其用于至少基于先前帧的输出编码信息选择性地将所述第一语种编码信息或所述第二语种编码信息作为当前帧的输出编码信息。

根据本申请一实施例或以上任一实施例的所述的用于构建语音识别模型的方法，其中基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型包括：组合训练的感知语言编码模型与内置语言模型以生成第一组合模型；组合训练的混合专家模型与长上下文语言模型以生成第二组合模型；以及融合所述第一组合模型与所述第二组合模型以构建所述语音识别模型。

按照本申请的第二方面，提供一种用于构建语音识别模型的计算机设备，所述计算机设备包括：存储器；与所述存储器耦合的处理器；以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述计算机程序的运行导致执行根据本申请的第一方面所述的用于构建语音识别模型的方法的步骤。

根据本申请的第三方面，提供一种计算机存储介质，其包括指令，所述指令在运行时执行根据本申请的第一方面所述的用于构建语音识别模型的方法的步骤。

根据本申请的第四方面，提供一种语音识别的方法，所述方法包括下列步骤：获取输入语音的特征数据，所述输入语音包括多个语种的语音数据；将所述特征数据输入至根据本申请的第一方面所述的用于构建语音识别模型的方法构建的语音识别模型，以得到语音识别结果。

根据本申请一实施例所述的语音识别的方法，其中将所述特征数据输入至所述语音识别模型以得到语音识别结果包括：将所述特征数据输入至所述语音识别模型的第一组合模型以得到第一识别结果；将所述特征数据输入至所述语音识别模型的第二组合模型以得到第二识别结果；以及基于所述第一识别结果与所述第二识别结果的融合来得到所述语音识别结果。

根据本申请一实施例或以上任一实施例的所述的语音识别的方法，其中于所述第一识别结果与所述第二识别结果的融合来得到所述语音识别结果包括：利用第一权重和第二权重分别对第一语种的语音识别结果和第二语种的语音识别结果进行加权求和；以及基于加权求和结果来得到所述语音识别结果。

根据本申请一实施例或以上任一实施例的所述的语音识别的方法，其中所述第一权重和所述第二权重通过利用测试数据集测试所述语音识别模型来确定。

按照本申请的第五方面，提供一种语言识别的计算机设备，所述计算机设备包括：存储器；与所述存储器耦合的处理器；以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述计算机程序的运行导致执行根据本申请的第四方面所述的语音识别的方法的步骤。

根据本申请的第六方面，提供一种计算机存储介质，其包括指令，所述指令在运行时执行根据本申请的第四方面所述的语音识别的方法的步骤。

根据本申请的一个或多个实施例的用于构建语音识别模型的方案通过增强的音频数据和文本数据来分别训练声学模型和语言模型，并基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建语音识别模型，从而能够在有限的训练数据的情况下提高混合语音识别模型的识别准确性，并且降低了获取训练数据以及模型训练过程所耗费的人力与物力成本。

附图说明

本申请的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。附图包括：

图1示出了根据本申请的一个或多个实施例的用于构建语音识别模型的方法的流程图。

图2示出了根据本申请的一个实施例的声学模型的示意性框图。

图3示出了根据本申请的另一个实施例的声学模型的示意性框图。

图4示出了根据本申请的一个或多个实施例构建的语音识别模型的示意性框图。

图5示出了根据本申请的一个或多个实施例的语音识别的方法的流程图。

图6示出了根据本申请的一个或多个实施例的用于构建语音识别模型的计算机设备的示意性框图。

图7示出了根据本申请的一个或多个实施例的语言识别的计算机设备的示意性框图。

具体实施方式

下面参照其中图示了本申请示意性实施例的附图更为全面地说明本申请。但本申请可以按不同形式来实现，而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整，以将本申请的保护范围更为全面地传达给本领域技术人员。

在本说明书中，诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本申请的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

除非特别说明，诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。

在下文中，将参考附图详细地描述根据本申请的各个示例性实施例。

如图1中所示，在步骤S101中，获取音频训练数据和文本训练数据，所述音频训练数据包括增强的音频数据的提取特征和对应于所述音频数据的语音识别标签，所述文本训练数据包括增强的文本数据。

在一个实施例中，可以通过以下方式中的一种或多种来生成增强的音频数据：调整原始音频数据的音频速度以基于具有不同于原始音频数据的音频速度的一个或多个音频数据生成所述增强的音频数据；调整原始音频数据的音量以基于具有不同于原始音频数据的音量的一个或多个音频数据生成增强的音频数据；对原始音频数据进行频谱增强处理以生成增强的音频数据；以及利用文本转语音（Text-to-speech, TTS）模型处理文本训练数据以生成增强的音频数据。示例性地，可以采集时长为10000小时的原始音频数据，通过调整原始音频数据的音频速度可以得到原始音频数据的音频速度的0.9倍、1倍和1.1倍的音频数据作为增强的音频数据。示例性地，可以使用Sox音频操作工具在预设参数[-40,40]范围内调整音量以生成增强的音频数据。示例性地，可以通过时间扭曲、频率通道掩蔽、时间步长掩蔽等对原始音频数据进行频谱增强处理以生成增强的音频数据。示例性地，可以利用预先训练的TTS模型处理文本训练数据以生成增强的音频数据。在一个实施例中，可以将同一对话中按照时间顺序排列的多个句子随机成对组合以获取增强的文本数据。通过对音频训练数据和文本训练数据的增强，能够获得相对于已有训练数据的数倍的训练数据，从而有利于提高训练的语音识别模型的识别准确性，并且降低了获取训练数据所耗费的人力与物力成本。

在一个实施例中，增强的音频数据的提取特征可以包括Fbank（Filter Bank）特征、MFCC（Mel-scaleFrequencyCepstral Coefficients）特征、PNCC（PerceptualNonlinear Complex Cepstrum）特征等。示例性地，可以通过对增强的音频数据进行滤波和能量计算来提取Fbank特征。具体地，首先可以对增强的音频数据进行预加重，即对信号进行高通滤波以在时域上增强高频成分。接着将预加重的音频信号分成短时片段，每个片段例如包含20-40毫秒的音频数据，再对每个片段应用窗函数（例如汉明窗、海明窗等）以得到窗口帧。接着，可以对每个窗口帧进行快速傅里叶变换以将时域信号转换为频域信号，并且将频域信号通过一组梅尔滤波器进行滤波，这些滤波器在不同频率范围内具有不同的通带和阻带特性。接着，可以对每个滤波器输出的信号进行平方运算并累加得到能量值，以捕获不同频率范围内的能量值。最后，可以对能量值进行对数运算以获取音频信号的频谱能量分布作为Fbank特征。示例性地，对Fbank特征进行离散余弦变换（DCT）即可获得MFCC特征。在一个实施例中，对应于音频数据的语音识别标签可以包括音频数据的音素、音节、半音节等。

可选地，在步骤S101中，音频训练数据和文本训练数据可以各自包括多个语种的训练数据及其混合的训练数据，例如可以各自至少包括第一语种的训练数据、第二语种的训练数据、第一语种与第二语种的混合训练数据。

在步骤S103中，利用音频训练数据对声学模型进行训练以得到训练的声学模型，利用文本训练数据对语言模型进行训练以得到训练的语言模型。

可选地，声学模型可以实现为感知语言编码（Language-Aware Encoder）模型或混合专家（Mixture of Export）模型，语言模型可以实现为内置语言（Internal Language）模型或长上下文语言（Long Context Language）模型。在利用音频训练数据对声学模型进行训练期间，所述声学模型至少用于学习所述音频训练数据的全局上下文信息和局部特征信息。

在步骤S105中，基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建语音识别模型。

可选地，在步骤S105中，可以组合训练的感知语言编码模型与内置语言模型以生成第一组合模型，组合训练的混合专家模型与长上下文语言模型以生成第二组合模型，以及融合所述第一组合模型与所述第二组合模型以构建语音识别模型。可替代地，可以组合训练的感知语言编码模型与长上下文语言模型以生成第一组合模型，组合训练的混合专家模型与内置语言模型以生成第二组合模型，以及融合所述第一组合模型与所述第二组合模型以构建语音识别模型。可选地，在组合过程中可以利用发音字典来连接训练的声学模型与训练的语言模型，发音字典可以包括单词或词语与音素之间的映射。

在一个实施例中，训练的声学模型可以基于输入语音的特征数据生成音素序列（例如，在中文中可以为拼音序列和声韵母序列），例如，“da3 kai1 yin1 yue4 bo1 fang4qi4”其可以被理解为实现了从输入语音的特征数据到音素序列的映射。在一个实施例中，训练的语言模型可以基于音素序列生成对应的文字序列，例如基于音素序列“da3kai1yin1 yue4 bo1 fang4 qi4”生成对应的文字序列“打开音乐播放器”。由此，可以利用预先存储有单词或词语与音素之间的映射的发音字典来组合训练的声学模型与训练的语言模型。

在一个实施例中，可以利用基于ROVER（Recognizer Output Voting ErrorReduction）的多***融合方法来融合训练的声学模型与训练的语言模型的一个或多个组合，以基于每个训练的声学模型与训练的语言模型的组合的输出结果进行最后判决，从而显著降低识别结果的混合错误率（MixError Rate，MER）。

根据本申请的一个或多个实施例的用于构建语音识别模型的方法通过增强的音频数据和文本数据来分别训练声学模型和语言模型，并基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建语音识别模型，从而能够在有限的训练数据的情况下提高混合语音识别模型的识别准确性，并且降低了获取训练数据以及模型训练过程所耗费的人力与物力成本。

以下结合图2-4分别描述根据本申请的一个或多个实施例的声学模型以及构建的语音识别模型的示意性结构。

如图2中所示，声学模型200包括增强模块210、卷积下采样模块220、线性网络层230、正则网络层240和多个（例如，图2中所示为N个）混合专家子模型250。

增强模块210用于对输入音频数据进行增强操作和特征提取操作，以得到增强的音频数据的提取特征。

可选地，增强模块210对输入音频数据进行增强操作可以包括以下操作中的一种或多种：调整输入音频数据的音频速度以基于具有不同于输入音频数据的音频速度的一个或多个音频数据生成增强的音频数据；调整输入音频数据的音量以基于具有不同于输入音频数据的音量的一个或多个音频数据生成增强的音频数据；对输入音频数据进行频谱增强处理以生成增强的音频数据；以及利用文本转语音（Text-to-speech, TTS）模型处理文本训练数据以生成增强的音频数据。可选地，增强的音频数据的提取特征可以包括Fbank特征、MFCC特征、PNCC特征等。

卷积下采样模块220用于处理增强的音频数据的提取特征以得到音频采样特征。

线性网络层230用于对音频采样特征进行线性变换处理，得到线性变换特征，其中线性网络层230可以实现为一个或多个全连接层，以用于将音频采样特征映射到下一层的特征空间。

正则网络层240用于对线性变换特征进行正则化处理，得到音频正则化特征。可选地，正则网络层240可以实现为BN(Batch Normalization)层、LN(LayerNorm)层、IN(InstanceNorm)层、GN(GroupNorm)层、Dropout层等，以用于稳定模型的训练，防止网络过拟合。

继续如图2中所示，每个混合专家子模型250包括第一前向反馈模块2501、多头自注意力模块2502、卷积模块2503、第二前向反馈模块2504、第一语种前向神经网络2505、第二语种前向神经网络2506和归一化层2507。在第一前向反馈模块2501与第二前向反馈模块2504之间连接多头自注意力模块2502和卷积模块2503，其中在第一前向反馈模块2501和第二前向反馈模块2504中每个可以输出一半的值，即第一前向反馈模块2501和第二前向反馈模块2504的输出特征在乘以二分之一后才会输入下一个模块，例如第一前向反馈模块2501的输出特征在乘以二分之一后输入至多头自注意力模块2502，第二前向反馈模块2504的输出特征在乘以二分之一后输入至第一语种前向神经网络2505、第二语种前向神经网络2506。

第一前向反馈模块2501用于对正则网络层240输出的音频正则化特征进行线性变换和非线性映射以得到音频训练数据的第一变换特征。多头自注意力模块2502用于获取音频训练数据的注意力输出特征以基于所述注意力输出特征提取音频训练数据的全局上下文信息，其中多头自注意力模块2502的输入可以为音频训练数据的第一变换特征与音频正则化特征的组合。卷积模块2503用于至少基于音频训练数据的注意力输出特征获取音频训练数据的音频卷积特征以基于音频卷积特征提取音频训练数据的局部特征信息，其中卷积模块2503的输入可以为注意力输出特征与多头自注意力模块2502的输入的组合。第二前向反馈模块2504用于对音频卷积特征的融合特征进行线性变换和非线性映射以得到音频训练数据的第二变换特征，其中第二前向反馈模块2504的输入（即音频卷积特征的融合特征）可以为音频卷积特征与卷积模块2503的输入的组合。第一语种前向神经网络2505用于处理与第一语种相关联的音频训练数据的第二变换特征的融合特征以生成第一语种向量，第二语种前向神经网络2506用于处理与第二语种相关联的音频训练数据的第二变换特征的融合特征以生成第二语种向量，其中音频训练数据的第二变换特征的融合特征可以为音频训练数据的第二变换特征与第二前向反馈模块2504的输入的组合。归一化层2507用于归一化处理基于第一语种向量和第二语种向量的选择性输出结果。

如图3中所示，声学模型300包括增强模块310、卷积下采样模块320、线性网络层330、正则网络层340和多个（例如，图3中所示为N个）感知语言编码子模型350。

增强模块310用于对输入音频数据进行增强操作和特征提取操作，以得到增强的音频数据的提取特征。

卷积下采样模块320用于处理增强的音频数据的提取特征以得到音频采样特征。

线性网络层330用于对音频采样特征进行线性变换处理，得到线性变换特征，其中线性网络层330可以实现为一个或多个全连接层，以用于将音频采样特征映射到下一层的特征空间。

正则网络层340用于对线性变换特征进行正则化处理，得到音频正则化特征。

继续如图3中所示，每个感知语言编码子模型350包括第一前向反馈模块3501、多头自注意力模块3502、卷积模块3503、第二前向反馈模块3504、共享编码器3505、第一语种编码器3506、第二语种编码器3507、门控网络3508和归一化层3509。在第一前向反馈模块3501与第二前向反馈模块3504之间连接多头自注意力模块3502和卷积模块3503，其中在第一前向反馈模块3501和第二前向反馈模块3504中每个可以输出一半的值，即第一前向反馈模块3501和第二前向反馈模块3504的输出特征在乘以二分之一后才会输入下一个模块，例如第一前向反馈模块3501的输出特征在乘以二分之一后输入至多头自注意力模块3502，第二前向反馈模块3504的输出特征在乘以二分之一后输入至共享编码器3505。

第一前向反馈模块3501用于对正则网络层340输出的音频正则化特征进行线性变换和非线性映射以得到音频训练数据的第一变换特征。多头自注意力模块3502用于获取音频训练数据的注意力输出特征以基于所述注意力输出特征提取音频训练数据的全局上下文信息，其中多头自注意力模块3502的输入可以为音频训练数据的第一变换特征与音频正则化特征的组合。卷积模块3503用于至少基于音频训练数据的注意力输出特征获取音频训练数据的音频卷积特征以基于音频卷积特征提取音频训练数据的局部特征信息，其中卷积模块3503的输入可以为注意力输出特征与多头自注意力模块3502的输入的组合。第二前向反馈模块3504用于对音频卷积特征的融合特征进行线性变换和非线性映射以得到音频训练数据的第二变换特征，其中第二前向反馈模块3504的输入（即音频卷积特征的融合特征）可以为音频卷积特征与卷积模块3503的输入的组合。共享编码器3505用于编码音频训练数据的第二变换特征的融合特征以生成共享编码信息，其中音频训练数据的第二变换特征的融合特征可以为音频训练数据的第二变换特征与第二前向反馈模块3504的输入的组合。第一语种编码器3506用于编码共享编码信息以生成第一语种编码信息，第二语种编码器3507用于编码共享编码信息以生成第二语种编码信息，以及门控网络3508用于至少基于先前帧的输出编码信息选择性地将所述第一语种编码信息或所述第二语种编码信息作为当前帧的输出编码信息。归一化层3509用于归一化处理当前帧的输出编码信息。

如图4中所示，根据本申请的一个或多个实施例构建的语音识别模型400包括组合识别模型410、组合识别模型420和融合模型430，其中组合识别模型410包括感知语言编码模型4101和内置语言模型4102，组合识别模型420包括混合专家模型4201和长上下文语言模型4202。

组合识别模型410配置成基于输入语音生成第一识别结果，组合识别模型420配置成基于输入语音生成第二识别结果，融合模型430配置成第一识别结果和第二识别结果进行融合，以得到语音识别结果。可选地，第一识别结果和第二识别结果可以各自包括识别出的字符及其对应的概率值，例如第一识别结果可以包括字符A及其对应的概率值0.9，字符B及其对应的概率值0.8，以及第二识别结果可以包括字符A及其对应的概率值0.8，字符D及其对应的概率值0.9。

在一个实施例中，融合模型430可以利用基于ROVER（Recognizer Output VotingError Reduction）的多***融合方法来融合第一识别结果和第二识别结果以得到语音识别结果，例如得到语音识别结果为字符A、字符B。在一个实施例中，在融合过程中，融合模型430可以利用不同的权重对组合识别模型410和组合识别模型420的识别结果进行不平衡加权，例如分别利用权重0.6和0.4对上述第一识别结果和第二识别结果进行加权求和，以得到字符A的加权求和概率为0.86，字符B的加权求和概率为0.48，以及字符D的加权求和概率为0.36，由此确定语音识别结果为字符A和字符B。

在一个实施例中，可以为组合识别模型410和组合识别模型420的识别结果预先分配权重并利用测试集来测试构建的语音识别模型400的准确率，以确定在不同应用场景（例如，不同语种的混合比例不同的场景）下对应于每个组合识别模型的权重。可替代地，构建的语音识别模型可以包括三个或以上的组合识别模型，每个组合识别模型的混合训练数据中的不同语种的混合比例可以不同，以使得构建的语音识别模型能够在各种应用场景下实现高的识别准确性。作为示例，可以至少利用中英文混合的混合训练数据来分别训练组合识别模型410和组合识别模型420，其中组合识别模型410的混合训练数据中的中文比例较高，而组合识别模型420的混合训练数据中的英文比例较高。在利用组合识别模型410和组合识别模型420进行语音识别时，可以基于识别场景下中英文语音的比例不同来利用不同的权重对组合识别模型410和组合识别模型420的识别结果进行不平衡加权，例如在识别场景下中文语音的比例较高的情况下为组合识别模型410分配比组合识别模型420更大的权重，在识别场景下英文语音的比例较高的情况下为组合识别模型410分配比组合识别模型420更小的权重。

需要说明的是，图4仅示意性地图示了组合识别模型410和组合识别模型420，但是在不脱离本申请的精神和范围的情况下，语音识别模型400可以包括更多的组合识别模型，每个组合识别模型识别为声学模型与语言模型的组合。

如图5中所示，在步骤S501中，获取输入语音的特征数据，所述输入语音包括多个语种的语音数据。

可选地，输入语音的特征数据可以包括Fbank特征、MFCC特征、PNCC特征等。

在步骤S503，将特征数据输入至根据本申请的一个或多个实施例的用于构建语音识别模型的方法构建的语音识别模型，以得到语音识别结果。

可选地，在步骤S503，可以将特征数据输入至语音识别模型的第一组合模型以得到第一识别结果，将特征数据输入至语音识别模型的第二组合模型以得到第二识别结果，以及基于所述第一识别结果与所述第二识别结果的融合来得到语音识别结果。可选地，语音识别模型的第一组合模型可以包括感知语言编码模型与内置语言模型，语音识别模型的第二组合模型可以包括混合专家模型与长上下文语言模型。

在一个实施例中，可以利用第一权重和第二权重分别对第一语种的语音识别结果和第二语种的语音识别结果进行加权求和，并基于加权求和结果来得到语音识别结果。

在一个实施例中，根据本申请的一个或多个实施例的用于构建语音识别模型的方法构建的语音识别模型可以包括三个组合识别模型，其分别输出第一识别结果、第二识别结果和第三识别结果，可以利用不同权重对第一识别结果、第二识别结果和第三识别结果进行加权求和，并基于加权求和结果来得到语音识别结果。示例性地，第一识别结果可以包括字符A及其对应的概率值0.9，字符B及其对应的概率值0.8，第二识别结果可以包括字符A及其对应的概率值0.8，字符D及其对应的概率值0.9，第三识别结果可以包括字符A及其对应的概率值0.9，字符B及其对应的概率值0.9，可以分别利用权重0.3、0.3和0.4对上述语音识别结果进行加权求和，以得到字符A的加权求和概率为0.87，字符B的加权求和概率为0.6，字符D的加权求和概率为0.27，由此确定语音识别结果为字符A和字符B。在一个实施例中，针对每个识别结果的权重可以通过以下方式中的一种或多种的组合来确定：为每个组合识别模型的输出结果预先分配权重并利用测试集来测试构建的语音识别模型的准确率，以选择准确率最高时对应于每个组合识别模型的权重；基于每个组合识别模型的混合训练数据中不同语种的混合比例以及当前语音识别场景下混合语音的不同语种的混合比例。

根据本申请的一个或多个实施例的语音识别的方法能够应用于多语种的混合语音的识别场景中，提升了多语种语音识别结果的准确性，便于推广应用。

如图6中所示，用于构建语音识别模型的计算机设备60包括存储器610、处理器620以及存储在存储器610上并且可在处理器620上运行的计算机程序630。处理器620运行计算机程序630以实现按照本申请的一个方面的用于构建语音识别模型的方法。

如图7中所示，语言识别的计算机设备70包括存储器710、处理器720以及存储在存储器710上并且可在处理器720上运行的计算机程序730。处理器720运行计算机程序730以实现按照本申请的一个方面的语音识别的方法。

另外，本申请也可以被实施为一种计算机存储介质，在其中存储有用于使计算机执行按照本申请的一个方面的用于构建语音识别模型的方法的程序。另外，本申请也可以被实施为一种计算机存储介质，在其中存储有用于使计算机执行按照本申请的一个方面的语言识别的方法的程序。

计算机存储介质可以实现为盘类（例如，磁盘、光盘等）、卡类（例如，存储卡、光卡等）、半导体存储器类（例如，ROM、非易失性存储器等）、带类（例如，磁带、盒式磁带等）等。

在可适用的情况下，可以使用硬件、软件或硬件和软件的组合来实现由本申请提供的各种实施例。而且，在可适用的情况下，在不脱离本申请的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下，在不脱离本申请的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件或两者的子部件。另外，在可适用的情况下，预期的是，软件部件可以被实现为硬件部件，以及反之亦然。

根据本申请的软件（诸如程序代码和/或数据）可以被存储在一个或多个计算机存储介质上。还预期的是，可以使用联网的和/或以其他方式的一个或多个通用或专用计算机和/或计算机***来实现本文中标识的软件。在可适用的情况下，本文中描述的各个步骤的顺序可以被改变、被组合成复合步骤和/或被分成子步骤以提供本文中描述的特征。

提供本文中提出的实施例和示例，以便最好地说明按照本申请及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本申请。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本申请的各个方面或者将本申请局限于所公开的精确形式。

Claims

1.一种用于构建语音识别模型的方法，其特征在于，所述方法包括下列步骤：

获取音频训练数据和文本训练数据，所述音频训练数据包括增强的音频数据的提取特征和对应于所述音频数据的语音识别标签，所述文本训练数据包括增强的文本数据；

利用所述音频训练数据对声学模型进行训练以得到训练的声学模型，利用所述文本训练数据对语言模型进行训练以得到训练的语言模型；以及

基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型。

2.根据权利要求1所述的方法，其中所述音频训练数据和所述文本训练数据各自至少包括第一语种的训练数据、第二语种的训练数据、第一语种与第二语种的混合训练数据。

3.根据权利要求1所述的方法，其中所述音频训练数据中的增强的音频数据通过以下方式中的一种或多种来生成：

调整原始音频数据的音频速度以基于具有不同于原始音频数据的音频速度的一个或多个音频数据生成所述增强的音频数据；

调整原始音频数据的音量以基于具有不同于原始音频数据的音量的一个或多个音频数据生成所述增强的音频数据；

对原始音频数据进行频谱增强处理以生成所述增强的音频数据；以及

利用文本转语音模型处理所述文本训练数据以生成所述增强的音频数据。

4.根据权利要求1所述的方法，其中所述增强的音频数据的提取特征包括以下中的一个或多个：Fbank特征、MFCC特征、PNCC特征。

5.根据权利要求1所述的方法，其中所述文本训练数据中的增强的文本数据通过以下方式来生成：

将同一对话中按照时间顺序排列的多个句子随机成对组合以获取所述增强的文本数据。

6.根据权利要求1所述的方法，其中所述声学模型为感知语言编码模型或混合专家模型，所述语言模型为内置语言模型或长上下文语言模型。

7. 根据权利要求1所述的方法，其中所述声学模型包括多个混合专家子模型或多个感知语言编码子模型，所述多个混合专家子模型或多个感知语言编码子模型中的每个包括：

多头自注意力模块，其用于获取所述音频训练数据的注意力输出特征以基于所述注意力输出特征提取所述音频训练数据的全局上下文信息；以及

卷积模块，其用于至少基于所述音频训练数据的注意力输出特征获取所述音频训练数据的音频卷积特征以基于所述音频卷积特征提取所述音频训练数据的局部特征信息。

8.根据权利要求7所述的方法，其中所述多个混合专家子模型或多个感知语言编码子模型中的每个包括：

第一前向反馈模块，其用于对正则网络层输出的音频正则化特征进行线性变换和非线性映射以得到所述音频训练数据的第一变换特征；

第二前向反馈模块，其用于对所述音频卷积特征的融合特征进行线性变换和非线性映射以得到所述音频训练数据的第二变换特征。

9.根据权利要求8所述的方法，其中所述多个混合专家子模型中的每个包括：

第一语种前向神经网络，其用于处理与第一语种相关联的所述音频训练数据的第二变换特征的融合特征以生成第一语种向量；

第二语种前向神经网络，其用于处理与第二语种相关联的所述音频训练数据的第二变换特征的融合特征以生成第二语种向量。

10.根据权利要求8所述的方法，其中所述多个感知语言编码子模型中的每个包括：

共享编码器，其用于编码所述音频训练数据的第二变换特征的融合特征以生成共享编码信息；

第一语种编码器，其用于编码所述共享编码信息以生成第一语种编码信息；

第二语种编码器，其用于编码所述共享编码信息以生成第二语种编码信息；以及

门控网络，其用于至少基于先前帧的输出编码信息选择性地将所述第一语种编码信息或所述第二语种编码信息作为当前帧的输出编码信息。

11.根据权利要求6所述的方法，其中基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型包括：

组合训练的感知语言编码模型与内置语言模型以生成第一组合模型；

组合训练的混合专家模型与长上下文语言模型以生成第二组合模型；以及

融合所述第一组合模型与所述第二组合模型以构建所述语音识别模型。

12.一种用于构建语音识别模型的计算机设备，其特征在于，所述计算机设备包括：

存储器；

与所述存储器耦合的处理器；以及

存储在所述存储器上并在所述处理器上运行的计算机程序，所述计算机程序的运行导致执行根据权利要求1-11中的任一项所述的用于构建语音识别模型的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，所述指令在运行时执行根据权利要求1-11中的任一项所述的用于构建语音识别模型的方法。

14.一种语音识别的方法，其特征在于，所述方法包括下列步骤：

获取输入语音的特征数据，所述输入语音包括多个语种的语音数据；

将所述特征数据输入至根据权利要求1-11中的任一项所述的用于构建语音识别模型的方法构建的语音识别模型，以得到语音识别结果。

15.根据权利要求14所述的方法，其中将所述特征数据输入至所述语音识别模型以得到语音识别结果包括：

将所述特征数据输入至所述语音识别模型的第一组合模型以得到第一识别结果；

将所述特征数据输入至所述语音识别模型的第二组合模型以得到第二识别结果；以及

基于所述第一识别结果与所述第二识别结果的融合来得到所述语音识别结果。

16. 根据权利要求15所述的方法，其中基于所述第一识别结果与所述第二识别结果的融合来得到所述语音识别结果包括：

利用第一权重和第二权重分别对第一语种的语音识别结果和第二语种的语音识别结果进行加权求和；以及

基于加权求和结果来得到所述语音识别结果。

17.根据权利要求16所述的方法，其中所述第一权重和所述第二权重通过利用测试数据集测试所述语音识别模型来确定。

18.一种语言识别的计算机设备，其特征在于，所述计算机设备包括：

存储器；

与所述存储器耦合的处理器；以及

存储在所述存储器上并在所述处理器上运行的计算机程序，所述计算机程序的运行导致执行根据权利要求14-17中的任一项所述的语音识别的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，所述指令在运行时执行根据权利要求14-17中的任一项所述的语音识别的方法。