CN114822509A

CN114822509A - 语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN114822509A
Application number: CN202210587567.8A
Authority: CN
Inventors: 丁超越; 宗道明; 李家魁; ***
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-07-29

Abstract

本公开提供了一种语音识别方法、装置、计算机设备及存储介质，其中，该方法包括：获取待识别的目标音频数据，并对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征；将所述音频提取特征输入至预先训练好的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征；其中，所述目标编码器包含自注意力网络，所述自注意力网络在确定目标查询矩阵时采用池化处理操作；所述目标查询矩阵为所述自注意力网络在基于自注意力机制进行特征提取时确定的多个特征表示矩阵中的一个；基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果。

Description

语音识别方法、装置、计算机设备及存储介质

技术领域

本公开涉及语音识别技术领域，具体而言，涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术

语音唤醒在智能语音交互的应用中占据重要的一环，语音唤醒算法在智能车舱、智能家居以及智能机器人等应用场景中均具有较大的应用价值。

相关应用场景中，用于语音唤醒的待识别的音频数据通常需要在智能音响或移动电话等终端设备上进行本地处理，需要较小的模型参数和较快的处理速度，但为了确保识别结果的准确性，因此相关技术中所使用的模型往往需要消耗较多的计算资源，从而影响了终端设备的语音唤醒效率。

发明内容

本公开实施例至少提供一种语音识别方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种语音识别方法，包括：

获取待识别的目标音频数据，并对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征；

将所述音频提取特征输入至预先训练好的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征；其中，所述目标编码器包含自注意力网络，所述自注意力网络在确定目标查询矩阵时采用池化处理操作；所述目标查询矩阵为所述自注意力网络在基于自注意力机制进行特征提取时确定的多个特征表示矩阵中的一个；

基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果。

这样，通过将待识别的目标音频数据对应的音频提取特征，输入至包含基于池化处理操作得到的目标查询矩阵的目标编码器中，得到所述目标音频数据对应的音频编码特征，从而可以基于所述音频编码特征确定所述目标音频数据对应的语音识别结果。这样，通过进行池化处理操作，可以使得生成的目标查询矩阵的参数量更少，使得后续基于目标查询矩阵得到的自注意力网络的输出的参数量更少，从而实现对自注意力网络的输出数据的压缩，提高进行语音唤醒的效率。

一种可能的实施方式中，所述对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征，包括：

对所述目标音频数据进行初始特征提取，确定所述目标音频数据对应的梅尔频率倒谱系数特征；

对所述梅尔频率倒谱系数特征进行特征维度转换处理，得到所述音频提取特征；其中，所述音频提取特征的维度高于所述梅尔频率倒谱系数特征的维度。

一种可能的实施方式中，在确定所述目标音频数据对应的梅尔频率倒谱系数特征后，所述方法还包括：

对所述梅尔频率倒谱系数特征进行特征增强处理，得到增强处理后的梅尔频率倒谱系数特征；

所述对所述梅尔频率倒谱系数特征进行特征维度转换处理，得到所述音频提取特征，包括：

基于目标卷积神经网络对增强处理后的梅尔频率倒谱系数特征进行特征维度转换处理，得到所述目标音频数据对应的音频提取特征。

这样，通过在进行特征维度转换处理之前对梅尔频率倒谱系数特征进行特征增强处理，可以增加进行特征维度转换处理时的特征信息，从而能够使提高在进行特征维度转换处理时的特征提取效果。

一种可能的实施方式中，所述目标编码器中还包括目标前馈神经网络结构，所述目标前馈神经网络结构中包含卷积层和归一化层，用于对所述自注意力网络输出的特征进行处理。

这样，相较于原始的前馈神经网络中较为复杂的网络结构，通过将目标前馈神经网络结构设置为卷积层和归一化层，可以减少该阶段的计算成本，提高进行语音识别的效率。

一种可能的实施方式中，所述自注意力网络中包括相对位置编码模块；

所述相对位置编码模块，用于对所述目标查询矩阵进行相对位置编码处理。

这样，基于相对位置编码模块对所述目标查询矩阵进行相对位置编码处理，可以将位置信息引入到基于多头自注意力机制构建的网络结构中，从而能够确保自注意力网络最终输出结果的准确性。

一种可能的实施方式中，所述基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果，包括：

基于目标池化网络，对所述音频编码特征进行池化处理，得到池化处理后的目标音频特征；

将所述目标音频特征输入至训练好的目标分类网络中，得到所述目标分类网络输出的针对各类别预设关键词的目标概率矩阵；

基于所述目标概率矩阵，确定所述目标音频数据对应的语音识别结果。

这样，通过对音频编码特征进行池化处理，可以将待识别的目标音频数据对应的序列长度为n的音频编码特征，变换为不含序列长度的目标音频特征，从而便于进行语音识别；并通过训练好的目标分类网络对所述目标音频特征进行处理，从而可以得到语音识别结果。

一种可能的实施方式中，所述方法还包括根据以下步骤对所述目标分类网络进行训练：

获取样本数据和所述样本数据对应的目标标签；

基于所述样本数据、目标编码器以及所述目标池化网络，确定与所述样本数据对应的样本音频特征；

将所述样本音频特征输入至待训练的所述目标分类网络，得到所述目标分类网络输出的第一预测结果；以及，将所述样本音频特征输入至训练好的教师神经网络中，得到所述教师神经网络输出的第二预测结果；

基于所述第一预测结果、所述第二预测结果以及所述目标标签，确定本次训练的目标损失值，并基于所述目标损失值对所述目标分类网络进行网络参数调节。

这样，通过对所述目标分类网络的知识蒸馏，使得所述目标分类能够同时兼顾网络精度和网络规模。

一种可能的实施方式中，所述基于所述第一预测结果、所述第二预测结果以及所述目标标签，确定本次训练的目标损失值，包括：

基于所述第一预测结果和所述目标标签，确定第一损失值；以及，基于所述第一预测结果和所述第二预测结果，确定第二损失值；

基于所述第一损失值和所述第二损失值，确定所述目标损失值。

这样，在确定所述目标损失值时，对教师神经网络输出的第二预测结果处理，并将处理后的结果作为近似的真实标签，通过确定的近似的真实标签与目标分类网络的交叉熵损失，作为训练所述目标分类网络的第二损失值，从而对基于所述目标分类网络输出的第一预测结果和所述目标标签确定的第一损失值进行补充，有助于提高所述目标分类网络的网络精度。

第二方面，本公开实施例还提供一种语音识别装置，包括：

获取模块，用于获取待识别的目标音频数据，并对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征；

输入模块，用于将所述音频提取特征输入至预先训练好的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征；其中，所述目标编码器包含自注意力网络，所述自注意力网络在确定目标查询矩阵时采用池化处理操作；所述目标查询矩阵为所述自注意力网络在基于自注意力机制进行特征提取时确定的多个特征表示矩阵中的一个；

确定模块，用于基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果。

一种可能的实施方式中，所述获取模块，在对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征时，用于：

一种可能的实施方式中，在确定所述目标音频数据对应的梅尔频率倒谱系数特征后，所述获取模块还用于：

所述获取模块，在对所述梅尔频率倒谱系数特征进行特征维度转换处理，得到所述音频提取特征时，用于：

一种可能的实施方式中，所述确定模块，在基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果时，用于：

一种可能的实施方式中，所述输入模块还用于根据以下步骤对所述目标分类网络进行训练：

获取样本数据和所述样本数据对应的目标标签；

一种可能的实施方式中，所述输入模块，在基于所述第一预测结果、所述第二预测结果以及所述目标标签，确定本次训练的目标损失值时，用于：

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述语音识别装置、计算机设备、及计算机可读存储介质的效果描述参见上述语音识别方法的说明，这里不再赘述。

将所述音频提取特征输入至预先训练好的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种语音识别方法的流程图；

图2示出了本公开实施例所提供的语音识别方法中，自注意力网络的网络结构的示意图；

图3示出了本公开实施例提供的一种语音识别方法的整体流程图；

图4示出了本公开实施例所提供的一种语音识别装置的架构示意图；

图5示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，用于语音唤醒的待识别的音频数据通常需要在智能音响或移动电话等终端设备上进行本地处理，需要较小的模型参数和较快的处理速度，但为了确保识别结果的准确性，因此相关技术中所使用的模型往往需要消耗较多的计算资源，从而影响了终端设备的语音唤醒效率。

早期进行语音唤醒时，往往选择使用隐马尔可夫模型来建立语音唤醒模型。在这种方式中，需要为每个能够进行语音唤醒的关键字或关键词训练一个隐马尔可夫模型，而每个模型均需要使用维特比算法进行解码处理，从而使得在识别过程中需要较多的计算资源，导致了效率低下。

随着深度学习技术的快速发展，神经网络模型逐渐替代传统的隐马尔可夫模型进行语音识别任务，所述神经网络模型例如可以是Transformer模型。以使用的神经网络模型为Transformer模型为例，虽然Transformer模型具有强大的表征能力和泛化能力，但Transformer模型的强大性能往往伴随着较大的模型尺寸和较高的计算成本，从而给Transformer模型在终端设备的部署带来了困难，因此如何对神经网络模型的网络结构进行优化，以使得神经网络模型能够更好的适应语音识别任务的部署场景，成为了本领域内亟待解决的问题。

基于上述研究，本公开提供了一种语音识别方法、装置、计算机设备及存储介质，通过将待识别的目标音频数据对应的音频提取特征，输入至包含基于池化处理操作得到的目标查询矩阵的目标编码器中，得到所述目标音频数据对应的音频编码特征，从而可以基于所述音频编码特征确定所述目标音频数据对应的语音识别结果。这样，通过进行池化处理操作，可以使得生成的目标查询矩阵的参数量更少，使得后续基于目标查询矩阵得到的自注意力网络的输出的参数量更少，从而实现对自注意力网络的输出数据的压缩，提高进行语音唤醒的效率。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种语音识别方法进行详细介绍，本公开实施例所提供的语音识别方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该语音识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的语音识别方法的流程图，所述方法包括S101～S103，其中：

S101：获取待识别的目标音频数据，并对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征。

S102：将所述音频提取特征输入至预先训练好的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征；其中，所述目标编码器包含自注意力网络，所述自注意力网络在确定目标查询矩阵时采用池化处理操作；所述目标查询矩阵为所述自注意力网络在基于自注意力机制进行特征提取时确定的多个特征表示矩阵中的一个。

S103：基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果。

以下是对上述步骤的详细介绍。

针对S101，所述目标音频数据可以是终端设备中部署的音频数据采集模块采集的，所述音频数据采集模块例如可以是麦克风等。

一种可能的实施方式中，在对所述目标音频数据进行音频特征提取时，可以通过下述步骤A1～A2：

A1：对所述目标音频数据进行初始特征提取，确定所述目标音频数据对应的梅尔频率倒谱系数特征。

A2：对所述梅尔频率倒谱系数特征进行特征维度转换处理，得到所述音频提取特征；其中，所述音频提取特征的维度高于所述梅尔频率倒谱系数特征的维度。

这里，所述特征维度转换处理可以用于将二维的梅尔频率倒谱系数特征，转换为三维的音频提取特征。

具体的，在进行所述特征维度转换处理时，可以使用包含卷积层的目标卷积神经网络依次对所述梅尔频率倒谱系数特征进行卷积处理、激活处理、池化处理，从而得到特征维度转换后的音频提取特征。

示例性的，以所述池化处理为最大池化处理，所述卷积处理为二维卷积处理为例，在进行特征维度转换处理时的公式可以为：

x₀＝MaxPool(ReLU(conv2d(x)))

其中，x表示待转换的梅尔频率倒谱系数特征，conv2d表示进行二维卷积处理，ReLU表示使用ReLU函数进行激活处理，MaxPool表示进行最大池化处理，x₀表示转换后得到的音频提取特征。

实际应用中，特征维度转换处理后得到的音频提取特征需要输入到目标模型的编码器中，为了使得音频提取特征能够符合目标模型的输入标准，在进行二维卷积处理时，需要使得二维卷积操作的通道数与所述目标模型的编码器的嵌入维度相同，从而使得特征维度转换处理后的音频提取特征能够更好的符合所述目标模型的输入标准。

一种可能的实施方式中，在将所述音频提取特征输入至预先训练好的目标编码器之前，可以进行多次的特征维度转换处理，以提取更深层次的音频特征，从而减少输入所述目标编码器的参数量。

具体的，为了使得输入的音频提取特征符合所述目标编码器的输入标准，在进行多次的特征维度转换处理时，可以将最后一次进行的特征维度转换处理时所使用的二维卷积处理的通道数，设置为与所述目标编码器的嵌入维度相同的数值。

示例性的，以所述目标编码器的嵌入维度为4，对待转换的梅尔频率倒谱系数特征进行4次特征维度转换处理为例，在进行第1～3次的特征维度转换处理时，可以设置二维卷积处理的通道数为3；在进行第4次的特征维度转换处理时，可以设置二维卷积处理的通道数为4，从而使得经过维度转换处理后得到的音频提取特征符合所述目标编码器的输入标准。

进一步的，在确定所述目标音频数据对应的梅尔频率倒谱系数特征后，还可以对所述梅尔频率倒谱系数特征进行特征增强处理，得到增强处理后的梅尔频率倒谱系数特征，并基于目标卷积神经网络对增强处理后的梅尔频率倒谱系数特征进行特征维度转换处理，得到所述目标音频数据对应的音频提取特征。

这里，可以使用数据增强技术对所述梅尔频率倒谱系数特征进行特征增强处理，所述数据增强技术例如可以是SpecAugment技术。

这里，所述预先训练好的目标编码器可以是预先训练好的Transformer模型中的编码器，所述目标编码器可以包含多个层级的编码器，各层级的编码器的网络结构可以相同，上一层级的编码器输出数据输入至下一层级的编码器，最后一个层级的编码器的输出即为所述音频编码特征；所述Transformer模型主要包括编码器和解码器，所述编码器和解码器分别用于对输入的数据进行编码处理和解码处理。

示例性的，所述自注意力网络可以是基于多头自注意力机制构建的网络结构，每个自注意力网络的网络结构的示意图可以如图2所示，图2中，K、Q、V依次表示目标键矩阵(Key矩阵)、目标查询矩阵(Query矩阵)、目标值矩阵(Value矩阵)，三个矩阵即为所述自注意力网络在基于自注意力机制进行特征提取时确定的特征表示矩阵；第一激活层中使用的激活函数例如可以是softmax激活函数；第二激活层中使用的激活函数例如可以是GELU激活函数；卷积层中的卷积核的尺寸例如可以是1×1。

其中，K和V均为经过卷积层和归一化层的处理后得到的特征表示矩阵，Q为依次经过池化层、卷积层、归一化层处理后得到特征表示矩阵，所述池化层在进行池化处理时可以对输入的特征信息(也即特征图)进行平均池化处理操作。

这样，相较于基于卷积处理和归一化处理直接得到查询矩阵，通过添加池化层进行池化处理操作，可以使得生成的目标查询矩阵的参数量更少，使得后续基于目标查询矩阵得到的自注意力网络的输出的参数量更少，从而实现对自注意力网络的输出数据的压缩，提高进行语音识别的效率。

一种可能的实施方式中，所述目标编码器中还可以包括目标前馈神经网络结构，所述目标前馈神经网络结构中包含卷积层和归一化层，用于对所述自注意力网络输出的特征进行处理。

这里，卷积层中的卷积核的尺寸可以是1×1，所述目标前馈神经网络结构的扩张系数为2，也即输入的特征经过所述目标前馈神经网络结构中的卷积层和归一化层的处理后，特征维度的变化过程为初始维度(d)-初始维度的两倍(2d)-初始维度(d)。

这样，相较于原始的前馈神经网络中较大的扩张系数(常见的比如4)，通过将目标前馈神经网络结构的扩张系数设置为2，可以减少该阶段的计算成本，提高进行语音识别的效率。

实际应用中，由于自注意力网络往往是基于多头自注意力机制构建的网络结构，因此实际上进行数据处理时是由多个相同的网络结构(也即多个头)分别对拆分后的输入数据进行处理，由于在对输入数据进行拆分并处理后还需要进行合并，因此需要记录每个网络结构对应的位置信息，在每个网络结构进行数据处理时添加位置编码模块进行相应处理。

一种可能的实施方式中，所述自注意力网络中可以包括相对位置编码模块；所述相对位置编码模块，用于对所述目标查询矩阵进行相对位置编码处理。

示例性的，所述相对位置编码模块的示意图可以如图2所示，图2中，位置编码模块可以是相对位置编码模块。

示例性的，在进行相对位置编码处理时的公式可以为：

其中，Q和K即为目标查询矩阵和目标键矩阵，B为进行相对位置编码处理时增加的位置信息；i和i’均为小于等于特征图高度h的正整数；j和j’均为小于等于特征图宽度w的正整数；n为基于多头自注意力机制构建的网络结构(头)的编号，为小于等于多头自注意力机制中网络结构(头)的数量N的正整数。

一种可能的实施方式中，在确定所述目标音频数据对应的语音识别结果时，可以通过下述步骤B1～B3：

B1：基于目标池化网络，对所述音频编码特征进行池化处理，得到池化处理后的目标音频特征。

这里，所述池化处理用于将待识别的目标音频数据对应的序列长度为n的音频编码特征，变换为不含序列长度的目标音频特征，从而便于进行语音识别。

具体的，在对音频编码特征进行池化处理时的公式可以为：

z＝soft max(g(x_s)T)×x_s其中，z表述池化处理后的目标音频特征，维度可以为b×99×d，b为批量大小，d为所述目标编码器的嵌入维度；softmax表示使用softmax激活函数进行激活处理；g表示输入线性层进行线性处理；x_s表示音频编码特征，维度为b×n×d，n为所述目标音频数据对应的序列长度。

B2：将所述目标音频特征输入至训练好的目标分类网络中，得到所述目标分类网络输出的针对各类别预设关键词的目标概率矩阵。

这里，预设关键词可以是能够唤醒终端设备的唤醒词。

B3：基于所述目标概率矩阵，确定所述目标音频数据对应的语音识别结果。

这里，所述目标概率矩阵用于表征所述目标音频数据包含各类别预设关键词的估计概率。

示例性的，以预设关键词的数量为25个为例，则所述目标概率矩阵中包含的各类别分别对应的估计概率可以有26个，其中25个为包含对应的预设关键词的估计概率，1个为不包含任何预设关键词的估计概率。

实际应用中，由于目标分类网络用于得到最终的语音识别结果，因此所述目标分类网络的性能对最终语音识别结果的准确性具有很大影响，需要确保目标分类网络的网络精度，但受限于部署时的终端设备的硬件设备瓶颈，所述目标分类网络的网络规模(即参数量)却不能过大，因此可以针对所述目标分类网络进行相应优化，使得所述目标分类网络能够同时兼顾网络精度和网络规模。

一种可能的实施方式中，在对目标分类网络进行训练时，可以通过下述步骤C1～C4：

C1：获取样本数据和所述样本数据对应的目标标签。

这里，所述目标标签为所述样本数据的真实类别对应的标签。

C2：基于所述样本数据、目标编码器以及所述目标池化网络，确定与所述样本数据对应的样本音频特征。

这里，可以将所述样本数据依次输入至所述目标编码器和所述目标池化网络，从而得到所述目标池化网络输出的所述样本音频特征。

C3：将所述样本音频特征输入至待训练的所述目标分类网络，得到所述目标分类网络输出的第一预测结果；以及，将所述样本音频特征输入至训练好的教师神经网络中，得到所述教师神经网络输出的第二预测结果。

这里，所述教师神经网络可以是预先训练好的网络精度较高的神经网络，所述教师神经网络的网络类型可以与所述目标分类网络相同；所述目标分类网络训练时作为知识蒸馏的学生神经网络，所述目标分类网络的网络结构可以由分类头网络和蒸馏头网络两部分组。

其中，所述样本音频特征在输入至所述目标分类网络后，一部分样本音频特征输入至所述分类头网络，剩余部分样本音频特征输入至所述蒸馏头网络，得到所述分类头网络和所述蒸馏头网络分别输出的第一预测结果，所述蒸馏头网络输出的第一预测结果仅用于对所述目标分类网络进行知识蒸馏，而在具体部署时可以只使用所述目标分类网络中分类头网络输出的第一预测结果作为最终得到的语音识别结果。

示例性的，以所述样本音频特征为b×99×d为例，输入至所述分类头网络的特征的维度可以是b×1×d，输入至所述蒸馏头网络的特征的维度可以是b×98×d，其中b为批量大小，d为所述目标编码器的嵌入维度，从而在实际预测时的数据处理量更小，从而可以提高进行语音识别的效率。

这样，可以通过网络精度较高的教师神经网络对所述目标分类网络进行知识蒸馏，从而实现对所述目标分类网络的优化，具体进行知识蒸馏时使用的损失值将在下文进行详细描述，在此不再展开说明。

C4：基于所述第一预测结果、所述第二预测结果以及所述目标标签，确定本次训练的目标损失值，并基于所述目标损失值对所述目标分类网络进行网络参数调节。

这样，通过教师神经网络对待训练的目标分类网络进行训练，可以实现对所述目标分类网络的知识蒸馏，使得所述目标分类能够同时兼顾网络精度和网络规模。

一种可能的实施方式中，在确定本次训练的目标损失值时，可以采用下述步骤C41～C42：

C41：基于所述第一预测结果和所述目标标签，确定第一损失值；以及，基于所述第一预测结果和所述第二预测结果，确定第二损失值。

这里，在确定所述第一损失值时，可以基于预设的第一损失函数、所述第一预测结果和所述目标标签，确定所述第一损失值，所述第一损失函数的类型例如可以是交叉熵损失函数；在确定所述第二损失值时，可以基于预设的第二损失函数、所述第一预测结果和所述第二预测结果，确定所述第二损失值，所述第二损失函数的类型例如可以是交叉熵损失函数。

C42：基于所述第一损失值和所述第二损失值，确定所述目标损失值。

这里，在确定所述目标损失值时，可以基于所述第一损失值、所述第二损失值、所述第一损失值和所述第二损失值分别对应的权重系数，确定所述目标损失值。

示例性的，确定所述目标损失值的公式可以为：

其中，L_CE表示交叉熵损失；ψ(Z_sc)表示所述分类头网络输出的第一预测结果；y表示所述目标标签；ψ(Z_sd)表示所述蒸馏头网络输出的第一预测结果；y_t＝argmax_cZ_t(c)，y_t表示第二预测结果对应的标签，Z_t(c)表示第二预测结果，argmax表示使用argmax函数对所述第二预测结果进行处理。

这样，在确定所述目标损失值时，对教师神经网络输出的第二预测结果处理，并将处理后的结果作为近似的真实标签，通过确定的近似的真实标签与蒸馏头网络的交叉熵损失，作为训练所述目标分类网络的第二损失值，从而对基于所述目标分类网络中分类头网络输出的第一预测结果和所述目标标签确定的第一损失值进行补充，有助于提高所述目标分类网络的网络精度。

下面，将结合具体的实施方式，对上述语音识别方法进行整体描述。参见图3所示，为本公开实施例提供的一种语音识别方法的整体流程图，该流程图中，主要包括以下步骤：

1、对待识别的目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征。

具体的，可以提取所述目标音频数据的梅尔频率倒谱系数特征，将所述目标音频数据对应的波形图(Waveform)转化为对应的梅尔谱图(Mel Spectrogram)。

2、对所述梅尔频率倒谱系数特征进行特征增强处理，得到增强处理后的梅尔频率倒谱系数特征。

具体的，在进行特征增强处理时，可以使用SpecAugment技术进行特征增强处理。

3、对增强处理后的梅尔频率倒谱系数特征进行卷积标识化处理操作(Convolutional Tokenization)，得到音频提取特征。

具体的，所述卷积标识化处理操作过程中可以基于卷积层和池化层分别进行Convolution Subsampling卷积处理和Max Pooling最大池化处理。

4、将所述音频提取特征输入至预先训练好的多层级的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征。

具体的，所述目标编码器可以是Transformer模型中的编码器TransformerEncoders，所述目标编码器的层级数量可以是L，L为大于1的正整数。

5、基于目标池化网络对所述音频编码特征进行序列池化处理(SequencePooling)，得到池化处理后的目标音频特征。

6、将所述目标音频特征输入至训练好的分类头网络(Classifier Head)中，得到所述分类头网络输出的针对各类别预设关键词的目标概率矩阵。

示例性的，所述预设关键词的类别(class)例如可以包括Stop、Follow、Marvin等，所述目标概率矩阵用于表示包含各预设关键词的概率。

实际应用中，由于语音唤醒任务中常会出现训练中训练数据稀缺等问题，因此在训练过程中可以加入蒸馏头网络(Distillation Head)，所述蒸馏头网络可以和所述分类头网络组成目标分类网络，以辅助所述分类头网络进行知识蒸馏，从而使得所述分类头网络在训练后能够同时兼顾网络精度和网络规模。

本公开实施例提供的语音识别方法，通过将待识别的目标音频数据对应的音频提取特征，输入至包含基于池化处理操作得到的目标查询矩阵的目标编码器中，得到所述目标音频数据对应的音频编码特征，从而可以基于所述音频编码特征确定所述目标音频数据对应的语音识别结果。这样，通过进行池化处理操作，可以使得生成的目标查询矩阵的参数量更少，使得后续基于目标查询矩阵得到的自注意力网络的输出的参数量更少，从而实现对自注意力网络的输出数据的压缩，提高进行语音唤醒的效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与语音识别方法对应的语音识别装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述语音识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种语音识别装置的架构示意图，所述装置包括：获取模块401、输入模块402、确定模块403；其中，

获取模块401，用于获取待识别的目标音频数据，并对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征；

输入模块402，用于将所述音频提取特征输入至预先训练好的目标编码器中，得到所述目标编码器输出的与所述目标音频数据对应的音频编码特征；其中，所述目标编码器包含自注意力网络，所述自注意力网络在确定目标查询矩阵时采用池化处理操作；所述目标查询矩阵为所述自注意力网络在基于自注意力机制进行特征提取时确定的多个特征表示矩阵中的一个；

确定模块403，用于基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果。

一种可能的实施方式中，所述获取模块401，在对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征时，用于：

一种可能的实施方式中，在确定所述目标音频数据对应的梅尔频率倒谱系数特征后，所述获取模块401还用于：

所述获取模块401，在对所述梅尔频率倒谱系数特征进行特征维度转换处理，得到所述音频提取特征时，用于：

一种可能的实施方式中，所述确定模块403，在基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果时，用于：

一种可能的实施方式中，所述输入模块402还用于根据以下步骤对所述目标分类网络进行训练：

获取样本数据和所述样本数据对应的目标标签；

一种可能的实施方式中，所述输入模块402，在基于所述第一预测结果、所述第二预测结果以及所述目标标签，确定本次训练的目标损失值时，用于：

本公开实施例提供的语音识别装置，通过将待识别的目标音频数据对应的音频提取特征，输入至包含基于池化处理操作得到的目标查询矩阵的目标编码器中，得到所述目标音频数据对应的音频编码特征，从而可以基于所述音频编码特征确定所述目标音频数据对应的语音识别结果。这样，通过进行池化处理操作，可以使得生成的目标查询矩阵的参数量更少，使得后续基于目标查询矩阵得到的自注意力网络的输出的参数量更少，从而实现对自注意力网络的输出数据的压缩，提高进行语音唤醒的效率。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图5所示，为本公开实施例提供的计算机设备500的结构示意图，包括处理器501、存储器502、和总线503。其中，存储器502用于存储执行指令，包括内存5021和外部存储器5022；这里的内存5021也称内存储器，用于暂时存放处理器501中的运算数据，以及与硬盘等外部存储器5022交换的数据，处理器501通过内存5021与外部存储器5022进行数据交换，当计算机设备500运行时，处理器501与存储器502之间通过总线503通信，使得处理器501在执行以下指令：

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的语音识别方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的语音识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征，包括：

3.根据权利要求2所述的方法，其特征在于，在确定所述目标音频数据对应的梅尔频率倒谱系数特征后，所述方法还包括：

4.根据权利要求1～3任一所述的方法，其特征在于，所述目标编码器中还包括目标前馈神经网络结构，所述目标前馈神经网络结构中包含卷积层和归一化层，用于对所述自注意力网络输出的特征进行处理。

5.根据权利要求1～4任一所述的方法，其特征在于，所述自注意力网络中包括相对位置编码模块；

6.根据权利要求1～5任一所述的方法，其特征在于，所述基于所述音频编码特征，确定所述目标音频数据对应的语音识别结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括根据以下步骤对所述目标分类网络进行训练：

获取样本数据和所述样本数据对应的目标标签；

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一预测结果、所述第二预测结果以及所述目标标签，确定本次训练的目标损失值，包括：

9.一种语音识别装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的语音识别方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的语音识别方法的步骤。