CN114283791A

CN114283791A - 一种基于高维声学特征的语音识别方法及模型训练方法

Info

Publication number: CN114283791A
Application number: CN202111443194.9A
Authority: CN
Inventors: 郑颖龙; 赖蔚蔚; 吴广财; 郑杰生; 周昉昉; 林嘉鑫; 陈颖璇; 叶杭; 梁运德; 黄宏恩
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-05

Abstract

本申请公开了一种基于高维声学特征的语音识别方法及模型训练方法，涉及语音识别技术领域。该方法包括：获取待识别音频；基于预先训练的声学特征提取模型，获取待识别音频对应的高维特征，作为待识别音频的高维声学特征；获取待识别音频对应的识别场景，作为目标识别场景；将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型，得到待识别音频对应的文本识别结果。如此，通过提取包含了更多有助于语音识别的特征信息，使得基于高维声学特征识别到的文本识别结果更准确，提高了语音识别的准确性；并且，调用与待识别音频的识别场景对应的语音识别模型，实现更具有针对性的语音识别，也提高了文本识别结果的准确性。

Description

一种基于高维声学特征的语音识别方法及模型训练方法

技术领域

本申请涉及语音识别技术领域，更具体地，涉及一种基于高维声学特征的语音识别方法及模型训练方法。

背景技术

语音识别是一种涵盖了声学与语言学、数学与统计学计算机与人工智能等学科的技术，是人机自然交互技术中的关键环节。通过语音识别技术，来识别说话人说出的语音中的文本内容信息。语音识别技术在多场景有所应用，如电话，手机，应用程序，门禁***，智能音响，机器人等。

在相关技术中，一般是通过模型训练的方式，预先训练出用于语音识别的语音识别模型。但是，针对例如垂直领域以及特征口音等特定识别领域，语音识别模型的识别准确率会下降，导致无法准确识别出在上述特定识别领域下的语音中的文本内容信息。

发明内容

有鉴于此，本申请提出了一种基于高维声学特征的语音识别方法及模型训练方法。

第一方面，本申请实施例提供了一种基于高维声学特征的语音识别方法，所述方法包括：获取待识别音频；基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征；获取所述待识别音频对应的识别场景，作为目标识别场景；将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果。

第二方面，本申请实施例提供了一种基于高维声学特征的语音识别模型的训练方法，所述方法包括：获取第一音频样本集，所述第一音频样本集中包含的第一音频样本均为同一识别场景下的；基于预先训练的声纹特征提取模型，获取所述第一音频样本集对应的高维特征，得到多个高维声学特征，所述多个高维声学特征中的每个高维声学特征与所述第一音频样本集中的每个第一音频样本一一对应；基于所述多个高维声学特征，对第一初始模型进行训练，直至所述第一初始模型满足第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

本申请提供的方案中，获取待识别音频；基于预先训练的声学特征提取模型，获取待识别音频对应的高维特征，作为待识别音频的高维声学特征；获取待识别音频对应的识别场景，作为目标识别场景；将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型，得到待识别音频对应的文本识别结果。如此，通过预先训练的声学特征提取模型提取出待识别音频中的高维声学特征，包含了更多有助于语音识别的特征信息，即对待识别音频有更好的表征，进而使得基于高维声学特征识别到的文本识别结果更准确，提高了语音识别的准确性；并且，调用与待识别音频的识别场景对应的语音识别模型，对该待识别音频进行语音识别，即选择更适配于待识别音频的语音识别模型进行语音识别，实现更具有针对性的语音识别，进而也进一步提高了文本识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的基于高维声学特征的语音识别方法的流程示意图。

图2示出了本申请另一实施例提供的基于高维声学特征的语音识别方法的流程示意图。

图3示出了本申请中声学特征提取模型的网络结构示意图。

图4示出了本申请中transformer模块的网络结构示意图。

图5示出了了本申请另一实施例提供的基于高维声学特征的语音识别模型的训练方法的流程示意图。

图6示出了图5中步骤S330在一种实施方式中的子步骤流程示意图。

图7是根据本申请一实施例提供的一种基于高维声学特征的语音识别装置的框图。

图8是根据本申请一实施例提供的一种基于高维声学特征的语音识别模型的训练装置的框图。

图9是本申请实施例的用于执行根据本申请实施例的基于高维声学特征的语音识别方法的计算机设备的框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的基于高维声学特征的语音识别方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在相关技术中，一般是模型训练的方式，预先训练出用于语音识别的语音识别模型。但是，一般是通过模型训练的方式，预先训练出用于语音识别的语音识别模型。但是，针对例如垂直领域以及特征口音等特定识别领域，语音识别模型的识别准确率会下降，导致无法准确识别出在上述特定识别领域下的语音中的文本内容信息。

并且，由于模型训练对海量训练数据样本的依赖，当需要对一个语音识别模型做小范围内数据优化时，如垂直领域、特殊口音等，模型需要重新训练，且训练模型的相关参数也不一定能复用，导致优化成本高。

针对上述问题，发明人提出一种基于高维声学特征的语音识别方法及模型训练方法，基于预先训练的声学特征提取模型，提取待识别音频的高维声学特征，再将高维声学特征输入至与待识别音频对应的目标识别场景对应的语音识别模型，得到待识别音频对应的文本识别结果。下面对该内容进行详细描述。

请参照图1，图1为本申请一实施例提供的一种基于高维声学特征的语音识别方法的流程示意图。下面将结合图1对本申请实施例提供的基于高维声学特征的语音识别方法进行详细阐述。该基于高维声学特征的语音识别方法可以包括以下步骤：

步骤S110：获取待识别音频。

在本实施例中，待识别音频可以是通过计算机设备自身配置的音频采集设备采集得到；也可以是接收的由外置音频采集设备所采集的音频；还可以是通过网络下载的音频，本实施例对此不作限制。

步骤S120：基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征。

在本实施例中，在获取到待识别音频后，可以提取待识别音频的音频特征，再将提取到的音频特征输入至上述预先训练的声学特征模型中，并将该声学特征模型输出的高维特征，作为待识别音频的高维声学特征。其中，音频特征是通过信号处理方式提取的二维的频谱特征，例如梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征或滤波器组(FilterBank，Fbank)特征等，可以理解地，将通过简单的信号处理得到的二维的频谱特征，输入至声学特征提取模型中，进而可以获取到更高维的声学特征，并且获取到的高维声学特征中所包含的特征信息也比二维的频谱特征所包含的特征信息多，对待识别音频有更好的表征，例如，高维声学特征可以是512维的特征向量。如此，基于声学特征提取模型，获取到高维声学特征所包含的特征信息更多更全面，进而可以提高后续基于该高维声学特征进行语音识别的准确性。

其中，声学特征提取模型可以是基于transformer模型进行改进训练得到，具体地，可以获取transformer模型中的解码器输出的特征向量作为上述高维声学特征；也可以将解码器输出的特征向量进行进一步地编码、对齐以及解码操作，得到上述高维声学特征，本实施例对此不作限制。

步骤S130：获取所述待识别音频对应的识别场景，作为目标识别场景。

进一步地，为了更有针对性地对待识别音频进行识别，可以获取待识别音频对应的识别场景，作为目标识别场景，进而获取与目标识别场景对应的预先训练的语音识别模型。

在一些实施方式中，可以根据待识别音频所携带的场景标识，确定与场景标识对应的识别场景，作为目标识别场景，其中，场景标识可以是采集待识别音频的相关人员添加上的。如此，在采集待识别音频时就添加上场景标识，可以提高在语音识别时，获取目标识别场景的速度，更为快速地获取到适用于待识别音频的语音识别模型，提高语音识别的效率及准确性。

在另一些实施方式中，例如若待识别音频是通过网络下载得到的，可能其自身并未携带有场景标识，基于此，可以获取待识别音频的环境声纹特征，再将环境声纹特征与预设声纹特征库进行匹配，并获取与环境声纹特征相匹配的预设声纹特征对应的识别场景，作为上述目标识别场景。如此，通过识别待识别音频的环境声纹特征的方式来确定目标识别场景，提高了场景识别的准确性，进而提高了获取到的与目标识别场景对应的语音识别模型的准确性，提高语音识别的准确性。

在又一些实施方式中，可以接收输入的场景选择指令，其中，场景选择指令中携带有场景标识，进而获取场景选择指令携带的场景标识对应的识别场景，作为目标识别场景。如此，在一些较为复杂的环境下的语音，可以由用户自行选择目标识别场景，进而可以获取到更适用于该待识别音频的语音识别模型，保证语音识别的准确性。

步骤S140：将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果。

由于通过前述声学特征提取模型所提取的高维声学特征中，包含了语音上下文关系，为了保证当前语音帧的特征不被其他语音帧影响，在对高维声学特征进行归一化时，需要对每帧高维声学特征的内部来进行。

在一些实施方式中，对多帧高维声学特征中的每帧高维声学特征进行归一化，其中，可以通过以下公式对高维声学特征进行归一化：

其中，A[i]当前音频帧中第i个特征值，A[i]’表示当前音频帧中第i个特征值归一化后的特征值，M表示当前音频帧的高维声学特征中的最大值，N表示当前音频帧的高维声学特征中的最小值，u代表高维声学特征中的特征值均值。

进一步地，将进行归一化后的多帧高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型中进行语音识别，得到待识别音频对应的文本识别结果。如此，在将高维声学特征输入至语音识别模型之前，先对每帧高维声学特征进行归一化，保证了每帧音频帧的高维声学特征不被其他音频帧所影响，进而提高了语音识别的准确性；并且，对高维声学特征进行归一化，也可以提高语音识别模型的识别速度，进而提高语音识别的效率。

其中，语音识别模型可以是DNN-HMM模型、LSTM-HMM模型或CNN-HMM模型等，本实施例对此不作限制。

在本实施例中，通过预先训练的声学特征提取模型提取出待识别音频中的高维声学特征，相较于现有技术中的MFCC、Fbank等其他音频特征而言，包含了更多有助于语音识别的特征信息，即对待识别音频有更好的表征，进而使得基于高维声学特征识别到的文本识别结果更准确，提高了语音识别的准确性；并且，调用与待识别音频的识别场景对应的语音识别模型，对该待识别音频进行语音识别，即选择更适配于待识别音频的语音识别模型进行语音识别，实现更具有针对性的语音识别，进而也进一步提高了文本识别结果的准确性。

请参照图2，图2为本申请另一实施例提供的一种基于高维声学特征的语音识别方法的流程示意图。下面将结合图2对本申请实施例提供的基于高维声学特征的语音识别方法进行详细阐述。该基于高维声学特征的语音识别方法可以包括以下步骤：

步骤S210：获取待识别音频。

在本实施例中，步骤S210的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S220：通过声学特征提取模型的特征提取模块获取所述待识别音频的高维特征，所述声学特征提取模型包括特征提取模块、编码模块、对齐模块以及解码模块。

在本实施例中，请参阅图3，图3示出了声学特征提取模型的网络结构图，具体地，声学特征提取模型中包括特征提取模块、编码模块、对齐模块以及解码模块。其中，特征提取模块是基于transformer模型改进得到，请参阅图4，将原有的transformer模型的输出模块移除，仅保留原有的transformer模型中的输入模块、编码模块以及解码模块。可以理解地，将待识别音频的音频特征输入至声学特征提取模型后，transformer模型中的解码模块输出的高维特征，即为上述由特征提取模块获取到的高维特征。

步骤S230：通过所述编码模块对所述高维特征进行编码，得到第一编码结果。

进一步地，由于transformer模型中的解码模块输出的特征为vector特征，即向量形式的特征，而输入至语音识别模型的特征需要是matrix特征，即矩阵形式的特征。若直接将vector特征输入至语音识别模型中进行识别，则可能导致语音识别的效果不好，降低准确率，因此可以通过编码解码的方式，将transformer模型中的解码模块输出的vector特征转换为matrix特征，以提高语音识别的准确率。

步骤S240：通过所述对齐模块对所述第一编码结果进行对齐处理，得到第二编码结果，所述第二编码结果中的高维特征的时间戳与所述待识别音频对应的音频特征的时间戳保持一致。

在本实施例中，将待识别音频中的音频特征输入至声学特征提取模型中提取高维特征时，transformer模型的编码器输出的高维特征可能会改变原有的音频特征中每一帧对应的时间戳，即声学特征提取模型中特征提取模块输出的高维特征的时间戳，与其对应的输入时的音频特征的时间戳可能不一致，进而则会导致在一些应用场景中，无法准确识别出待识别音频具体某个时刻对应的文本信息，进而影响语音识别效果。因此，可以对第一编码结果进行对齐处理，得到第二编码结果，以使第二编码结果中的每帧高维特征的时间戳与其对应的输入时的音频特征的时间戳保持一致，进而可以实现在语音识别的结果中，准确地定位到某个时刻对应的文本信息，提高了语音识别的精准性和针对性。

步骤S250：通过所述解码模块对所述第二编码结果进行解码，得到解码后的高维特征，作为所述高维声学特征。

进一步地，在获取到进行对齐处理后的第二编码结果后，可以通过解码模块对第二编码结果进行解码，得到解码后的高维特征(即matrix特征)，作为上述高维声学特征。

步骤S260：获取所述待识别音频对应的识别场景，作为目标识别场景。

步骤S270：将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果。

在本实施例中，步骤S260至步骤S270的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，可以将声学特征提取模型的特征提取模块提取到的高维特征进行编码解码的操作，以使声学特征提取模型输出的高维声学特征可以满足语音识别模型中输入特征的要求，以提高语音识别模型的识别准确率；并且，对高维特征进行了对齐处理，以使每帧高维特征的时间戳与其对应的输入时的音频特征的时间戳保持一致，进而可以实现在语音识别的结果中，准确地定位到某个时刻对应的文本信息，提高了语音识别的精准性和针对性。

请参照图5，图5为本申请再一实施例提供的一种基于高维声学特征的语音识别模型的训练方法的流程示意图。下面将结合图5对本申请实施例提供的基于高维声学特征的语音识别模型的训练方法进行详细阐述。该基于高维声学特征的语音识别模型的训练方法可以包括以下步骤：

步骤S310：获取第一音频样本集，所述第一音频样本集中包含的第一音频样本均为同一识别场景下的。

在本实施例中，可以针对不同识别场景，训练不同的语音识别模型，进而可以实现使用与待识别音频的识别场景所对应的语音识别模型，对待识别音频进行识别，提高语音识别的针对性以及准确性；可以理解地，若要训练某识别场景下的语音识别模型，则需要获取该识别场景下的大量的音频样本，作为训练样本。因此，可以根据需求分类训练用于不同识别场景下的语音识别模型。具体地，可以获取第一音频样本集，第一音频样本集中包含的第一音频样本均为同一识别场景下的，例如，垂直领域、特殊口音等，本实施例对此不作限制。

步骤S320：基于预先训练的声纹特征提取模型，获取所述第一音频样本集对应的高维特征，得到多个高维声学特征，所述多个高维声学特征中的每个高维声学特征与所述第一音频样本集中的每个第一音频样本一一对应。

在本实施例中，在获取到第一音频样本集后，将第一音频样本集中每个第一音频样本输入至预先训练的声纹特征提取模型中，进而可以得到多个高维声学特征。

其中，训练上述声纹特征提取模型可以包括：获取第二音频样本集；基于所述第二音频样本集，对第二初始模型进行训练，直至所述第二初始模型满足第二预设条件，得到所述声纹特征提取模型。其中，第二音频样本可以尽可能包括多种识别场景下的音频样本，以使得基于第二音频样本训练得到的声纹特征提取模型更具普适性以及鲁棒性，即针对任何识别场景下的待识别语音都可以较为准确地提取出其高维声学特征。

在一些实施方式中，第二初始模型可以是transformer模型，基于第二音频样本集作为transformer模型的输入数据，获取由transformer模型输出的针对第二音频样本集的第二文本识别结果；并获取每个第二文本识别结果与其对应的第二音频样本对应标注的第二本文信息的差异，以确定第二识别损失值；并根据该第二识别损失值对transformer模型的参数进行调整，并再基于调整参数后的transformer模型对第二音频样本集进行语音识别，即基于第二识别损失值对transformer模型进行迭代训练，直至所述第二识别损失值满足第二预设条件，得到目标语音识别模型；并移除掉图4中的目标语音识别模型中的线性层以及softmax分类器，并将移除掉前述模块的目标语音识别模型的输出与前述编码模块、对齐模块以及解码模块相结合，得到上述声纹特征提取模型。可以理解地，利用transformer模型的高识别率，提取出待识别音频的高维声学特征，以提高后续基于高维声学特征进行语音识别的准确性。

其中，第二预设条件可以为：第二识别损失值小于预设值、第二识别损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据第二音频样本集对第二初始模型进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对第二初始模型中的参数进行优化，使得上述第二识别损失值越来越小，最后变小为一个固定值，或者小于以上预设值，此时，则表示第二初始模型已收敛；当然也可以是在训练次数达到预设次数后，确定第二初始模型已经收敛，此时，则可以将第二初始模型的输出模块进行改进，以得到上述声纹特征提取模型。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整，本实施例对此不作限制。

步骤S330：基于所述多个高维声学特征，对第一初始模型进行训练，直至所述第一初始模型满足第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

在一些实施方式中，请参阅图6，步骤S330可以包括以下步骤：

步骤S331：将所述多个高维声学特征输入至所述第一初始模型，获取与所述多个高维声学特征中每个高维声学特征对应的文本识别结果，得到多个文本识别结果。

步骤S332：基于所述多个文本识别结果以及第一音频样本集对应标注的文本信息集，确定所述第一初始模型的第一识别损失值。

步骤S333：根据所述第一识别损失值对所述第一初始模型进行迭代训练，直至所述识别损失值满足所述第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

在本实施例中，在获取到高维声学特征后，可以对高维声学特征进行归一化，可以防止因网络输出的特征的范围相差大，导致模型收敛时间变长等问题的发生，减少模型训练的时间，对高维声学特征进行归一化的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。进一步地，可以将归一化后的多个高维声学特征输入至第一初始模型中，并获取第一初始模型的输出作为上述文本识别结果；再获取每个文本识别结果与第一音频样本集中每个第一音频样本对应标注的文本信息之间的差异，确定第一初始模型的识别损失值；并根据该识别损失值对第一初始模型的参数进行调整，并再基于调整参数后的第一初始模型对第一音频样本集进行语音识别，即基于识别损失值对第一初始模型进行迭代训练，直至识别损失值满足第一预设条件，得到与第一音频样本集对应的识别场景下的语音识别模型。

其中，第一预设条件可以为：第一识别损失值小于预设值、第一识别损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据第一音频样本集对第一初始模型进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对第一初始模型中的参数进行优化，使得上述第一识别损失值越来越小，最后变小为一个固定值，或者小于以上预设值，此时，则表示第一初始模型已收敛；当然也可以是在训练次数达到预设次数后，确定第一初始模型已经收敛，此时，则可以将第一初始模型作为上述语音识别模型。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整，本实施例对此不作限制。

在本实施例中，当需要对特定识别场景的数据进行识别率优化时，如特定口音、特定领域语音识别，不需要重新训练声纹特征提取模型，只需要通过声纹特征提取模型来提取第一训练样本集中的高维声学特征，并基于提取到的高维声学特征，训练用于上述特定识别场景的语音识别模型，降低了模型训练的时间，大幅度降低了模型优化所需成本。并且，本方案可以理解为结合transformer模型和DNN-HMM模型，训练得到的语音识别模型，基于transformer模型的高识别率，提取高维声学特征，同时结合高维声学特征对DNN-HMM模型进行训练，得到最终的声音识别模型，如此，在保留了transformer模型的高识别率的同时，也保证了输出的灵活性，即提高了语音识别的准确率的同时也提高了语音识别的灵活性。

请参照图7，其中示出了本申请一实施例提供的一种基于高维声学特征的语音识别装置400的结构框图。该装置400可以包括：音频获取模块410、高维特征提取模块420、场景确定模块430和音频识别模块440。

音频获取模块410用于获取待识别音频。

高维特征提取模块420用于基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征。

场景确定模块430用于获取所述待识别音频对应的识别场景，作为目标识别场景。

音频识别模块440用于将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果。

在一些实施方式中，所述声学特征提取模型包括特征提取模块、编码模块、对齐模块以及解码模块，高维特征提取模块420可以包括：特征提取单元、编码单元、对齐单元以及解码单元。其中，特征提取单元可以用于通过所述特征提取模块获取所述待识别音频的高维特征。编码单元可以用于通过所述编码模块对所述高维特征进行编码，得到第一编码结果。对齐单元可以用于通过所述对齐模块对所述第一编码结果进行对齐处理，得到第二编码结果，所述第二编码结果中的高维特征的时间戳与所述待识别音频对应的音频特征的时间戳保持一致。解码单元可以用于通过所述解码模块对所述第二编码结果进行解码，得到解码后的高维特征，作为所述高维声学特征。

在一些实施方式中，所述高维声学特征的帧数为多帧，语音频识别模块440包括：归一化单元以及识别单元。其中，归一化单元可以用于对多帧高维声学特征中的每帧高维声学特征进行归一化。识别单元可以用于将进行归一化后的多帧高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型中进行语音识别，得到所述待识别音频对应的文本识别结果。

在该方式下，归一化单元具体可以用于：

其中，A[i]为所述每帧高维声学特征中的第i个特征值，A[i]’为所述每帧高维声学特征中第i个特征值归一化后的特征值，M为所述每帧高维声学特征中的最大值，N为所述每帧高维声学特征中的最小值，u为所述每帧高维声学特征中的特征值均值。

在一些实施方式中，场景确定模块430可以包括：环境特征获取单元、判断单元以及场景确定单元。其中，环境特征获取单元可以用于获取所述待识别音频的环境声纹特征。判断单元可以用于判断预设声纹特征库中是否存在与所述环境声纹特征匹配的预设声纹特征。场景确定单元可以用于若预设声纹特征库中存在与所述环境声纹特征匹配的预设声纹特征，则获取与所述环境声纹特征相匹配的预设声纹特征对应的识别场景，作为所述目标识别场景。

请参照图8，其中示出了本申请一实施例提供的一种基于高维声学特征的语音识别模型的训练装置500的结构框图。该装置500可以包括：训练样本获取模块510、高维特征提取模块520和模型训练模块530。

训练样本获取模块510用于获取第一音频样本集，所述第一音频样本集中包含的第一音频样本均为同一识别场景下的。

高维特征提取模块520用于基于预先训练的声纹特征提取模型，获取所述第一音频样本集对应的高维特征，得到多个高维声学特征，所述多个高维声学特征中的每个高维声学特征与所述第一音频样本集中的每个第一音频样本一一对应。

模型训练模块530用于基于所述多个高维声学特征，对第一初始模型进行训练，直至所述第一初始模型满足第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

在一些实施方式中，基于高维声学特征的语音识别模型的训练装置500还可以包括：特征提取模型训练模块。其中，特征提取模型训练模块可以用于获取第二音频样本集；基于所述第二音频样本集，对第二初始模型进行训练，直至所述第二初始模型满足第二预设条件，得到所述声纹特征提取模型。

在该方式下，所述第二初始模型为transformer模型，特征提取模型训练模块可以具体用于：基于所述第二音频样本集，对所述transformer模型进行训练，直至所述transformer模型满足所述第二预设条件，移除所述transformer模型中的线性层以及分类器，得到特征提取模块；基于所述特征提取模块、编码模块、对齐模块以及解码模块，生成所述声纹特征提取模型。

在一些实施方式中，模型训练模块530可以包括：特征输入单元、损失值确定单元以及迭代训练单元。其中，特征输入单元可以用于将所述多个高维声学特征输入至所述第一初始模型，获取与所述多个高维声学特征中每个高维声学特征对应的文本识别结果，得到多个文本识别结果。损失值确定单元可以用于基于所述多个文本识别结果以及第一音频样本集对应标注的文本信息集，确定所述第一初始模型的识别损失值。迭代训练单元可以用于根据所述识别损失值对所述第一初始模型进行迭代训练，直至所述识别损失值满足所述第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

在该方式中，所述第一预设条件包括所述第一识别损失值小于预设值、所述第一识别损失值不再变化或迭代训练的次数达到预设次数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的方案中，获取待识别音频；基于预先训练的声学特征提取模型，获取待识别音频对应的高维特征，作为待识别音频的高维声学特征；获取待识别音频对应的识别场景，作为目标识别场景；将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型，得到待识别音频对应的文本识别结果。如此，通过预先训练的声学特征提取模型提取出待识别音频中的高维声学特征，相较于现有技术中的MFCC、Fbank等其他音频特征而言，包含了更多有助于语音识别的特征信息，即对待识别音频有更好的表征，进而使得基于高维声学特征识别到的文本识别结果更准确，提高了语音识别的准确性；并且，调用与待识别音频的识别场景对应的语音识别模型，对该待识别音频进行语音识别，即选择更适配于待识别音频的语音识别模型进行语音识别，实现更具有针对性的语音识别，进而也进一步提高了文本识别结果的准确性。

下面将结合图9对本申请提供的一种计算机设备进行说明。

参照图9，图9示出了本申请实施例提供的一种计算机设备600的结构框图，本申请实施例提供的上述方法可以由该计算机设备600执行。其中，计算机设备600可以是智能手机、平板电脑、智能手表、笔记本电脑、台式电脑、服务器、录音笔等能够运行应用程序的设备。

本申请实施例中的计算机设备600可以包括一个或多个如下部件：处理器601、存储器602、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器602中并被配置为由一个或多个处理器601执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器601可以包括一个或者多个处理核。处理器601利用各种接口和线路连接整个计算机设备600内的各个部分，通过运行或执行存储在存储器602内的指令、程序、代码集或指令集，以及调用存储在存储器602内的数据，执行计算机设备600的各种功能和处理数据。可选地，处理器601可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器601中，单独通过一块通信芯片进行实现。

存储器602可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器602可用于存储指令、程序、代码、代码集或指令集。存储器602可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备600在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于高维声学特征的语音识别方法，其特征在于，所述方法包括：

获取待识别音频；

基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征；

获取所述待识别音频对应的识别场景，作为目标识别场景；

将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述声学特征提取模型包括特征提取模块、编码模块、对齐模块以及解码模块，所述基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征，包括：

通过所述特征提取模块获取所述待识别音频的高维特征；

通过所述编码模块对所述高维特征进行编码，得到第一编码结果；

通过所述对齐模块对所述第一编码结果进行对齐处理，得到第二编码结果，所述第二编码结果中的高维特征的时间戳与所述待识别音频对应的音频特征的时间戳保持一致；

通过所述解码模块对所述第二编码结果进行解码，得到解码后的高维特征，作为所述高维声学特征。

3.根据权利要求1或2所述的方法，其特征在于，所述高维声学特征的帧数为多帧，所述将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果，包括：

对多帧高维声学特征中的每帧高维声学特征进行归一化；

将进行归一化后的多帧高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型中进行语音识别，得到所述待识别音频对应的文本识别结果。

4.根据权利要求3所述的方法，其特征在于，所述对多帧高维声学特征中的每帧高维声学特征进行归一化，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述待识别音频对应的识别场景，作为目标识别场景，包括：

获取所述待识别音频的环境声纹特征；

判断预设声纹特征库中是否存在与所述环境声纹特征匹配的预设声纹特征；

若存在，则获取与所述环境声纹特征相匹配的预设声纹特征对应的识别场景，作为所述目标识别场景。

6.一种基于高维声学特征的语音识别模型的训练方法，其特征在于，所述方法包括：

获取第一音频样本集，所述第一音频样本集中包含的第一音频样本均为同一识别场景下的；

基于预先训练的声纹特征提取模型，获取所述第一音频样本集对应的高维特征，得到多个高维声学特征，所述多个高维声学特征中的每个高维声学特征与所述第一音频样本集中的每个第一音频样本一一对应；

基于所述多个高维声学特征，对第一初始模型进行训练，直至所述第一初始模型满足第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

7.根据权利要求6所述的方法，其特征在于，所述声纹特征提取模型的训练过程包括：

获取第二音频样本集；

基于所述第二音频样本集，对第二初始模型进行训练，直至所述第二初始模型满足第二预设条件，得到所述声纹特征提取模型。

8.根据权利要求7所述的方法，其特征在于，所述第二初始模型为transformer模型，所述基于所述第二音频样本集，对第二初始模型进行训练，直至所述第二初始模型满足第二预设条件，得到所述声纹特征提取模型，包括：

基于所述第二音频样本集，对所述transformer模型进行训练，直至所述transformer模型满足所述第二预设条件，并移除所述transformer模型中的线性层以及分类器，得到特征提取模块；

基于所述特征提取模块、编码模块、对齐模块以及解码模块，生成所述声纹特征提取模型。

9.根据权利要求6所述的方法，其特征在于，所述基于所述高维声学特征，对第一初始模型进行训练，直至所述第一初始模型满足第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型，包括：

将所述多个高维声学特征输入至所述第一初始模型，获取与所述多个高维声学特征中每个高维声学特征对应的文本识别结果，得到多个文本识别结果；

基于所述多个文本识别结果以及第一音频样本集对应标注的文本信息集，确定所述第一初始模型的第一识别损失值；

根据所述第一识别损失值对所述第一初始模型进行迭代训练，直至所述第一识别损失值满足所述第一预设条件，得到与所述第一音频样本集对应的识别场景下的语音识别模型。

10.根据权利要求9所述的方法，其特征在于，所述第一预设条件包括所述第一识别损失值小于预设值、所述第一识别损失值不再变化或迭代训练的次数达到预设次数。