CN118116386A

CN118116386A - 语音识别方法、装置及电子设备

Info

Publication number: CN118116386A
Application number: CN202311635786.XA
Authority: CN
Inventors: 陈谐; 刘浚哲; 王一桐
Original assignee: Shanghai Jiaotong University; Lenovo Beijing Ltd
Current assignee: Shanghai Jiaotong University; Lenovo Beijing Ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-05-31

Abstract

本申请提出了一种语音识别方法、装置及电子设备，获得待识别音频数据及其参考文本数据后，基于编码器获得待识别音频数据的音频特征，基于解码器获得参考文本数据的参考文本特征，并基于语言模型获得参考文本数据的预测词汇特征，由于该预测词汇特征与音频特征和参考文本特征的特征维度相同，能够基于音频特征和参考文本特征，获得针对待识别音频数据的空白字符特征，并基于音频特征和预测词汇特征，获得针对待识别音频数据的实词特征，从而基于空白字符特征和实词特征，精准获得与待识别音频数据对应的转录文本数据。

Description

语音识别方法、装置及电子设备

技术领域

本申请主要涉及人工智能应用领域，更具体地说是涉及一种语音识别方法、装置及电子设备。

背景技术

近年来，随着端到端模型在自动语音识别(Automatic Speech Recognition，ASR)***中的应用发展，提出了神经网络转录器(即神经传感器，Neural Transducer，NT)这一种端到端的语音识别模型，实现音频数据实时识别，得到相应转录文本数据，以满足语音识别需求。

然而，NT这种语音识别模型的应用领域具有较大局限性，在与其训练语料不同领域的应用场景(即目标领域)中的识别性能下降，降低了语音识别效率和可靠性。

发明内容

为了接近上述技术问题，本申请提供了以下技术方案：

一方面，本申请提出了一种语音识别方法，所述方法包括：

获得待识别音频数据，以及针对所述待识别音频数据的参考文本数据；

基于编码器获得所述待识别音频数据的音频特征，基于解码器获得所述参考文本数据的参考文本特征，并基于语言模型获得所述参考文本数据的预测词汇特征；其中，所述语言模型用于预测预设词汇表中不同词汇属于所述参考文本数据的下一文本数据的概率，所述预测词汇特征与所述音频特征和所述参考文本特征的特征维度相同；

基于所述音频特征和所述参考文本特征，获得针对所述待识别音频数据的空白字符特征，并基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征；

基于所述空白字符特征和所述实词特征，获得与所述待识别音频数据对应的转录文本数据。

可选的，所述基于语言模型获得所述参考文本数据的预测词汇特征，包括：

将所述参考文本数据输入语言模型，得到词汇概率分布；

基于所述词汇概率分布，获得预测词汇特征。

可选的，所述基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征，包括：

基于音频特征和所述预测词汇特征，获得音频词汇特征；

基于所述音频词汇特征和所述词汇概率分布，获得针对所述待识别音频数据的实词特征。

可选的，所述基于所述音频特征和所述参考文本特征，获得针对所述待识别音频数据的空白字符特征，并基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征，包括：

基于预设特征融合方式，将所述音频特征与所述参考文本特征进行特征融合，得到第一融合特征，并将所述音频特征与所述预测词汇特征进行特征融合，得到第二融合特征；

基于所述预设特征融合方式，将所述第二融合特征与所述词汇概率分布进行特征融合，获得针对所述待识别音频数据的实词特征；并基于所述第一融合特征，获得针对所述待识别音频数据的空白字符特征。

可选的，所述获得待识别音频数据，以及针对所述待识别音频数据的参考文本数据，包括：

获得当前帧待识别音频数据，以及与上一帧待识别音频数据对应的上一帧转录文本数据；

将所述上一帧转录文本数据确定为针对当前帧待识别音频数据的参考文本数据。

可选的，如果获得的待识别音频数据是待识别音频信号的第一帧待识别音频数据，针对所述第一帧待识别音频数据的参考文本数据为空白数据，所述第一帧待识别音频数据对应的转录文本数据的获取过程包括：

基于所述编码器，获得所述第一帧待识别音频数据的音频特征；

基于所述音频特征，获得与所述第一帧待识别音频数据对应的转录文本数据。

可选的，所述语音识别方法还包括：

获得目标域的调试文本数据；

将所述调试文本数据输入所述语言模型，得到针对所述调试文本数据的下一调试文本数据的预测概率分布；

基于所述预测概率分布，获得针对所述下一调试文本数据的预测损失；

通过最小化所述预测损失，调试所述语言模型，以通过调试后的所述语言模型以及所述编码器和所述解码器，获得来自所述目标域的待识别音频数据对应的转录文本数据。

可选的，所述基于所述词汇概率分布，获得预测词汇特征，包括：

基于所述音频特征和所述参考文本特征具有的特征维度，对所述词汇概率分布进行特征转换处理，得到具有所述特征维度的预测词汇特征。

另一方面，本申请还提出了一种语音识别装置，所述装置包括：

数据获得模块，用于获得待识别音频数据，以及针对所述待识别音频数据的参考文本数据；

数据处理模块，用于基于编码器获得所述待识别音频数据的音频特征，基于解码器获得所述参考文本数据的参考文本特征，并基于语言模型获得所述参考文本数据的预测词汇特征；其中，所述语言模型用于预测预设词汇表中不同词汇属于所述参考文本数据的下一文本数据的概率，所述预测词汇特征与所述音频特征和所述参考文本特征的特征维度相同；

空白字符特征获得模块，用于基于所述音频特征和所述参考文本特征，获得针对所述待识别音频数据的空白字符特征；

实词特征获得模块，用于基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征；

转录文本数据获得模块，用于基于所述空白字符特征和所述实词特征，获得与所述待识别音频数据对应的转录文本数据。

又一方面，本申请还提出了一种电子设备，所述电子设备包括：

数据连接端口，用于接收待识别音频信号，所述待识别音频信号包含至少一帧待识别音频数据；

处理器，用于执行多个计算机指令，实现以下步骤：

获得所述待识别音频数据，以及针对所述待识别音频数据的参考文本数据；

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为适用于语音识别方法的一种语音识别模型的网络结构示意图；

图2为适用于语音识别方法的另一种语音识别模型的网络结构示意图；

图3为本申请提出的语音识别方法的可选实施例一的流程示意图；

图4为本申请提出的语音识别方法的一可选实施例的流程示意图；

图5为本申请提出的语音识别方法的可选实施例二的流程示意图；

图6为适用于本申请提出的语音识别方法的语音识别模型的结构示意图；

图7为本申请提出的语音识别方法的可选实施例三的流程示意图；

图8为本申请提出的语音识别方法的可选实施例四的流程示意图；

图9为本申请提出的语音识别装置的一可选实施例的结构示意图；

图10为适用于本申请提出的语音识别方法的电子设备的一可选实施例的硬件结构示意图。

具体实施方式

针对背景技术部分描述的内容，经过分析可知，如图1所示的神经网络转录器(即神经传感器，Neural Transducer，NT)的网络结构，这种语音识别模型是通过联合音频数据的声学特征和文本信息，来综合预测音频数据的空白字符特征和实词特征，其是使用单一的神经网络(如图1的编码器网络和解码器网络)预测词序列，导致在训练领域和测试领域或目标领域之间存在不匹配的应用场景下，该语音识别模型的识别性能就会明显下降，导致无法满足语音识别需求。

为了改善上述问题，提出在端到端的语音识别模型的基础上融合一个语言模型，通过目标领域的文本信息对语言模型进行训练，来提升多种应用领域下语音识别模型的识别性能，如解耦化神经网络转录器(即因子分解神经传感器，Factorized neuralTransducer，FNT)、浅层融合(Shallow Fusion)、深层融合(Deep Fusion)、冷融融合(ColdFusion)等方式。

其中，浅层融合方式通常只在解码阶段，将原来语音识别模型对待识别音频数据的文本预测分数和外部融合的语言模型的词汇预测分数进行加权融合，得到最终的识别结果。深层融合方式是在原来的语音识别模型架构的中间层部分融合音频数据的声学特征和文本特征，来预测该音频数据对应的文本数据，这两种融合方式都需要独立训练原模型和语言模型，过程繁琐。而冷融合方式是在模型训练阶段使用预训练的语言模型训练端到端的语音识别模型的其他部分，同时保持该语言模型固定不变。可见，这三种融合外部语言模型的处理方式都依赖于各部分的权重，选择不合适直接影响语音识别性能，从而影响了模型训练效率和可靠性，无法保证基于该模型对待识别音频数据的语音识别可靠。

另外，对于FNT这种语音识别模型，参照图2所示的网络结构，其在神经网络转录器的基础上额外引入一个语言模型来单独预测实词部分，结合神经网络转录器预测的空白字符特征，获得音频数据的转录文本数据即语音识别结果。由于解耦化神经网络转录器可以通过目标领域的文本信息对语言模型进行优化，来提升在目标领域下的这种语音识别模型的识别性能。但FNT这类语音识别模型使用的语言模型融合方法中，其识别性能对融合时的权重影响也比较敏感，具有一定局限性，且在一些测试应用中的基线性能相对于FN会下降，降低了FNT这类语音识别模型的识别性能的可靠性。

为了进一步改善上述问题，本申请提出对FNT对音频特征和文本特征的融合方式进行改进，保证其能够适用于目标领域的语音识别需求的基础上，可靠提升识别性能，在基于编码器获得音频特征，基于解码器获得文本特征的过程中，本申请可以基于语言模型，获得与该音频特征和文本特征的特征维度相同的预测词汇特征，之后再将该音频特征分别与文本特征和预测词汇特征进行联合预测对应的空白字符和实词，准确得到该音频数据对应的转录文本数据，在提升基线性能的情况下同时也保留了灵活的文本自适应能力。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其中，本申请使用流程图用来说明根据本申请实施例的电子设备所执行的操作，应当理解的是，下文方法实施例描述的前面或后面操作步骤不一定按照顺序来精确地执行，根据实际情况需求，也可以按照倒序或同时处理各个步骤，或者互换特定的顺序或先后次序，以使下文描述的本申请实施例能够以除了附图所示或文字描述以外的顺序实施。另外，依据处理需求，也可以将其他操作步骤添加到这些实施例描述的实现过程中，或从这些实现过程移除某一步或数步操作步骤，都属于本申请保护范围，本申请并未一一举例详述。

参照图3，为本申请提出的语音识别方法的可选实施例一的流程示意图，该方法可以适用于电子设备，该电子设备可以是服务器，如独立的物理服务器、多台物理服务器构成的服务器集群，或者是能够实现云计算的云服务器等。在一些实施例中，该电子设备也可以是具有一定数据处理能力且支持语音识别功能的终端设备，如台式计算机、笔记本电脑、机器人、智能家居设备(如智能音箱等)或车载终端等，本申请对电子设备的产品类型不做限制。如图3所示，本实施例提出的语音识别方法可以包括：

步骤S31，获得待识别音频数据，以及针对待识别音频数据的参考文本数据；

其中，待识别音频数据可以是待识别音频信号中的任意一帧音频数据，该待识别音频信号可以是电子设备在线实时采集得到，或者是音频采集设备实时采集后发送至电子设备进行语音识别，还可以是来源其他音频数据源的一定时长的音频信号等，本申请对待识别音频信号及其包含的音频的获取方式不做限制，可以依据语音识别应用场景确定。

本实施例实际应用中，在语音识别开始时间，对于第一帧待识别音频数据，可以直接执行后续处理，获得对应的转录文本数据，之后，可以该转录文本数据确定为下一帧待识别音频数据的参考文本数据，以在语音识别过程中，可以结合上下文信息进行预测，提高了语音识别效率和准确性。但并不局限于本申请描述的参考文本数据获取方法。

步骤S32，基于编码器获得待识别音频数据的音频特征，基于解码器获得参考文本数据的参考文本特征，并基于语言模型获得参考文本数据的预测词汇特征；该预测词汇特征与音频特征和参考文本特征的特征维度相同；

本申请用于实现语音识别的语音识别***可以包括编码器、解码器和语言模型，如图4所示，该编码器和解码器可以是神经网络结构，如FN包含的编码网络和解码网络，本申请对这两部分的网络结构不做限制。其中，该编码器用于对音频数据进行处理，以得到其声学特征表示，解码器用于对参考文本数据进行处理，得到其文本特征表示，因此，本申请中的音频特征可以是音频数据的声学特征向量，参考文本特征可以是参考文本数据的文本特征向量，本申请对这两个特征向量的获取过程不做详述。

本申请实施例中，语言模型(Language Model，LM)用于预测预设词汇表中不同词汇属于参考文本数据的下一文本数据的概率，本申请对语言模型的网络结构不做限制，可以直接调用已训练好的语言模型，用以本申请的语音识别。其中，在语言模型的运算过程中，通常会给定词典(也可以称为包含大量已知词汇的词汇表)V，基于此计算出任意单词序列是一句话的概率。

基于此，本申请实施例可以使用已训练好的语言模型输出的后验概率，即依赖于上一次预测的文本数据，获取针对本次输入文本数据的词汇概率分布，本申请对语言模型如何依赖上下文信息处理输入的参考文本数据，得到相应的词汇概率分布的实现方法详述，可以依据该语言模型的网络结构确定。之后，本申请可以对该词汇概率分布进行处理，得到具有与音频特征和参考文本特征具有相同特征维度的预测词汇特征，如经过特征空间的映射和张量变换(即特征维度变换处理)等处理，本申请对该处理方式及其实现过程不做详述。

参照图1和图2所示的编码器和解码器的数据处理过程，本申请基于编码器获得的音频特征可以表示为基于解码器获得的参考文本特征可以表示为D可以表示编码器和解码器对输入数据进行处理过程中，网络中间层对输入数据提取的高维度特征，即D-维空间下的特征，该D维度下的特征有助于提高语音识别***的基线性能，因此，本申请在基于语言模型对参考文本数据进行处理过程中，可以将所得到的词汇概率分布转换到该D-维度空间下的词汇预测特征，其可以表示为/>转换处理过程本申请不做详述。

步骤S33，基于音频特征和参考文本特征，获得针对待识别音频数据的空白字符特征，并基于音频特征和预测词汇特征，获得针对待识别音频数据的实词特征；

步骤S34，基于空白字符特征和实词特征，获得与待识别音频数据对应的转录文本数据。

继上述分析，本申请可以对音频特征和参考文本特征进行特征融合，基于得到的融合特征来预测待识别音频数据的空白字符blank，与此同时，还可以将该音频特征与预测词汇特征进行特征融合，利用预测词汇信息对编码器得到的音频特征进行补充增强处理，以丰富如上述D-维空间下的音频特征，从而提高据此预测得到的待识别音频数据的实词的准确性，进而基于预测到的空白字符特征和实词特征，精准获得的待识别音频数据对应的转录文本数据，提高了语音识别准确性和可靠性。

参照图5，为本申请提出的语音识别方法的可选实施例二的流程示意图，本实施例可以对上文提出的语音识别方法的一可选细化实现方式进行描述，如图5所示，该语音识别方法可以包括：

步骤S51，获得待识别音频数据，以及针对待识别音频数据的参考文本数据；

关于步骤S51的实现过程，可以参照上文方法实施例对应部分的描述，本申请实施例在此不做详述。

步骤S52，基于编码器，获得待识别音频数据音频特征；

步骤S53，基于解码器，获得参考文本数据的参考文本特征；

步骤S54，将参考文本数据输入语言模型，得到词汇概率分布；

参照图6所示的适用于本申请提出的语音识别方法的语音识别模型的网络结构示意图，编码器可以是声学编码器，待识别音频数据可以是声学特征t可以表示该待识别音频数据在整个待识别音频信号中的个数，将其输入该编码器encoder后，可以直接得到其声学特征表示f_t(B,T,D)，即一种特征向量，之后，可以通过unsqueeze函数对其进行张量变换处理，即特征维度处理，使其从原来的三个特征维度的特征表示变换为四个维度的音频特征，记为/> 本申请对张量变化处理的实现方式不做详述。

在上述编码器encoder处理过程中，还可以将获取的对应参考文本数据输入解码器decoder，得到参考文本特征表示/>u可以表示参考文本数据在整个文本数据中的个数。同理，之后也可以通过unsqueeze函数实现张量变换处理，得到四个特征维度的参考文本特征，即高维度的特征表示，记为/>本申请对编码器和解码器的运算原理不做详述。

另外，对于获取的参考文本数据，还可以输入语言模型LM，得到预测下一个词汇的概率分布，记为词汇概率分布其特征表示可以记为log_prodes(B,L,V)，该语言模型是在预设的词汇表V，其是在词汇空间V中获得后验概率P，实现过程可以结合语言模型的网络结构确定，本实施例不做详述。

需要说明的是，对于步骤S52、步骤S53和步骤S54的处理步骤可以同时执行，或按照其他顺序执行等，本实施例描述的步骤序号并不限制其执行顺序。

步骤S55，基于该词汇概率分布，获得预测词汇特征；

继上述分析，本申请可以使用语言模型输出的词汇概率分布所表征的词汇信息，对基于编码器获得的音频特征进行补充增强处理，以提高语音识别模型的基线性能。因此，本申请可以基于语音模型直接得到的词汇概率分布，采用如图6所示的激活网络(如基于sigmoid等激活函数构建)，将非线性特性引入网络中，以将输入信息转换为输出信息，本申请对激活函数的类型及其运算过程不做详述。

由于本申请需要获得与上述音频特征和参考文本特征具有相同特征温度的预测词汇特征，可以基于音频特征和参考文本特征具有的特征维度，对词汇概率分布进行特征转换处理，得到具有特征维度的预测词汇特征。如图6所示，语言模型直接输出的词汇概率分布可以经过激活网络和映射网络的处理，将其在词汇维度空间V下的特征表示，转换为D维空间下的，可以采用相应的映射函数Projection，实现过程本申请不做详述。

步骤S56，基于音频特征和参考文本特征，获得针对待识别音频数据的空白字符特征；

步骤S57，基于音频特征和预测词汇特征，获得音频词汇特征；

步骤S58，基于音频词汇特征和词汇概率分布，获得针对待识别音频数据的实词特征；

步骤S59，基于空白字符特征和实词特征，获得与待识别音频数据对应的转录文本数据。

参照图6所示的语音识别模型的网络结构，其中的解码器和语言模型可以作为两个解码网络，解码器用于预测音频信号中的空白字符，语言模型用于预测音频信号中的实词，在空白字符预测过程中，本申请通过联合音频特征和参考文本特征，确定待识别音频数据的空白字符特征，由此预测待识别音频数据的空白字符。

在实词预测过程中，对于编码器对输入的待识别音频数据提取的高维度特征即音频特征，为了能够在语音识别模型的网络中间层部分与其进行特征融合，本申请将语言模型输出的词汇概率分布所表示的特征转换到音频特征的特征维度，如D维特征空间的维度上，再将得到的预测词汇特征能够与音频特征进行特征融合，即将语言模型输出的概率分布投影到与音频特征同一维度上后再进行特征融合，之后，在网络输出层融合语言模型输出的词汇概率分布所示的特征，可以按照logit模型方式实现特征融合，精准实现对待识别音频数据的实词预测。

这样，基于上述方式分别得到的空白字符特征和实词特征，可以精准推理得到参考文本数据下一个文本数据，即针对待识别音频数据对应的文本数据的概率分布，由此确定出待识别音频数据对应的转录文本数据，提升整个语音识别模型的基线性能，并实现了不同领域的文本自适应。

参照图7，为本申请提出的语音识别方法的可选实施例三的流程示意图，本实施例可以对上文提出的语音识别方法的另一可选细化实现方式进行描述，如图7所示，该语音识别方法可以包括：

步骤S71，获得当前帧待识别音频数据，以及与上一帧待识别音频数据对应的上一帧转录文本数据；

步骤S72，将该上一帧转录文本数据确定为针对当前帧待识别音频数据的参考文本数据；

如上述分析，对于第一帧待识别音频数据对应的转录文本数据获取过程中，其参考文本数据可以是空白数据，因此，该过程可以基于编码器获得的音频特征，直接预测得到第一帧待识别音频特征对应的转录文本数据，将其确定为第二帧待识别音频数据的参考文本数据，第二帧及其后续帧待识别音频数据的转录文本数据的实现过程类似，可以参照本实施例的描述。

步骤S73，基于编码器，获得待识别音频数据的音频特征；

步骤S74，基于解码器，获得参考文本数据的参考文本特征；

步骤S75，将参考文本数据输入语言模型，得到词汇概率分布；

步骤S76，基于该词汇概率分布，获得预测词汇特征；

关于步骤S73至步骤S76的实现过程，可以结合图6所示的网络结构以及上文实施例对应部分的描述实现，本实施例在此不做详述。其中，音频特征和参考文本特征可以是对应数据高维度特征，即D维空间的特征，为了将语音模式输出的概率分布与音频特征融合，可以将其映射到相同的特征维度所表示的特征空间下，得到具有该特征维度的预测词汇特征，再执行后续的特征融合，本申请对不同特征维度的特征转换处理方法不做限制，包括但并不局限于图6所示的对应网络层所表示的处理方式。

步骤S77，基于预设特征融合方式，将音频特征与参考文本特征进行特征融合，得到第一融合特征，并将音频特征与预测词汇特征进行特征融合，得到第二融合特征；

继上述分析，如图6所示，预设特征融合方式可以是特征相加/拼接方式，但并不局限于这种特征融合方法，按照上文描述的方法，得到具有相同特征维度的三路特征向量，即参考文本特征、音频特征和预测词汇特征之后，可以将音频特征分别与参考文本特征和预测词汇特征进行特征融合，即在网络中间层(D维特征空间中)进行特征融合，以丰富高维度特征，提高后续实词预测准确性。

需要说明的是，本实施例的第二融合特征可以是上文实施例的音频词汇特征，本申请对上述第一融合特征和第二融合特征的获取过程及其内容不做详述。

步骤S78，基于预设特征融合方式，将第二融合特征与词汇概率分布进行特征融合，获得针对待识别音频数据的实词特征；

步骤S79，基于第一融合特征，获得针对待识别音频数据的空白字符特征；

步骤S710，基于空白字符特征和实词特征，获得与待识别音频数据对应的转录文本数据。

按照上文描述的方法，在D维特征空间下，将基于解码器和语言模型这两个编码网络，分别获得的参考文本数据的参考文本特征和预测词汇特征，分别与待识别音频数据的音频特征进行融合，得到包含丰富高层特征的两个融合特征后，本申请还可以在词汇空间下，将语言模型得到词汇概率分布融合到网络输出层上，如图6所示，将第二融合特征映射到词汇空间V下与词汇概率分布进行特征融合，即转换成相同特征维度后进行特征相加，得到针对待识别音频数据的实词特征。

由此可见，本申请在中间层的高层特征维度上，将获得的音频特征分别与参考文本特征和基于语言模型得到的预测词汇特征进行特征融合，将得到的用于预测空白字符的第一融合特征直接映射到词汇空间，得到空白字符特征，并将用于预测实词的第二融合特征映射到词汇空间下，再融合语言模型得到的词汇概率分布，得到更丰富的实词特征，从而提高了由此得到的待识别音频数据对应的转录文本数据的识别准确性。

在本申请实际应用中，对于如图6所示的网络结构的语音识别模型(其可以称为改进式解耦化神经转录器，Improved Factorized Neural Transducer，IFNT)的训练过程中，在获得相匹配的训练音频数据和训练文本数据后，可以将训练音频数据输入待训练的语音识别模型中的编码器，并将训练文本数据分别输入解码器和语言模型进行处理，处理过程可以参照上文描述的语音识别方法对参考文本数据和待识别音频数据的处理方法，本实施例不做详述。

如图6所示，在语音识别模型的输出层，可以获得整个模型的预测损失以及语言模型的预测损失，如通过CTC(Connectionist Temporal Classification，联结主义时间分类)损失函数，基于语音识别模型输出的概率分布获得针对训练音频数据的转录文本数据的预测损失(Transducer loss)，还可以通过K-L(Kullback–Leiblerdivergence，相对熵)损失函数，基于语言模型输出的词汇概率分布/>获得语音模型的预测词汇的预测损失(LM loss)，之后，可以基于这两个预测损失进行逻辑回归处理，调整语音识别模型的网络参数，如编码器和解码器各自的网络参数，以及其他网络层的网络参数等，以提高语音识别性能，降低预测词错误率(Word Error Rate，WER)。

之后，再通过具有调整后的网络参数继续对下一帧的训练音频数据和训练文本数据进行训练，每轮训练实现过程类似，本申请不做一一详述，在训练次数达到预设训练次数，或者是预测损失收敛或小于损失阈值等满足训练终止条件的情况，可以结束对语音识别模型的训练，这样，可以使用好的如图6所示网络结构的语音识别模型满足语音识别场景下待识别音频数据的识别，获得相应的转录文本数据后输出，关于识别到的转录文本数据的后续处理方法，可以结合语音识别场景的处理需求确定，本申请不做限制。

可选的，按照上文描述的方法训练好语音识别模型后，为了使其能够适用于目标域(任一应用领域)下的语音识别，本申请可以使用来自目标域的调试文本数据，对其中的语言模型进行调整，使得调试后得到的语音识别模型具有灵活的文本自适应能力。

基于此，参照图8，为本申请提出的语音识别方法的可选实施例四的流程示意图，在目标域与语音识别模型训练域不同的情况下，本实施例可以对语言模型进行调试，以使得包含调试后的语言模型的语音识别模型适用于目标域的语音识别的一可选实现过程进行描述，如图8所示，该语音识别方法可以包括：

步骤S81，获得目标域的调试文本数据；

步骤S82，将该调试文本数据输入语言模型，得到针对调试文本数据的下一调试文本数据的预测概率分布；

如上述分析，目标域可以是任一应用领域，可以区别于训练语音识别模型的训练文本数据所属的训练域，该目标域的调试文本数据可以来自某医学对话语料库、EuroParl会议语料库、TED-LIUM英语语音识别的语料库等，本申请对该目标域类别及其调试文本数据的获取方法不做限制，可视情况而定。

将每一调试文本数据输入语言模型LM，输出相应的预测概率分布的实现过程，可以结合该语言模型LM的网络结构确定，本申请不做详述。

步骤S83，基于该预测概率分布，获得针对下一调试文本数据的预测损失；

步骤S84，通过最小化该预测损失，调试语言模型；

步骤S85，通过调试后的语言模型以及编码器和解码器，获得来自目标域的待识别音频数据对应的转录文本数据。

结合上文对语音识别模型的训练实现过程的描述，可以采用K-L损失函数，来获取语言模型LM的预测词汇的预测损失(LM loss)，之后，可以通过最小化该预测损失，优化语言模型LM的网络参数和网络结构，提高语言模型在目标域中的词汇预测准确性，本申请对语言模型的调试优化过程不做详述。

在上述调试过程中，对应语音识别模型中的编码器和解码器部分不做处理，使用其中的语言模型对调试文本数据的下一文本数据进行预测，基于其预测损失实现对语言模型的有针对性调试，使得包含调试后的语言模型的语音识别模型能够精准实现目标域的待识别音频数据的语音识别，满足目标域下的语音识别需求。关于步骤S85的实现过程可以参照上文方法实施例描述的语音识别方法，本实施例在此不做详述。

参照图9，为本申请提出的语音识别装置的一可选实施例的结构示意图，如图9所示，该语音识别装置可以包括：

数据获得模块91，用于获得待识别音频数据，以及针对所述待识别音频数据的参考文本数据；

数据处理模块92，用于基于编码器获得所述待识别音频数据的音频特征，基于解码器获得所述参考文本数据的参考文本特征，并基于语言模型获得所述参考文本数据的预测词汇特征；

其中，所述语言模型用于预测预设词汇表中不同词汇属于所述参考文本数据的下一文本数据的概率，所述预测词汇特征与所述音频特征和所述参考文本特征的特征维度相同；

空白字符特征获得模块93，用于基于所述音频特征和所述参考文本特征，获得针对所述待识别音频数据的空白字符特征；

实词特征获得模块94，用于基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征；

转录文本数据获得模块95，用于基于所述空白字符特征和所述实词特征，获得与所述待识别音频数据对应的转录文本数据。

可选的，数据处理模块92包含的用于基于语言模型获得所述参考文本数据的预测词汇特征的第一获得单元可以包括：

词汇概率分布得到单元，用于将所述参考文本数据输入语言模型，得到词汇概率分布；

预测词汇特征获得单元，用于基于所述词汇概率分布，获得预测词汇特征。

其中，在一种可能的实现方式中，预测词汇特征获得单元可以包括：

特征转换处理单元，用于基于所述音频特征和所述参考文本特征具有的特征维度，对所述词汇概率分布进行特征转换处理，得到具有所述特征维度的预测词汇特征。

基于此，在一些实施例中，上述实词特征获得模块94可以包括：

音频词汇特征获得单元，用于基于音频特征和所述预测词汇特征，获得音频词汇特征；

实词特征获得单元，用于基于所述音频词汇特征和所述词汇概率分布，获得针对所述待识别音频数据的实词特征。

在另一些实施例中，上述空白字符特征获得模块93可以包括：

第一融合特征得到单元，用于基于预设特征融合方式，将所述音频特征与所述参考文本特征进行特征融合，得到第一融合特征；

第一获得单元，用于基于所述第一融合特征，获得针对所述待识别音频数据的空白字符特征

与此同时，上述实词特征获得模块94可以包括：

第二融合特征得到单元，用于将所述音频特征与所述预测词汇特征进行特征融合，得到第二融合特征；

实词特征获得单元，用于基于所述预设特征融合方式，将所述第二融合特征与所述词汇概率分布进行特征融合，获得针对所述待识别音频数据的实词特征。

结合上文各实施例描述的语音识别装置，其中的数据获得模块91可以包括：

数据获得单元，用于获得当前帧待识别音频数据，以及与上一帧待识别音频数据对应的上一帧转录文本数据；

参考文本数据确定单元，用于将所述上一帧转录文本数据确定为针对当前帧待识别音频数据的参考文本数据。

其中，如果获得的待识别音频数据是待识别音频信号的第一帧待识别音频数据，针对所述第一帧待识别音频数据的参考文本数据为空白数据，此时，申请提出的语音识别装置可以包括：

音频特征获得模块，用于基于所述编码器，获得所述第一帧待识别音频数据的音频特征；

转录文本获得模块，用于基于所述音频特征，获得与所述第一帧待识别音频数据对应的转录文本数据。

在实际应用中，为了保证本申请提出的如图6所示的语音识别模型适用于目标域的语音识别，本申请可以基于目标域即目标领域的文本数据，实现对该语音识别模型中语言模型的调试，在此期间编码器和解码器可以冻结，因此，本申请提出的语音识别装置还可以包括：

调试文本数据获得模块，用于获得目标域的调试文本数据；

预测概率分布得到模块，用于将所述调试文本数据输入所述语言模型，得到针对所述调试文本数据的下一调试文本数据的预测概率分布；

预测损失获得模块，用于基于所述预测概率分布，获得针对所述下一调试文本数据的预测损失；

调试模块，用于通过最小化所述预测损失，调试所述语言模型，以通过调试后的所述语言模型以及所述编码器和所述解码器，获得来自所述目标域的待识别音频数据对应的转录文本数据。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的语音识别方法的各个步骤，实现过程可以参照上文方法实施例的描述内容，本实施例在此不做详述。

参照图10，为适用于本申请提出的语音识别方法的电子设备的一可选实施例的硬件结构示意图，该电子设备可以是服务器或终端设备，本实施例以电子设备是服务器为例进行说明，如图10所示，该电子设备可以包括：数据连接端口1010和处理器1020，其中：

数据连接端口1010，用于接收待识别音频信号，该待识别音频信号包含至少一帧待识别音频数据。

其中，待识别音频信号可以来自其他设备或独立的音频采集设备或者是电子设备中的音频采集设备等，可以与该数据连接端口1010通信连接，实现对待识别音频信号的传输，本申请对待识别音频信号的来源及其传输方式不做限制，可视情况而定。

本申请实施例中，数据连接端口1010可以包括支持如wifi、蓝牙和/或近场通道方式等无线通信方式对应的通讯元件，以使得电子设备可以通过该通讯元件，实现与其他设备(如上述独立音频采集设备或其他设备等)进行数据传输，本申请对数据连接端口1010的组成结构及其对应的通信传输机制不做限制，可视情况而定。

可选的，数据连接端口1010还可以包括一个或多个支持有线通信方式的接口，如通用输入输出(general-purpose input/output，GPIO)接口、USB接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口等，以实现电子设备内部各组成部分之间的数据传输，本申请对数据连接端口1010的类型和数量不做限制，可视情况而定。其中，对于电子设备中的各组成部分之间可以通过通信总线，如数据总线、指令总线等进行数据交互。

处理器1020可以连接数据连接端口1010，用于执行多个计算机指令，实现本申请提出的语音识别方法的各步骤，实现过程可以参照上文方法实施例的描述，本实施例不做赘述。

在一些实施例中，处理器1020可以包括至少一个存储单元和至少一个处理单元，处理单元可以执行存储单元存储的计算机指令，实现本申请提出的语音识别方法。

本申请实施例中，上述处理器1020或其包含的处理单元可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)、中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specific integrated circuit，ASIC)现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。存储单元可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件等，本申请对处理器1020的组成结构不做限制。

应该理解的是，图10所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中，电子设备可以包括比图10所示的更多或更少的部件，或者组合某些部件，如在电子设备为终端设备的情况下，该电子设备还可以包括如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、摄像头、拾音器等至少一个输入组件；如显示器、扬声器、振动机构、灯等至少一个输出组件；天线；传感器模组；电源模组等，可以依据终端设备的产品类型和功能需求确定，本申请在此不做一一列举。

最后，需要说明的是，关于上述各实施例中，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

本申请涉及到的术语诸如“第一”、“第二”等仅用于描述目的，用来将一个操作、单元或模块与另一个操作、单元或模块区分开来，而不一定要求或者暗示这些单元、操作或模块之间存在任何这种实际的关系或者顺序。且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，所述语音识别方法包括：

2.根据权利要求1所述的语音识别方法，所述基于语言模型获得所述参考文本数据的预测词汇特征，包括：

将所述参考文本数据输入语言模型，得到词汇概率分布；

基于所述词汇概率分布，获得预测词汇特征。

3.根据权利要求2所述的语音识别方法，所述基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征，包括：

基于音频特征和所述预测词汇特征，获得音频词汇特征；

4.根据权利要求2所述的语音识别方法，所述基于所述音频特征和所述参考文本特征，获得针对所述待识别音频数据的空白字符特征，并基于所述音频特征和所述预测词汇特征，获得针对所述待识别音频数据的实词特征，包括：

5.根据权利要求1-4任一项所述的语音识别方法，所述获得待识别音频数据，以及针对所述待识别音频数据的参考文本数据，包括：

6.根据权利要求5所述的语音识别方法，如果获得的待识别音频数据是待识别音频信号的第一帧待识别音频数据，针对所述第一帧待识别音频数据的参考文本数据为空白数据，所述第一帧待识别音频数据对应的转录文本数据的获取过程包括：

7.根据权利要求1-4任一项所述的语音识别方法，所述语音识别方法还包括：

获得目标域的调试文本数据；

8.根据权利要求2所述的语音识别方法，所述基于所述词汇概率分布，获得预测词汇特征，包括：

9.一种语音识别装置，所述语音识别装置包括：

10.一种电子设备，所述电子设备包括：

处理器，用于执行多个计算机指令，实现以下步骤：