CN113838456B

CN113838456B - 音素提取方法、语音识别方法、装置、设备及存储介质

Info

Publication number: CN113838456B
Application number: CN202111141351.0A
Authority: CN
Inventors: 方昕; 刘俊华
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-05-31
Anticipated expiration: 2041-09-28
Also published as: WO2023050541A1; CN113838456A

Abstract

本申请提出一种音素提取方法、语音识别方法、装置、电子设备及存储介质，该方法包括：根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。采用上述的技术方案，能够显著提高端侧离线语音识别的识别效果。

Description

音素提取方法、语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种音素提取方法、语音识别方法、装置、设备及存储介质。

背景技术

基于注意力机制的端到端语音识别研究是当下的热点研究方向，尤其是针对端侧的离线语音识别领域，如：离线语音输入法、离线语音助手以及一些车载场场景等。

常见的针对端侧的端到端语音识别方案是将声学模型与语言模型相结合的方案，具体是，通过神经网络参数化的语言模型方式将各领域的语言知识打包到模型参数中，然后将其与前端的声学模型相融合，共同实现语音识别。

在上述方案中，前端的声学模型采用端到端建模的方式，一般端到端建模得到的是字、子词等语义单元，这就导致声学模型无法充分利用发音之间的共享特性，无法保证语音建模的鲁棒性。

而且，基于字或子词的建模方式导致声学模型过度相信自己的预测输出，会发生曝光偏置问题，使得后端的语言模型难以真正影响声学模型预测结果的得分，从而难以借助语言模型中的语言知识对语音识别结果带来正向修正效果，最终导致语音识别效果不理想。

发明内容

基于上述技术现状，本申请提出一种音素提取方法、语音识别方法、装置、设备及存储介质，能够显著提高端侧离线语音识别效果。

一种语音识别方法，包括：

根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；

至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

可选的，所述至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

根据所述当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

可选的，所述根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列，包括：

将待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，输入预先训练的声学模型，得到所述声学模型输出的与所述当前待识别语音单元对应的音素序列；

其中，所述声学模型具备根据待识别语音单元的声学特征，以及已识别语音单元的识别结果，预测与待识别语音单元对应的音素序列的能力。

可选的，根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列，包括：

根据待识别语音的当前待识别语音单元的声学特征，预测与所述当前待识别语音单元对应的音素识别结果；

根据所述待识别语音的已识别语音单元的识别结果，获取与所述已识别语音单元对应的音素序列；

根据与所述当前待识别语音单元对应的音素识别结果，以及所述已识别语音单元对应的音素序列，确定与所述当前待识别语音单元对应的音素序列。

可选的，根据所述当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

将所述当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，输入预先训练的语言模型，得到所述语言模型输出的对应所述当前待识别语音单元的语音识别结果；

其中，所述语言模型具备根据待识别语音单元对应的音素序列，以及已识别语音单元的识别结果，对待识别语音单元进行语音识别，并输出对应待识别语音单元的语音识别结果的能力。

可选的，在所述当前待识别语音单元对应的音素序列的各个词尾音素位置处，分别设置有词尾标记，所述词尾标记由所述声学模型和/或所述语言模型标记得到。

可选的，所述声学模型和所述语言模型的训练过程，包括：

所述声学模型根据所述语言模型输出的对训练样本的前一时刻识别结果，以及训练样本当前待识别语音的声学特征，预测所述当前待识别语音对应的音素序列；其中，所述训练样本至少包括设定领域的训练样本；

所述语言模型根据所述声学模型输出的所述当前待识别语音对应的音素序列，以及所述训练样本的前一时刻识别结果，确定所述当前待识别语音的语音识别结果；

根据所述语言模型输出的语音识别结果，以及所述训练样本的样本标签，对所述声学模型和所述语言模型进行参数校正。

可选的，当所述声学模型获取到所述语言模型输出的、对应所述声学模型输出的最新的音素序列单元的语音识别结果时，所述声学模型根据所述语言模型输出的该语音识别结果，以及训练样本当前待识别语音的声学特征，预测所述当前待识别语音对应的音素序列；

其中，所述音素序列单元是指对应语音识别结果中的最小单位的音素序列。

一种音素提取方法，包括：

其中，所述当前待识别语音单元对应的音素序列，用于作为对所述当前待识别语音单元进行语音识别的识别依据。

一种语音识别方法，包括：

至少根据待识别语音的当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果；

其中，所述待识别语音的当前待识别语音单元对应的音素序列，根据所述待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果而确定。

可选的，所述至少根据待识别语音的当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

根据待识别语音的当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

可选的，根据待识别语音的当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

将待识别语音的当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，输入预先训练的语言模型，得到所述语言模型输出的对应所述当前待识别语音单元的语音识别结果；

可选的，在所述当前待识别语音单元对应的音素序列的各个词尾音素位置处，分别设置有词尾标记，所述词尾标记由所述语言模型标记得到。

一种语音识别装置，包括：

音素预测单元，用于根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；

识别处理单元，用于至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

一种音素提取装置，包括：

音素提取单元，用于根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；

一种语音识别装置，包括：

语音识别单元，用于至少根据待识别语音的当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果；

一种电子设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的语音识别方法或音素提取方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法或音素提取方法。

本申请实施例提出的语音识别方法在对待识别语音单元进行建模时，采用了音素子词混合建模的方案，即基于待识别语音单元的声学特征以及已识别语音单元的识别结果，建模得到待识别语音单元对应的音素序列，然后基于该音素序列对待识别语音进行语音识别。上述的音素建模方式，能够解决完全基于音素的音素建模方案导致语音识别效果损失的问题，同时能够提高声学模型建模的鲁棒性，而且能够有效规避基于字或子词的声学模型和语言模型联合建模的曝光偏置问题。

因此，基于上述的音素建模方式对待识别语音进行音素建模，并且根据待识别语音对应的音素序列进行语音识别，能够显著提高语音识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的RNNT模型的结构示意图；

图2是本申请实施例提供的一种声学模型的结构示意图；

图3是本申请实施例提供的一种语音识别方法的流程示意图；

图4是本申请实施例提供的一种语言模型的结构示意图；

图5是本申请实施例提供的声学模型和语言模型级联的结构示意图；

图6是本申请实施例提供的声学模型和语言模型级联进行语音识别的过程示意图；

图7是本申请实施例提供的一种音素提取装置的结构示意图；

图8是本申请实施例提供的一种语音识别装置的结构示意图；

图9是本申请实施例提供的另一种语音识别装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案可应用于端侧语音识别场景中，即针对端侧的离线语音识别领域。采用本申请实施例技术方案，能够使得终端在离线场景下实现更高质量的语音识别，尤其是针对某些垂类领域或者专有名词的识别，均能够取得更佳的识别效果。

目前业内已经有一些厂商号称其开发的用于端侧的端到端语音识别模型的识别效果已经可以与云端语音识别的效果相媲美，但实际上只是在通用口语场景下可以取得与云端语音识别相当的识别效果，一旦涉及到一些专业的垂类领域或者一些专有名词的识别，端侧的端到端语音识别模型的效果较云端模型还是有比较大的差距的，比如对于手机语音助手中的一些控制指令、导航地点以及打电话场景的人名识别等。然而在端侧语音识别场景中，垂类领域或专有名词的语音识别是相对更高频的，因此，现有的这些针对端侧的端到端语言模型无法满足端侧语音识别需求。

后有研究者发现，通过在声学模型中引入语言模型的先验知识，可以弥补只利用声学模型在端侧语音识别中效果较差的问题。

最常用的实现方案是，通过神经网络参数化的语言模型将领域信息打包到模型参数中，即利用深度神经网络学习出一个语言模型，采用神经网络参数的形式覆盖各领域的语言知识。然后，将该语言模型与声学模型相融合，共同用于端侧语音识别。

在上述的融合模型中，通过声学模型对语音进行建模，然后结合语言模型的领域语言知识进行建模单元识别，得到最终的语音识别结果。相对于单一地借助声学模型进行语音识别，上述的语言模型的加入使得语音识别过程借鉴了更多的领域语言知识，从而能够一定程度上提高语音识别效果。

但是，本申请技术方案的发明人在研究和应用中发现，将上述的声学模型和语言模型融合进行语音识别的方案应用于端侧语音识别的效果，只是相对于单一应用声学模型进行语音识别的效果有小幅提升，其与云端语音识别效果尚且存在较大差距。

经本案发明人研究发现，在上述方案中，前端的声学模型采用端到端建模的方式，一般端到端建模得到的是字、子词等语义单元，这就导致声学模型无法充分利用发音之间的共享特性，无法保证语音建模的鲁棒性。

为了进一步提升端侧语音识别的效果，本案发明人对上述的将声学模型和语言模型融合进行语音识别的方案进行创新，提出将该融合模型前端的声学模型改进为对语音进行音素建模，使其建模方式与云端语音建模方式相一致，最大限度提升声学特征的共享性，降低对训练数据的要求；另外规避了声学模型和语言模型联合建模的曝光偏置问题，降低声学模型的自信度。

具体实现时，采用图1所示的RNNT(RNN-Transducer)模型实现语音的音素建模。RNNT模型是目前业内最常用的基于注意力机制的端到端语音识别模型，采用该RNNT模型能够取得较好的语音音素建模结果。

参见图1所示可见，RNNT模型的输入，一部分是输入Encoder模块的语音声学特征，另一部分是输入Pred.Network模块的前一时刻建模结果。因此，基于上述的RNNT模型进行语音音素建模时，具体是根据当前待识别语音的声学特征，以及前一时刻语音建模得到的音素，来对当前待识别语音单元进行音素建模，即，RNNT模型的Decoder模块的输入和模型输出一致，即均为音素序列。

但是在实际应用中发现，上述的基于RNNT模型的语音建模方式在声学模型和语言模型相融合的语音识别应用中，相对于上述的基于字或子词的建模方式，竟然损失更大，即识别效果更差。

通过分析，本案发明人进一步发现，上述的RNNT模型的输入和输出都是音素序列，其相对于字或子词建模弱化了语言知识的作用，从而导致整体语音识别效果变差。

为了解决上述问题，以及进一步提升端侧语音识别效果，本申请提出了一种新的音素提取方法和相应的语音识别方法，能够解决现有的音素建模方案导致语音识别效果损失的问题，同时提高声学模型建模的鲁棒性，有效规避了声学模型和语言模型联合建模的曝光偏置问题，从而相对于现有技术显著提高端侧语音识别效果。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例首先提出一种音素提取方法，该方法根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列。

预测得到的所述当前待识别语音单元对应的音素序列，可以用于作为对所述当前待识别语音单元进行语音识别的识别依据，即可以利用所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别。

具体的，上述的语音单元，是指对待识别语音进行语音识别时的单位处理单元。可以理解，当对某一待识别语音进行语音识别时，实际上是按照待识别语音从前到后的顺序，依次进行识别的，例如按照语音帧从前到后的顺序对各个语音帧依次进行识别，或者对待识别语音划分语音段，然后从前到后依次对各个语音段进行识别。则，上述的语音帧或者语音段，即为待识别语音的语音单元。

上述的当前待识别语音单元，是指当前时刻将要进行语音识别的语音单元。例如，假设待识别语音x的总时长为T，当前时刻为t时刻，则待识别语音x中的对应t时刻的语音单元x_t即为当前待识别语音单元。

上述的待识别语音的已识别语音单元的识别结果，是指在对当前待识别语音单元进行语音识别之前，对应待识别语音中的已经识别的至少一个语音单元的语音识别结果。例如，假设当前待识别语音单元为x_t，x₀～x_t-1为已识别的t个语音单元，则与x₀～x_t-1中的至少一个语音单元对应的语音识别结果，即为已识别语音单元的识别结果。

作为具体的示例，上述的已识别语音单元的识别结果，可以是当前待识别语音单元前一时刻的已识别语音单元的识别结果，如，假设当前待识别语音单元为x_t，则可以将x_t-1对应的语音识别结果作为已识别语音单元的识别结果；上述的已识别语音单元的识别结果，也可以是当前待识别语音单元之前的设定长度的已识别语音单元的识别结果，如，假设当前待识别语音单元为x_t，则可以将x_t-5～x_t-1对应的5个语音识别结果作为已识别语音单元的识别结果；又或者，还可以将待识别语音的、位于当前待识别语音单元之前的所有已识别语音单元的识别结果，共同作为已识别语音单元的识别结果，如，假设当前待识别语音单元为x_t，x₀～x_t-1为已识别语音单元，则可以将x₀～x_t-1对应的语音识别结果，全部作为上述的已识别语音单元的识别结果。

在实际应用本申请实施例技术方案时，可以根据语音识别场景或精度的要求，灵活地对上述的“已识别语音单元的识别结果”进行设定或选择。

其中，语音单元的识别结果，可以是词，或者是子词。具体可以根据语种的不同而灵活设置。例如对于欧洲语系语种，语句通常被切分为子词，则语音单元的识别结果为子词；对于中文来说，文本被划分为以字为单位，则语音单元的识别结果为字。

上述的当前待识别语音单元的声学特征，可以通过对待识别语音单元进行声学特征提取得到，此外，还可以先对待识别语音进行声学特征提取，得到待识别语音的声学特征，然后再从待识别语音的声学特征中截取得到与当前待识别语音单元对应的声学特征。本申请实施例并不限定具体的声学特征类型，例如可以是Fbank、MFCC、PLP等类型的声学特征。

本申请实施例设定，当对待识别语音的当前待识别语音单元进行音素建模时，具体是根据当前待识别语音单元的声学特征，以及该待识别语音的已识别语音单元的识别结果，来预测与当前待识别语音单元对应的音素序列。

作为可选的实施方式，本申请实施例在预测与当前待识别语音单元对应的音素序列时，以当前待识别语音单元的声学特征，以及最新识别的设定数量的已识别语音单元的识别结果为依据进行预测。

例如，对于待识别语音x，假设当前待识别语音单元为x_n，x₀～x_n-1为已识别语音单元，与x₀～x_n-1对应的语音识别结果为W₀～W_n-1，则当提取当前待识别语音单元x_n的音素序列p_n时，根据该当前待识别语音单元的声学特征X，以及当前时刻之前的m个已识别语音单元对应的语音识别结果W_n-m～W_n-1，预测当前待识别语音单元x_n的音素序列p_n，该音素预测可通过如下表达式表示：

P(p_n|W_n-m,...,W_n-1,X)

作为一种示例性的实现方式，本申请实施例借助预先训练的声学模型，来实现对待识别语音的音素建模，该声学模型经过训练后具备根据待识别语音单元的声学特征，以及已识别语音单元的识别结果，预测与待识别语音单元对应的音素序列的能力。

示例性的，上述的预先训练的声学模型，可以参见图2所示。该声学模型基于RNNT模型搭建，与传统的RNNT模型不同的是，该声学模型的输出为音素序列而非字或子词，即实现音素建模，同时，该声学模型的Decoder模块(对应于传统RNNT模型的Pred.Network模块)的输入为已识别语音单元的识别结果，即上文的词或子词序列。

在训练过程中，通过多渠道采集语音数据用于对该声学模型进行训练。进一步的，为了提高模型性能，还可以对训练数据进行加噪、加混响、变速等处理。

当提取当前待识别语音单元x_n的音素序列p_n时，将该当前待识别语音单元的声学特征X，输入该声学模型的Encoder模块，以及将当前时刻之前的m个已识别语音单元对应的语音识别结果W_n-m～W_n-1，输入该声学模型的Decoder模块，使得该声学模型输出对应当前待识别语音单元x_n的音素序列p_n。

通过上述介绍可见，本申请实施例提出的音素提取方法，与传统的标准RNNT建模不同，传统的RNNT模型的输入和输出均为字或子词，而本申请实施例则将该RNNT模型用于音素建模，即，其输出为音素。同时，与传统的完全基于音素的建模方式不同，本申请实施例对语音单元进行音素建模时，结合了已识别语音单元的识别结果进行音素建模，具体可参见如下表达式：P(p_n|W_n-m,...,W_n-1,X)。一定长度的字或子词序列相对于同样长度的音素序列包含更多的语言知识信息。因此，按照本申请实施例提取得到的待识别语音的音素序列，更加有利于准确识别语音单元。

同时，传统的基于字或子词的建模表达式为P(W_n|W_n-m,...,W_n-1,X)，可见，本申请提出的音素建模方式与传统的基于字或子词的建模方式在表达式上所表现出的概率分布条件是一致的，所以在理论上两种方案的最终语音识别效果也能够保持相当。经过实验验证后，确实本申请实施例所提出的音素建模方案，能够取得与传统的字或子词建模方案相当的语音识别效果。

本申请实施例所采用的音素建模方式，能够解决现有的音素建模方案导致语音识别效果损失的问题，同时提高声学模型建模的鲁棒性，有效规避了声学模型和语言模型联合建模的曝光偏置问题，从而相对于现有技术能够显著提高端侧语音识别效果。

与上述的音素提取方法相对应的，本申请实施例提出一种语音识别方法，该语音识别方法至少根据待识别语音的当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

其中，所述待识别语音的当前待识别语音单元对应的音素序列，参照上述实施例介绍的音素提取方法而得到，也就是根据所述待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果而确定。该当前待识别语音单元对应的音素序列的获取过程，可以参见上述的音素提取方法是处理过程，此处不再重复。

基于当前待识别语音单元的音素序列，对当前待识别语音单元进行语音识别的具体实现方式，可以参照现有技术方案中的基于待识别语音的音素序列对待识别语音进行语音识别的技术方案。

示例性的，通过对当前待识别语音单元对应的音素序列进行编解码处理，以及进行解码路径搜索处理，即可获得与当前待识别语音单元对应的语音识别结果。

进一步的，为了更充分地利用语言知识，在根据待识别语音的当前待识别语音单元对应的音素序列，对当前待识别语音单元进行语音识别时，还可以结合待识别语音的已识别语音单元的识别结果进行，即，根据待识别语音的当前待识别语音单元对应的音素序列，以及待识别语音的已识别语音单元的识别结果，对当前待识别语音单元进行语音识别。

可以理解，基于待识别语音的当前待识别语音单元对应的音素序列，以及待识别语音的已识别语音单元的识别结果，对当前待识别语音单元进行语音识别，既利用了待识别语音的上下文的字或子词间的跳转关系，又利用了音素到词之间的映射关系，多元信息相结合用于对当前待识别语音单元进行语音识别，能够得到更准确的识别结果。

可以理解，由于本申请实施例提出的语音识别方法在对当前待识别语音单元进行语音识别时所依据的音素序列，是结合了已识别语音单元的识别结果进行音素建模而得到的音素序列。该音素序列包含了更多的语言模型信息，并且该建模方式与传统的基于字或子词的建模方式在表达式上所表现出的概率分布是一致的，因此两种建模方式均包含了相当数量的语言知识。基于该音素序列进行语音识别，能够解决现有的音素建模方案导致语音识别效果损失的问题，同时提高声学模型建模的鲁棒性，有效规避了声学模型和语言模型联合建模的曝光偏置问题，从而相对于现有技术显著提高端侧语音识别效果。

本申请实施例还提出了将上述的音素提取方法和语音识别方法相结合而实现的语音识别方法，在该方法中，同时包含了上述的音素提取方法的处理步骤，以及上述的语音识别方法的处理步骤。

下面，本申请实施例对该语音识别方法进行介绍。可以理解的是，下文介绍的语音识别方法中涉及的与上述的音素提取方法相同的处理步骤，以及与上述的语音识别方法相同的处理步骤的具体处理内容，均适用于上述的音素提取方法和语音识别方法的相应步骤，不同实施例之间的相应内容可以相互参照或相互结合。

参见图3所示，本申请实施例提出的语音识别方法，包括：

S301、根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列。

具体的，参见上述的音素提取方法的实施例介绍，本申请实施例在对待识别语音的当前待识别语音单元进行音素建模时，具体是根据当前待识别语音单元的声学特征，以及该待识别语音的已识别语音单元的识别结果，来预测与当前待识别语音单元对应的音素序列。

本申请实施例对语音单元进行建模时，与传统的完全基于音素的建模方案不同，而且与传统的基于字或子词的建模方案也不同，而是结合了已识别语音单元的识别结果进行音素建模，具体可参见如下表达式：P(p_n|W_n-m,...,W_n-1,X)。一定长度的字或子词序列相对于同样长度的音素序列包含更多的语言知识信息。因此，按照本申请实施例提取得到的待识别语音的音素序列，更加有利于准确识别语音单元。

S302、至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

具体的，基于当前待识别语音单元的音素序列，对当前待识别语音单元进行语音识别的具体实现方式，可以参照现有技术方案中的基于待识别语音的音素序列对待识别语音进行语音识别的技术方案。

示例性的，通过对当前待识别语音单元对应的音素序列进行编解码处理，以及进行解码路径搜索，即可获得与当前待识别语音单元对应的语音识别结果。

结合上述实施例介绍可以理解，本申请实施例提出的语音识别方法在对待识别语音单元进行建模时，采用了音素子词混合建模的方案，即基于待识别语音单元的声学特征以及已识别语音单元的识别结果，建模得到待识别语音单元对应的音素序列，然后基于该音素序列对待识别语音进行语音识别。上述的音素建模方式，能够解决完全基于音素的音素建模方案导致语音识别效果损失的问题，同时能够提高声学模型建模的鲁棒性，而且能够有效规避基于字或子词的声学模型和语言模型联合建模的曝光偏置问题。

作为优选的实现方式，为了更充分地利用待识别语音中所包含的语言知识，在根据待识别语音的当前待识别语音单元对应的音素序列，对当前待识别语音单元进行语音识别时，还可以结合待识别语音的已识别语音单元的识别结果进行，即，根据待识别语音的当前待识别语音单元对应的音素序列，以及待识别语音的已识别语音单元的识别结果，对当前待识别语音单元进行语音识别，得到对应该当前待识别语音单元的语音识别结果。

作为一种优选的实现方式，上述的步骤S301可以借助预先训练的声学模型来实现。该声学模型经过训练后具备根据待识别语音单元的声学特征，以及已识别语音单元的识别结果，预测与待识别语音单元对应的音素序列的能力。

当对待识别语音的当前待识别语音单元进行音素建模时，将当前待识别语音单元的声学特征，以及待识别语音的已识别语音单元的识别结果，输入该预先训练的声学模型，得到该声学模型输出的与当前待识别语音单元对应的音素序列。

该声学模型的具体结构可参见图2所示，该声学模型实现音素建模的原理和建模效果、特点的说明，可以参见上述的音素提取方法的实施例介绍，此处不再重复。

结合图2所示的声学模型结构，以及上述实施例介绍的音素提取方法的实施例介绍，示例性的，上述的根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列，具体可以通过执行如下A1-A3三个步骤实现：

A1、根据待识别语音的当前待识别语音单元的声学特征，预测与所述当前待识别语音单元对应的音素识别结果。

具体的，根据当前待识别语音单元的声学特征，预测与该声学特征对应的音素序列，该预测结果即为与当前待识别语音单元对应的音素识别结果。

示例性的，借助基于RNNT模型构建的上述声学模型，可以实现声学特征到音素序列的预测。

即，将当前待识别语音单元的声学特征，输入图2所示的RNNT声学模型的Encoder模块(即PredictNet模块)，使得该模块根据输入的声学特征，预测与该声学特征对应的音素序列，作为与当前待识别语音单元对应的音素识别结果。

A2、根据所述待识别语音的已识别语音单元的识别结果，获取与所述已识别语音单元对应的音素序列。

示例性的，如图2所示，通过基于RNNT模型构建的上述声学模型的Decoder模块，可以实现字符向音素的映射。

具体的，将待识别语音的已识别语音单元的识别结果，利于上文识别到的字或子词，输入上述的RNNT声学模型的Decoder模块，使得该模块将输入的字或子词解码为音素序列，即得到与已识别语音单元对应的音素序列。

A3、根据与所述当前待识别语音单元对应的音素识别结果，以及所述已识别语音单元对应的音素序列，确定与所述当前待识别语音单元对应的音素序列。

具体的，将当前待识别语音单元对应的音素识别结果，与已识别语音单元对应的音素序列进行融合处理，确定与当前待识别语音单元对应的音素序列。

例如，利用已识别语音单元对应的音素序列，结合音素连续性知识或者音素常用组合信息，对当前待识别语音单元对应的音素识别结果进行校正，最终得到与已识别语音单元对应的音素序列相匹配而且又符合待识别语音单元声学特征的音素序列，作为最终确定的与当前待识别语音单元对应的音素序列。

示例性的，如图2所示，将RNNT声学模型的Encoder模块对当前待识别语音单元的声学特征处理得到的音素识别结果，以及Decoder模块对已识别语音单元进行处理得到的音素序列，共同输入融合模块JointNet，JointNet模块对Encoder模块输出的当前待识别语音单元对应的音素识别结果，以及Decoder模块输出的已识别语音单元对应的音素序列，进行融合处理，最终输出与当前待识别语音单元对应的音素序列。

作为一种可选的实现方式，本申请实施例借助预先训练的语言模型，来实现基于当前待识别语音单元对应的音素序列，对当前待识别语音单元进行语音识别的处理。

该语言模型经过训练后具备至少根据待识别语音单元对应的音素序列，对待识别语音单元进行语音识别，得到对应待识别语音单元的语音识别结果的能力。

基于上述的语言模型，将上述的声学模型输出的对应待识别语音的当前待识别语音单元的音素序列，输入该语言模型，即可得到该语言模型输出的对应该当前待识别语音单元的语音识别结果。

作为更加优选的实施方式，本申请实施例基于RNNT模型搭建上述的语言模型并进行训练，使其具备根据待识别语音单元对应的音素序列，以及已识别语音单元的识别结果，对待识别语音单元进行语音识别，并输出对应待识别语音单元的语音识别结果的能力。

参见图4所示，该语言模型基于RNNT模型训练得到，与传统的RNNT模型不同的是，该语言模型的Encoder模块的输入为待识别语音单元对应的音素序列，Decoder模块的输入为上一时刻识别得到的字或子词序列，也就是已识别语音单元的识别结果。

在对当前待识别语音单元进行语音识别时，将当前待识别语音单元对应的音素序列以及已识别语音单元的语音识别结果同时输入该语言模型，具体是将当前待识别语音单元对应的音素序列输入该语言模型的Encoder模块，将已识别语音单元的语音识别结果输入该语言模型的Decoder模块，该语言模型基于当前待识别语音单元对应的音素序列以及已识别语音单元的语音识别结果，实现对当前待识别语音单元的语音识别，并输出语音识别结果。

为了使该语言模型学习到领域信息，从而能够胜任端侧的垂类领域或一些专有名词的识别任务，在训练上述的语言模型时，将垂类领域语料与通用领域语料进行混合，然后采用混合数据训练上述的语言模型，最终得到一个同时具备通用领域和垂类领域识别能力的语言模型。

可以理解，将上述的声学模型和上述的语言模型进行级联组合，可以用于执行本申请实施例提出的如图3所示的语音识别方法。上述的声学模型和上述的语言模型的级联结构可参见图5所示，其中，声学模型作为语言模型的前端模型，可以实现对当前待识别语音单元的音素序列的建模，语言模型则能够基于声学模型输出的当前待识别语音单元对应的音素序列，对当前待识别语音单元进行语音识别，得到语音识别结果。

对于上述的语言模型来说，其输入有两部分，一部分是音素序列输入，用于描述音素和词之间的映射关系，该部分通过RNNT模型的Encoder模块实现；另一方面是字或子词输入，用于描述词和词之间的跳转关系，这部分通过RNNT模型的Decoder模型实现。

在模型训练过程中，先对上述的声学模型和语言模型分别单独进行训练，使其各自具有基本功能。然后，将初步训练后的声学模型和语言模型按照图5所示进行级联，然后再利用训练语料对声学模型和语言模型进行级联训练。

对于上述声学模型和语言模型进行级联训练的过程，至少包括如下步骤B1-B3：

B1、所述声学模型根据所述语言模型输出的对训练样本的前一时刻识别结果，以及训练样本当前待识别语音的声学特征，预测所述当前待识别语音对应的音素序列。其中，所述训练样本至少包括设定领域的训练样本。

具体的，为了能够胜任端侧在垂类领域或某些专有名词的语音识别任务，本申请实施例将特定领域的训练数据与通用训练数据混合，共同用于对声学模型和语言模型进行级联训练。

由声学模型和语言模型级联构成的语音识别模型对训练样本进行语音识别时，也是对训练样本进行从前到后的依次识别。

参见图5所示，语言模型前一时刻输出的识别结果，反馈作为声学模型和语言模型的输入。声学模型根据语言模型输出的对训练样本的前一时刻识别结果，以及训练样本当前待识别语音的声学特征，预测当前待识别语音对应的音素序列。

B2、所述语言模型根据所述声学模型输出的所述当前待识别语音对应的音素序列，以及所述训练样本的前一时刻识别结果，确定所述当前待识别语音的语音识别结果。

参见图5所示，语言模型根据声学模型输出的当前待识别语音对应的音素序列，以及该语言模型前一时刻输出的识别结果，对当前待识别语音进行语音识别，确定对当前待识别语音的语音识别结果。

B3、根据所述语言模型输出的语音识别结果，以及所述训练样本的样本标签，对所述声学模型和所述语言模型进行参数校正。

具体的，通过将语言模型输出的语音识别结果与训练样本的样本标签进行对比，确定识别损失，然后采用梯度下降法，对声学模型和语言模型的运算参数进行校正，使得识别损失梯度下降。

将上述的声学模型和语言模型级联进行训练，实现了将语言模型用于辅助声学模型训练，使得在训练时为声学模型提供了较好的语言模型支持，一定程度上缓解了由于带标注的语音训练数据不足导致声学模型训练不充分的问题。

示例性的，为了提高模型训练效果，本申请实施例设定，声学模型和/或语言模型对于待识别语音单元对应的音素序列中的词尾音素进行标记，以便进一步提高语音识别准确度。

具体的，声学模型和/或语言模型对声学模型预测得到的当前待识别语音单元对应的音素序列进行词尾音素识别，并在识别到的词尾音素位置处设置词尾标记。这样，在基于音素序列进行字符预测时，能够结合词尾标记辅助判断字符边界。

另一方面，在声学模型和语言模型级联训练过程中，声学模型输出的是音素序列，而语言模型输出的为字或子词，这是两种不同的数据形态，如果直接级联训练的话，会发生训练不同步的问题。例如，声学模型输出的音素序列可能尚不足以识别出一个完整的字符，就已经传给了语言模型，而语言模型基于该音素序列就可能无法得出识别结果或者得出错误的识别结果；或者，语言模型尚未输出对应前一时刻声学模型输出的音素序列的识别结果，声学模型可能就已经开始输出当前时刻的音素序列。

为了使得声学模型和语言模型训练同步，本申请实施例设定，在上述的级联训练过程中，当声学模型获取到语言模型输出的、对应声学模型输出的最新的音素序列单元的语音识别结果时，声学模型根据语言模型输出的该语音识别结果，以及训练样本当前待识别语音的声学特征，预测当前待识别语音对应的音素序列；

其中，上述的音素序列单元是指对应语音识别结果中的最小单位的音素序列，例如，假设语音识别结果为中文，则语音识别结果中的最小单位为字，该音素序列单元是指对应语音识别结果中的字的音素序列；假设语音识别结果为欧洲语种，则语音识别结果中的最小单位为子词，该音素序列单元是指对应语音识别结果中的子词的音素序列

具体的，当声学模型输出对应训练样本的前一音素序列单元，并且获取到语言模型对该音素序列单元的语音识别结果时，声学模型根据语言模型输出的语音识别结果，以及训练样本的当前待识别语音的声学特征，预测与当前待识别语音对应的音素序列，并输出预测得到的音素序列单元。

也就是，声学模型在接收到语言模型输出的前一最小语音识别单位时，才执行下一音素序列预测步骤。

例如，假设待识别语音对应的字符串为“北京欢迎你”，相应的音素序列为“b ei jing h u an y ing n i”。

按照本申请实施例的设定，在上述训练过程中，当语言模型输出字符“北”至声学模型时，声学模型预测输出音素序列单元“j ing”；当语言模型输出字符“京”至声学模型时，声学模型预测输出音素序列单元“h uan”；当语言模型输出字符“欢”至声学模型时，声学模型预测输出音素序列单元“y ing”；以此类推。

经过上述训练后，基于该级联的声学模型和语言模型能够实现本申请提出的语音识别方法，具体的语音识别过程可参见图6所示。

首先，通过声学模型预测与待识别语音对应的音素序列，并通过PSD策略保留多候选路径送入语言模型中。

然后，语言模型对声学模型输出的音素序列进行解码并通过Beam search策略搜索出置信度最高的子词序列。

为了使得声学模型与语言模型能够同步解码，声学模型将预测的音素逐个送入语言模型中，语言模型预测出字或子词后逐个输入声学模型和语言模型的Decoder模块，然后更新声学模型和语言模型信息。

其中，上述的PSD策略的应用，能够保证级联的声学模型和语言模型之间信息传递的有效性。在声学模型和语言模型之间设置PSD模块用于执行PSD策略，能够最大程度保留声学模型输出信息。

上述的PSD策略具体可以参见如下公式所示：

参见上述公式所示，在PSD策略中，预先设定一个阈值λ，当blank的标签与非blank(如语音单元t)的标签的概率差值低于设定的阈值λ时，都保留其路径，然后传入语言模型中进行声学模型+语言模型联合决策获取最优解码路径。

上述的PSD策略的具体内容，包括上述公式的具体含义，以及策略思想的具体内容，可以参照现有技术相关内容，本申请实施例不再详述。

与上述的音素提取方法相对应的，本申请实施例还提出一种音素提取装置，参见图7所示，该装置包括：

音素提取单元001，用于根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；

上述的音素提取装置的各个单元的具体工作内容及其所实现的技术效果，请参见上述对应的音素提取方法及语音识别方法的实施例介绍，此处不再重复。

与图3所示的语音识别方法相对应的，本申请实施例还提出一种语音识别装置，参见图8所示，该装置包括：

音素预测单元002，用于根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；

识别处理单元012，用于至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果。

可选的，所述声学模型和所述语言模型的训练过程，包括：

上述的语音识别装置的各个单元的具体工作内容及其所实现的技术效果，请参见上述对应的音素提取方法和语音识别方法的实施例介绍，此处不再重复。

与上述方法实施例中介绍的另一种语音识别方法相对应的，本申请实施例还提出另一种语音识别装置，参见图9所示，该装置包括：

语音识别单元003，用于至少根据待识别语音的当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果；

本申请另一实施例还提出一种电子设备，参见图10所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音识别方法或音素提取方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机***各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作***和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音识别方法或音素提取方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的语音识别方法或音素提取方法的各个步骤。

具体的，上述的电子设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的语音识别方法或音素提取方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；所述待识别语音的已识别语音单元的识别结果，是指在对当前待识别语音单元进行语音识别之前，对应待识别语音中的已经识别的至少一个语音单元的语音识别结果；

至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果；

所述根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列，包括：

将待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，输入预先训练的声学模型，得到所述声学模型输出的与所述当前待识别语音单元对应的音素序列。

2.根据权利要求1所述的方法，其特征在于，所述至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

3.根据权利要求1至2中任意一项所述的方法，其特征在于，根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

将所述当前待识别语音单元对应的音素序列，以及所述待识别语音的已识别语音单元的识别结果，输入预先训练的语言模型，得到所述语言模型输出的对应所述当前待识别语音单元的语音识别结果。

5.根据权利要求4所述的方法，其特征在于，在所述当前待识别语音单元对应的音素序列的各个词尾音素位置处，分别设置有词尾标记，所述词尾标记由所述声学模型和/或所述语言模型标记得到。

6.根据权利要求4所述的方法，其特征在于，所述声学模型和所述语言模型的训练过程，包括：

7.根据权利要求6所述的方法，其特征在于，当所述声学模型获取到所述语言模型输出的、对应所述声学模型输出的最新的音素序列单元的语音识别结果时，所述声学模型根据所述语言模型输出的该语音识别结果，以及训练样本当前待识别语音的声学特征，预测所述当前待识别语音对应的音素序列；

8.一种音素提取方法，其特征在于，包括：

其中，所述当前待识别语音单元对应的音素序列，用于作为对所述当前待识别语音单元进行语音识别的识别依据；

9.一种语音识别方法，其特征在于，包括：

其中，所述待识别语音的当前待识别语音单元对应的音素序列，根据所述待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果而确定，所述待识别语音的已识别语音单元的识别结果，是指在对当前待识别语音单元进行语音识别之前，对应待识别语音中的已经识别的至少一个语音单元的语音识别结果；

根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，确定与所述当前待识别语音单元对应的音素序列，包括：

10.根据权利要求9所述的方法，其特征在于，所述至少根据待识别语音的当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果，包括：

11.一种语音识别装置，其特征在于，包括：

音素预测单元，用于根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；所述待识别语音的已识别语音单元的识别结果，是指在对当前待识别语音单元进行语音识别之前，对应待识别语音中的已经识别的至少一个语音单元的语音识别结果；

识别处理单元，用于至少根据所述当前待识别语音单元对应的音素序列，对所述当前待识别语音单元进行语音识别，得到对应所述当前待识别语音单元的语音识别结果；

12.一种音素提取装置，其特征在于，包括：

音素提取单元，用于根据待识别语音的当前待识别语音单元的声学特征，以及所述待识别语音的已识别语音单元的识别结果，预测与所述当前待识别语音单元对应的音素序列；所述待识别语音的已识别语音单元的识别结果，是指在对当前待识别语音单元进行语音识别之前，对应待识别语音中的已经识别的至少一个语音单元的语音识别结果；

13.一种语音识别装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任意一项所述的语音识别方法或音素提取方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至10中任意一项所述的语音识别方法或音素提取方法。