CN113299282B

CN113299282B - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN113299282B
Application number: CN202110838942.7A
Authority: CN
Inventors: 李成飞; 白锦峰
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-26
Anticipated expiration: 2041-07-23
Also published as: CN113299282A

Abstract

本公开提供了一种语音识别方法、装置、设备及存储介质，该方法包括：首先，获取待识别语音数据，基于第一模型获取待识别语音数据对应的国际音标IPA序列，其中，第一模型为基于第一训练样本集训练得到的，第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；然后，基于第二模型获取IPA序列对应的文本数据，其中，第二模型为基于第二训练样本集训练得到的，第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；进而，将IPA序列对应的文本数据，确定为待识别语音数据对应的识别结果。本公开实施例能够提高语音识别的准确性。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本公开涉及数据识别领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着信息技术不断的发展，语音识别技术应用于越来越多的领域中，人们对于语音识别的需求也就越来越高。目前，现有的语音识别模型已经无法满足人们对于语音识别的需求，例如，在处理中英文混合的语音识别过程中，利用现有的语音识别模型可能存在识别不准确的问题。

因此，如何提高语音识别的准确性，满足人们对于语音识别的需求，是目前亟需解决的技术问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种语音识别方法，通过先将待识别语音数据转换为IPA序列，再将IPA序列转换为文本数据的方式，能够提高语音识别的准确性。

根据本公开的一方面，提供了一种语音识别方法，所述方法包括：

获取待识别语音数据；

基于第一模型获取所述待识别语音数据对应的国际音标IPA序列；其中，第一模型为基于第一训练样本集训练得到，所述第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；

基于第二模型获取所述IPA序列对应的文本数据；其中，所述第二模型为基于第二训练样本集训练得到，所述第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；

将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果。

根据本公开的另一方面，提供了一种语音识别装置，所述装置包括：

第一获取模块，用于获取待识别语音数据；

第二获取模块，用于基于第一模型获取所述待识别语音数据对应的国际音标IPA序列；其中，第一模型为基于第一训练样本集训练得到，所述第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；

第三获取模块，用于基于第二模型获取所述IPA序列对应的文本数据；其中，所述第二模型为基于第二训练样本集训练得到，所述第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；

确定模块，用于将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果。

根据本公开的另一方面，提供了一种电子设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种语音识别方法，首先，获取待识别语音数据，基于第一模型获取待识别语音数据对应的国际音标IPA序列，其中，第一模型为基于第一训练样本集训练得到的，第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；然后，基于第二模型获取IPA序列对应的文本数据，其中，第二模型为基于第二训练样本集训练得到的，第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；进而，将IPA序列对应的文本数据，确定为待识别语音数据对应的识别结果。本公开实施例先通过第一模型将待识别语音数据转换为IPA序列，再通过第二模型将IPA序列转换为文本数据，利用IPA序列作为语音识别的中间数据，使得得到的识别结果更加准确，从而提高了语音识别的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种语音识别方法的流程图；

图2为本公开实施例提供的另一种语音识别方法的流程图；

图3为本公开实施例提供的一种语音识别模型的示意图；

图4为本公开实施例提供的一种语音识别装置的结构示意图；

图5为本公开实施例提供的一种语音识别设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

为了提高语音识别的准确性，更好地满足人们对于语音识别的需求，本公开实施例提出了一种语音识别方法，首先，获取待识别语音数据，基于第一模型获取待识别语音数据对应的国际音标IPA序列，其中，第一模型为基于第一训练样本集训练得到的，第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；然后，基于第二模型获取IPA序列对应的文本数据，其中，第二模型为基于第二训练样本集训练得到的，第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；进而，将IPA序列对应的文本数据，确定为待识别语音数据对应的识别结果。本公开实施例先通过第一模型将待识别语音数据转换为IPA序列，再通过第二模型将IPA序列转换为文本数据，利用IPA序列作为语音识别的中间数据，使得得到的识别结果更加准确，从而提高了语音识别的准确性。

基于此，本公开实施例提供了一种语音识别方法，参考图1，为本公开实施例提供的一种语音识别方法的流程图，该方法包括：

S101：获取待识别语音数据。

本公开实施例中，待识别语音数据为需要进行语音识别的数据，可以为包括一种语言的语音数据，也可以为包括多种语言的语音数据，如中英文混合的语音数据等。

S102：基于第一模型获取所述待识别语音数据对应的国际音标IPA序列。

其中，第一模型为基于第一训练样本集训练得到，所述第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系。

IPA（International Phonetic Alphabet，国际音标），是一套用来标音的***，以拉丁字母为基础，由国际语音学学会设计来作为口语声音的标准化标示方法。例如，如果语音数据为英文单词HELLO，把英文发音转换成一片片的词片，其中，不同的单词可能共用相同的词片，得到英文单词HELLO的音素为HH AH0 L OW1，基于发音学进行音素到IPA序列的匹配，得到英文单词HELLO的IPA序列为h e l əʊ。如果语音数据为中文单词，则由声韵母更改为拼音，再进行由拼音到IPA序列的匹配，其中，中文语音中的声调可以用1~4来表示。例如，以表1中的英文单词与中文单词为例，基于IPA发音单元体系，转换为对应的IPA序列的结果如表2所示。

英文单词	音素
		HELLO	HH AH0 L OW1
CHECK	CH EH1 K
		GODEYE	G AA1 D AY1
中文单词	声韵母
		好未来	H ao3 uu ui4 l ai2
网校	uu uang3 x iao4

表1

中英文单词	IPA
		HELLO	h e l əʊ
CHECK	ch e k
		GODEYE	g a d ai
好未来	h au_3 w ei_4 l ai_2
		网校	w aŋ_3 x i au_4

表2

本公开实施例中，将语音数据样本转换为IPA序列样本之后，将语音数据样本与IPA序列样本之间的对应关系的数据对（例如表2中的数据对）加入第一训练样本集，对第一模型进行训练，得到经过训练的第一模型。

在第一模型应用的场景中，将待识别语音数据输入至经过训练的第一模型，经过第一模型的处理后，输出待识别语音数据对应的IPA序列。

一种可选的实施方式中，第一模型可以包括音频特征提取模型和IPA序列转换模型，其中，IPA序列转换模型为基于非自回归模型构建，在第一模型的应用场景中，将待识别语音数据输入至第一模型中的音频特征提取模型，由音频特征提取模型提取该待识别语音数据的特征向量；然后将该待识别语音数据的特征向量输入至第一模型中的IPA序列转换模型，由IPA序列转换模型将该特征向量转换为IPA序列，作为该待识别语音数据对应的IPA序列。

本公开实施例中，音频特征提取模型用来提取待识别语音数据的特征向量，将待识别语音数据输入至音频特征提取模型后，经过音频特征提取模型的处理后，输出待识别语音数据对应的特征向量，其中，特征向量用来表示待识别语音数据的特征，使得待识别语音数据数值化。

一种可选的实施方式中，音频特征提取模型可以是Conformer Encoder模型（又称Conformer编码器模型），Conformer Encoder模型是一种在Transformer模型基础上改进的模型，其优势是综合考虑到局部信息以及全序列的信息。其中，Transformer模型的结构是由Encoder（编码器）和Decoder（解码器）组成。Conformer Encoder模型的总体结构可以包括三个子模块：Feed Forward Module（前馈模块）、Multi-Head Self attention Module（多头自注意力模块）、Convolution Module（卷积模块）。其中，Feed Forward Module和Convolution Module属于常见的神经网络结构，关于其公式此处不再赘述。

本公开实施例中，Multi-Head Self attention Module子模块可以由以下公式（1）-公式（3）表示：

（1）

（2）

（3）

其中，Multi-Head代表多头机制，Concat代表拼接操作，

表示第i个head的计算方式，Self-attention代表自注意力机制。Multi-Head Attention是通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来。Q，K，V是输入向量分别与不同的矩阵相乘得到的向量，然后若干个向量组成的Q，K，V矩阵，方便同时运算。Conformer Encoder模型的输出结果是输入的语音数据的特征向量，用来表示该语音数据的特征。

本公开实施例中，IPA序列转换模型用来将音频特征提取模型输出的待识别语音数据对应的特征向量转换为IPA序列，具体的，将待识别语音数据对应的特征向量输入至IPA序列转换模型后，通过IPA序列转换模型的处理后，输出待识别语音数据对应的IPA序列。其中，IPA序列转换模型为基于非自回归模型构建的模型，非自回归模型，是一种高效的语音识别框架，其在语音识别过程中不依赖上一时刻的输出，因而具有很快的识别速度，同时保持较高的识别准确率。因此，IPA序列转换模型基于非自回归模型构建，以便在将待识别语音数据对应的特征向量转换为IPA序列的过程中不依赖于前一时刻的输出结果，从而提高了识别速度。

例如，IPA序列转换模型可以是CTC（Connectionist Temporal Classification，连接时序分类）模型，CTC是一种适合不知道输入输出是否对齐的情况时使用的算法。在本公开实施例中可以做如下定义：

对应的输出是

，其中，X代表输入，Y代表对应的输出。在本公开实施例中X代表由Conformer Encoder模型的输出的特征向量，Y代表对应的IPA序列。由于X和Y的长度不是对等的，而CTC是可以解决输入输出对应问题的一种算法。对于一对输入输出（X,Y）来说，CTC的目标是最大化可以由以下公式（4）表示：

（4）

其中，对于Conformer Encoder模型和CTC模型来说，输出是

，t是时序的概念，乘法表示一条路径的所有字符相乘的概率，加法表示多条路径，

代表t时刻CTC模型的输出标签。

本公开实施例中，首先，需要基于音频特征提取模型提取待识别语音数据的特征向量，然后，再将特征向量输入至IPA序列转换模型，以得到对应的IPA序列，由于IPA序列转换模型为基于非自回归模型构建的，因此在IPA序列转换模型中进行转换的过程是并行的过程，即特征向量在IPA序列转换模型中转换为相对应的IPA序列是不依赖于前一时刻的输出结果，从而提高了识别速度。

S103：基于第二模型获取所述IPA序列对应的文本数据。

其中，所述第二模型为基于第二训练样本集训练得到，所述第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系。

本公开实施例中，第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系，基于IPA序列样本与文本数据样本之间一一对应的关系对第二模型进行训练，得到经过训练的第二模型，能够应用于语音识别中。

一种可选的实施方式中，所述第二模型为基于非自回归模型构建。

本公开实施例中，基于第二模型将IPA序列转换为文本数据，其中IPA序列与文本数据的映射关系是一一对应的，即一个输入对应一个输出结果。例如，第二模型可以是基于S102中的Self attention模型构建的模型，其具体公式如上述公式（1）-公式（3）所示，此处不再赘述，其中，V向量是指来自音频特征提取模型的输出结果。

本公开实施例中，第二模型可以被命名为I2T Decoder模型。由于第二模型为基于非自回归模型构建的，并且在第二模型的处理过程中的输入与输出结果是一一对应的关系，因此，基于第二模型将IPA序列转换为文本数据的过程，输出端的结果不依赖于上一时刻的输出结果，从而提高了语音识别速度。

需要说明的是，本公开实施例中的第二模型可以被命名为I2T Decoder模型，也可以被命名为其他模型名称，本公开实施例对于第二模型的名称不做限制。

一种可选的实施方式中，为了提高第二模型的识别准确性，可以将待识别语音数据的特征向量输入至第二模型，以辅助第二模型将所述待识别语音数据对应的IPA序列转换为文本数据。具体的，利用第二模型，结合待识别语音数据的特征向量，将待识别语音数据对应的IPA序列转换为文本数据。

本公开实施例中，将由音频特征提取模型提取的待识别语音数据对应的特征向量以及由IPA序列转换模型得到的待识别语音数据对应的IPA序列，输入至第二模型，利用第二模型，并结合特征向量，将IPA序列转换为文本数据，输出文本数据。由于在利用第二模型将IPA序列转换为文本数据的过程中，结合了待识别语音数据对应的特征向量，而待识别语音数据对应的特征向量携带该待识别语音数据的原始特征，因此本公开实施例能够使得输出的文本数据更加准确，从而提高了语音识别的准确性。

S104：将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果。

本公开实施例中，首先通过第一模型将待识别语音数据转换为对应的IPA系列，然后通过第二模型将IPA序列转换为对应的文本数据，进而将输出的文本数据确定为待识别语音数据对应的识别结果，完成语音识别的过程。

本公开实施例提供的语音识别方法中，首先，获取待识别语音数据，基于第一模型获取待识别语音数据对应的国际音标IPA序列，其中，第一模型为基于第一训练样本集训练得到的，第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；然后，基于第二模型获取IPA序列对应的文本数据，其中，第二模型为基于第二训练样本集训练得到的，第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；进而，将IPA序列对应的文本数据，确定为待识别语音数据对应的识别结果。本公开实施例先通过第一模型将待识别语音数据转换为IPA序列，再通过第二模型将IPA序列转换为文本数据，利用IPA序列作为语音识别的中间数据，使得得到的识别结果更加准确，从而提高了语音识别的准确性。

由于IPA序列转换模型以及第二模型均为基于非自回归模型构建的，非自回归模型的特点是可以并行处理数据，不依赖于上一时刻的输出结果，因此具有处理速度快的优点，但是，也是由于处理过程中不依赖于上一时刻的输出结果，因此可能导致输出结果出现误差。并且，在语音识别技术领域中，对语音数据的识别结果是需要结合上下文来提高准确性的，因此，在确定待识别语音数据对应的识别结果之前，可以对S103中基于第二模型获取的文本数据进行矫正，以提高语音识别的准确性。

一种可选的实施方式中，将所述IPA序列对应的文本数据输入至文本矫正模型；其中，所述文本矫正模型为基于非自回归模型构建；利用所述文本矫正模型，基于所述文本数据的上下文数据，对所述文本数据进行矫正，得到矫正后文本数据；将所述矫正后文本数据，确定为所述待识别语音数据对应的识别结果。

本公开实施例中，文本矫正模型用于对经过第二模型输出的文本数据进行矫正，可以采用Mask的方式，其中，Mask是一种向量替换机制，将小于阈值的向量用统一的向量来表示，替换为统一向量的特征向量即为需要在文本矫正模型中进行矫正的特征向量，而大于阈值的特征向量则不需要经过文本矫正模型进行矫正。利用文本矫正模型对替换为统一向量的特征向量进行矫正后，基于文本数据的上下文数据，得到矫正后的文本数据，并将其确定为待识别语音数据对应的识别结果。例如，待识别语音数据为“好未来NICE”，经过第二模型的处理后，输入待识别语音数据对应的文本数据为“好味来NICE”，经过文本矫正模型的处理后，输出矫正后的文本数据“好未来NICE”，确定为待识别语音数据对应的识别结果。

本公开实施例中，文本矫正模型可以被命名为Transformer Decoder模型。由于文本矫正模型为基于非自回归模型构建的，并且在文本矫正模型的处理过程中的输入与输出结果是一一对应的关系，因此，基于文本矫正模型将矫正前的文本数据转换为矫正后的文本数据的过程，输出端的结果不依赖于上一时刻的输出结果，从而提高了文本矫正的速度，并且提高了语音识别速度。

需要说明的是，本公开实施例中的文本矫正模型可以被命名为TransformerDecoder模型，也可以被命名为其他模型名称，本公开实施例对于文本矫正模型的名称不做限制。

本公开实施例中，文本矫正模型的输入为文本数据，输出也是文本数据，通过文本矫正模型对输入的文本数据进行矫正，输出矫正后的文本数据。在利用文本矫正模型对S104中获取的待识别语音数据对应的识别结果进行矫正之前，可以基于文本-文本数据对，对文本矫正模型进行训练，由于文本-文本数据对具有大量的数据量，因此使得训练后的文本矫正模型在矫正过程中能够更加准确，提高了语音识别的准确性。

为了进一步提高语音识别的准确性，在经过文本矫正模型进行矫正时，在基于文本数据的上下文数据的基础上，还可以基于待识别语音数据对应的音频特征向量对文本数据进行矫正，使得获取的识别结果更加准确。

一种可选的实施方式中，利用所述文本矫正模型，基于所述文本数据的上下文数据和所述待识别语音数据对应的音频特征向量，对所述文本数据进行矫正，得到矫正后文本数据。

本公开实施例中，将第二模型输出的IPA序列对应的文本数据以及IPA序列转换模型输出的待识别语音数据对应的特征向量一并输入至文本矫正模型中，基于文本数据的上下文数据对文本数据进行矫正，得到矫正后文本数据。由于文本数据是经过了多个子模型后输出的结果，因此可能存在误差，但由IPA序列转换模型输出的待识别语音数据对应的特征向量是直接由待识别语音数据转换的，携带该待识别语音数据的原始特征，因此，在文本矫正模型中结合待识别语音数据对应的特征向量对文本数据进行矫正，使得获取的识别结果更加准确，从而提高了语音识别的准确性。

随着全球化的发展，中英文混合成为一种日益普遍的语言现象，中英文混合指的是说话人在一个句子中交替使用中文和英文的现象。目前，对于中英文混合语音识别受限于数据量的规模，中英文混合数据量的缺失可能会导致模型过拟合的现象，从而影响中英文混合语音识别的效果，因此，如何提高中英文混合语音识别的效果，满足人们对于中英文混合语音识别的需求，是目前亟需解决的技术问题。

在上述实施例的基础上，本公开实施例还提供了一种语音识别方法，具体的，所述方法应用于中英文混合语音识别领域，其中，第一模型包括音频特征提取模型和IPA序列转换模型。以音频特征提取模型为Conformer Encoder模型、IPA序列转换模型为CTC模型、第二模型为I2T Decoder模型、文本矫正模型为Transformer Decoder模型为例。参考图2，为本公开实施例提供的另一种语音识别方法的流程图，包括如下步骤：

S201：基于第一训练样本集对第一模型进行初训练。

本公开实施例中，第一训练样本集包括纯中文语音数据样本与IPA序列样本之间的对应关系、纯英文语音数据样本与IPA序列样本之间的对应关系以及中英文混合语音数据样本与IPA序列样本之间的对应关系（例如表2的数据对）。基于第一训练样本集对第一模型进行初训练，分别得到训练后的Conformer Encoder模型以及CTC模型，其中，基于Conformer Encoder模型能够输出语音数据对应的特征向量，基于CTC模型能够输出语音数据的特征向量对应的IPA序列。

本公开实施例中，由于第一训练样本集中包括的纯中文语音数据样本-IPA序列样本数据对以及纯英文语音数据样本-IPA序列样本数据对的数据量是大规模的，因此确保了初训练后的第一模型的准确性。

S202：基于第二训练样本集对第二模型进行初训练。

本公开实施例中，第二训练样本集包括纯中文语音数据样本对应的IPA序列样本与纯中文文本数据之间的对应关系、纯英文语音数据样本对应的IPA序列样本与纯英文文本数据之间的对应关系以及中英文混合语音数据样本对应的IPA序列样本与中英文混合文本数据之间的对应关系。基于第二训练样本集对第二模型进行初训练，得到训练后的I2TDecoder模型，能够用于输出IPA序列对应的文本数据。

本公开实施例中，由于第二训练样本集中包括的纯中文语音数据样本对应的IPA序列样本-纯中文文本数据数据对以及纯英文语音数据样本对应的IPA序列样本-纯英文文本数据数据对的数据量是大规模的，因此确保了初训练后的第二模型的准确性。

S203：基于中英文混合训练样本集，对经过初训练的第一模型和第二模型进行联合训练。

其中，中英文混合训练样本集包括中英文混合语音数据样本与IPA序列样本之间的对应关系以及中英文混合语音数据样本对应的IPA序列样本与中英文混合文本数据之间的对应关系。

本公开实施例中，中英文混合训练样本集中包括的中英文混合语音数据样本-IPA序列样本数据对的数据量是小规模的，将经过初训练的第一模型和第二模型作为一个整体，基于中英文混合训练样本集，向中英文混合语音识别模型中输入中英文混合语音数据样本，输出的是中英文混合语音数据样本对应的中英文混合文本数据。

本公开实施例中，将经过初训练的第一模型和第二模型作为初始化参数，基于中英文混合训练样本集对模型进行联合训练，使得中英文混合语音识别模型对于中英文混合语音数据的识别更加准确，由于第一模型和第二模型已经基于较大规模的训练样本完成初训练，因此即使中英文混合语音数据样本-中英文混合文本数据对的规模较小，也不会限制经过训练后的第一模型和第二模型的识别准确性。

值得注意的是，由于第一训练样本集、第二训练样本集、中英文混合训练样本集均可能存在周期性更新的机制，因此，在各个训练样本集存在更新后，可以触发对第一模型和第二模型新一轮的训练，以提高模型识别准确性。

S204：获取待识别中英文混合语音数据。

本公开实施例中，例如，获取的待识别中英文混合语音数据为中英文混合语音数据“好未来NICE”。

S205：基于第一模型获取待识别中英文混合语音数据对应的国际音标IPA序列。

本公开实施例中，第一模型包括Conformer Encoder模型和CTC模型，其中，CTC模型是基于非自回归模型构建的。将待识别中英文混合语音数据输入至Conformer Encoder模型，经过Conformer Encoder模型处理后，输出待识别中英文混合语音数据对应的特征向量，然后，将对应的特征向量输入至CTC模型，经过CTC模型的处理，将特征向量转换为IPA序列，输出待识别中英文混合语音数据对应的IPA序列。例如，参照上述表2中的中英文数据-IPA序列的对应关系，输出的IPA序列为“h au_3 w ei_4 l ai_2 n ai s”。

如图3所示，为本公开实施例提供的一种语音识别模型的示意图，其中，箭头表示数据的走向与串行顺序。为了提高后面第二模型与文本矫正模型的识别准确性，可以将Conformer Encoder模型输出的待识别中英文混合语音数据的特征向量输入至第二模型与文本矫正模型中，以辅助数据在模型中的处理，由于待识别中英文混合语音数据的特征向量携带该待识别中英文混合语音数据的原始特征，因此本公开实施例能够使得输出的文本数据更加准确，从而提高了语音识别的准确性。

S206：基于第二模型获取IPA序列对应的文本数据。

本公开实施例中，第二模型为I2T Decoder模型，是基于非自回归模型构建的。将S205中Conformer Encoder模型输出的待识别中英文混合语音数据的特征向量以及CTC模型输出的IPA序列一并输入至I2T Decoder模型（参考图3中的箭头走向），经过第二模型处理后，输出IPA序列对应的中英文混合文本数据。

S207：将IPA序列对应的文本数据输入至文本矫正模型，基于中英混合文本数据的上下文数据和待识别中英文混合语音数据对应的音频特征向量，对中英混合文本数据进行矫正，得到矫正后中英混合文本数据。

本公开实施例中，文本矫正模型为Transformer Decoder模型，是基于非自回归模型构建的。将S206中输出的中英文混合文本数据以及S205中Conformer Encoder模型输出的待识别中英文混合语音数据的特征向量一并输入至Transformer Decoder模型（参考图3中的箭头走向），经过文本矫正模型的处理，对中英混合文本数据进行矫正，输出矫正后中英混合文本数据。

S208：将矫正后的中英混合文本数据，确定为待识别中英混合语音数据对应的识别结果。

本公开实施例中，将矫正后的中英混合文本数据，确定为待识别中英混合语音数据对应的识别结果，完成中英文混合语音识别的过程。

本公开实施例提供了一种语音识别方法，该方法应用于中英文混合语音识别领域，首先，基于第一训练样本集对第一模型进行初训练以及基于第二训练样本集对第二模型进行初训练；然后，基于中英文混合训练样本集，对经过初训练的第一模型和第二模型进行联合训练；进而，基于第一模型获取待识别中英文混合语音数据对应的国际音标IPA序列，并且基于第二模型获取IPA序列对应的文本数据，再将IPA序列对应的文本数据输入至文本矫正模型，结合待识别中英文混合语音数据对应的音频特征向量，对中英文混合文本数据进行矫正，得到待识别中英混合语音数据对应的识别结果。

可见，本公开实施例中首先基于大规模数据量的纯中文语音数据-文本数据对以及纯英文语音数据-文本数据对进行模型初训练，再基于小规模数据量的中英文混合语音数据-文本数据对进行模型联合训练，使得训练后的中英文混合语音识别模型在保证准确性的基础上，不受小规模数据量的限制，从而提高了中英文混合语音识别的效果，满足了人们对于中英文混合语音识别的需求。

基于上述方法实施例，本公开还提供了一种语音识别装置，参考图4，示出了根据本公开示例性实施例的语音识别装置的示意性框图，所述装置400包括：

第一获取模块401，用于获取待识别语音数据；

第二获取模块402，用于基于第一模型获取所述待识别语音数据对应的国际音标IPA序列；其中，第一模型为基于第一训练样本集训练得到，所述第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；

第三获取模块403，用于基于第二模型获取所述IPA序列对应的文本数据；其中，所述第二模型为基于第二训练样本集训练得到，所述第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；

确定模块404，用于将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果。

一种可选的实施方式中，所述第一模型包括音频特征提取模型和IPA序列转换模型，所述IPA序列转换模型为基于非自回归模型构建；

所述第二获取模块402包括：

提取子模块，用于将所述待识别语音数据输入至所述音频特征提取模型后，由所述音频特征提取模型提取所述待识别语音数据的特征向量；

第一转换子模块，用于将所述待识别语音数据的特征向量输入至所述IPA序列转换模型后，由所述IPA序列转换模型将所述特征向量转换为IPA序列。

一种可选的实施方式中，所述第三获取模块403包括：

输入子模块，用于将所述待识别语音数据对应的IPA序列和所述待识别语音数据的特征向量输入至第二模型；

第二转换子模块，用于利用所述第二模型，结合所述特征向量，将所述IPA序列转换为文本数据。

一种可选的实施方式中，所述装置还包括：

输入模块，用于将所述IPA序列对应的文本数据输入至文本矫正模型；其中，所述文本矫正模型为基于非自回归模型构建；

矫正模块，用于利用所述文本矫正模型，基于所述文本数据的上下文数据，对所述文本数据进行矫正，得到矫正后文本数据；

相应的，所述确定模块404包括：

确定子模块，用于将所述矫正后文本数据，确定为所述待识别语音数据对应的识别结果。

一种可选的实施方式中，所述矫正模块包括：

矫正子模块，用于利用所述文本矫正模型，基于所述文本数据的上下文数据和所述待识别语音数据对应的音频特征向量，对所述文本数据进行矫正，得到矫正后文本数据。

一种可选的实施方式中，所述装置应用于中英文混合语音识别领域，所述装置还包括：

第一训练模块，用于基于所述第一训练样本集对所述第一模型进行初训练；

以及，

第二训练模块，用于基于所述第二训练样本集对所述第二模型进行初训练；

第三训练模块，用于基于中英文混合训练样本集，对经过所述初训练的所述第一模型和所述第二模型进行联合训练；其中，所述中英文混合训练样本集包括中英文混合语音数据样本与IPA序列样本之间的对应关系。

本公开实施例提供了一种语音识别装置，首先，获取待识别语音数据，基于第一模型获取待识别语音数据对应的国际音标IPA序列，其中，第一模型为基于第一训练样本集训练得到的，第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；然后，基于第二模型获取IPA序列对应的文本数据，其中，第二模型为基于第二训练样本集训练得到的，第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；进而，将IPA序列对应的文本数据，确定为待识别语音数据对应的识别结果。本公开实施例先通过第一模型将待识别语音数据转换为IPA序列，再通过第二模型将IPA序列转换为文本数据，利用IPA序列作为语音识别的中间数据，使得得到的识别结果更加准确，从而提高了语音识别的准确性。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图5，现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器（ROM）502中的计算机程序或者从存储单元505加载到随机访问存储器（RAM）503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506、输出单元507、存储单元505以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备，输入单元506可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元504可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如，在一些实施例中，方法S101~S104可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元505。在一些实施例中，计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法S101~S104。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音数据；

基于第一模型获取所述待识别语音数据对应的国际音标IPA序列；其中，第一模型为基于第一训练样本集训练得到，所述第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；所述第一模型包括音频特征提取模型和IPA序列转换模型，所述IPA序列转换模型为基于非自回归模型构建；

基于第二模型获取所述IPA序列对应的文本数据；其中，所述第二模型为基于第二训练样本集训练得到，所述第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；所述第二模型的输入为所述IPA序列以及所述待识别语音数据的特征向量；

将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果；

所述基于第一模型获取所述待识别语音数据对应的国际音标IPA序列，包括：

将所述待识别语音数据输入至所述音频特征提取模型后，由所述音频特征提取模型提取所述待识别语音数据的特征向量；

将所述待识别语音数据的特征向量输入至所述IPA序列转换模型后，由所述IPA序列转换模型将所述特征向量转换为IPA序列。

2.根据权利要求1所述的方法，其特征在于，所述第二模型为基于非自回归模型构建。

3.根据权利要求1所述的方法，其特征在于，所述基于第二模型获取所述IPA序列对应的文本数据，包括：

将所述待识别语音数据对应的IPA序列和所述待识别语音数据的特征向量输入至第二模型；

利用所述第二模型，结合所述特征向量，将所述IPA序列转换为文本数据。

4.根据权利要求1所述的方法，其特征在于，所述将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果之前，还包括：

将所述IPA序列对应的文本数据输入至文本矫正模型；其中，所述文本矫正模型为基于非自回归模型构建；

利用所述文本矫正模型，基于所述文本数据的上下文数据，对所述文本数据进行矫正，得到矫正后文本数据；

相应的，所述将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果，包括：

将所述矫正后文本数据，确定为所述待识别语音数据对应的识别结果。

5.根据权利要求4所述的方法，其特征在于，所述利用所述文本矫正模型，基于所述文本数据的上下文数据，对所述文本数据进行矫正，得到矫正后文本数据，包括：

利用所述文本矫正模型，基于所述文本数据的上下文数据和所述待识别语音数据对应的特征向量，对所述文本数据进行矫正，得到矫正后文本数据。

6.根据权利要求1所述的方法，其特征在于，所述方法应用于中英文混合语音识别领域，所述基于第一模型获取所述待识别语音数据对应的国际音标IPA序列之前，还包括：

基于所述第一训练样本集对所述第一模型进行初训练；

以及，基于所述第二训练样本集对所述第二模型进行初训练；

基于中英文混合训练样本集，对经过所述初训练的所述第一模型和所述第二模型进行联合训练；其中，所述中英文混合训练样本集包括中英文混合语音数据样本与IPA序列样本之间的对应关系。

7.一种语音识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别语音数据；

第二获取模块，用于基于第一模型获取所述待识别语音数据对应的国际音标IPA序列；其中，第一模型为基于第一训练样本集训练得到，所述第一训练样本集包括语音数据样本与IPA序列样本之间的对应关系；所述第一模型包括音频特征提取模型和IPA序列转换模型，所述IPA序列转换模型为基于非自回归模型构建；

第三获取模块，用于基于第二模型获取所述IPA序列对应的文本数据；其中，所述第二模型为基于第二训练样本集训练得到，所述第二训练样本集包括IPA序列样本与文本数据样本之间的对应关系；所述第二模型的输入为所述IPA序列以及所述待识别语音数据的特征向量；

确定模块，用于将所述IPA序列对应的文本数据，确定为所述待识别语音数据对应的识别结果；

所述第二获取模块，包括：

8.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。