CN112259089B

CN112259089B - 语音识别方法及装置

Info

Publication number: CN112259089B
Application number: CN201910600104.9A
Authority: CN
Inventors: 陈梦喆; 雷鸣; 高杰; 李威; 姚海涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2024-07-02
Anticipated expiration: 2039-07-04
Also published as: CN112259089A

Abstract

本申请实施例提供了一种语音识别方法及装置，涉及人工智能领域。其中,所述方法包括：获取第一音频样本的音频数据帧与第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；基于第一强制对齐结果，确定第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；基于音素标注数据，对待训练的唤醒声学模型进行训练，其中，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。通过本申请实施例，使得训练后的唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。

Description

语音识别方法及装置

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种语音识别方法及装置。

背景技术

语音唤醒技术是指用户说出包含唤醒词的语音指令时，电子设备从休眠状态切换到工作状态，以给出指定响应。该技术广泛地应用于各类语音控制的产品中，比如机器人、手机、可穿戴设备、智能家居、车载等。一般来说，这些产品都需要支持在有网络和无网络两种环境中工作，而语音唤醒作为语音交互的第一步，必定是要求在无网络的情况下也能正常工作，这就需要利用设备端的存储资源和计算资源。设备端的计算资源通常十分有限，无论是cpu核数目、内存大小还是核心频率都远小于普通使用的电脑，更无法比拟云端服务器。在无网络的情况下，这点有限的计算资源除了分配给语音唤醒以外，还要承担信号处理、语音识别、语义理解等工作，因此，语音唤醒作为高频使用的部分需要尽可能减小计算资源的使用。

在保证计算资源够用的前提下，语音唤醒的性能自然是重中之重。由于唤醒词几乎没有上下文信息，因此，对是否唤醒电子设备的判断完全依赖于唤醒声学模型。为了追求更高的召回率和更低的误唤醒率，在唤醒声学建模上，会采用规模更大、数据表达能力更强的模型结构。同时，语音唤醒对于实时率以及时延有着很高的要求，这决定了产品对于用户发出包含唤醒词的语音指令后的反馈速度，而唤醒声学模型的计算量直接影响着语音唤醒的性能。可以看出，唤醒声学模型的计算量与唤醒声学模型的语音唤醒性能是存在一定矛盾的，在语音唤醒技术中，唤醒声学模型建模既要保证良好的语音唤醒性能，又要尽可能地减小设备端计算资源的使用成为一大问题。

在现有技术中，采用基于神经网络的唤醒声学模型进行建模。该建模方式在一定程度上提升了唤醒声学模型的语音唤醒性能，然而，唤醒声学模型对于设备端计算资源的使用还是没有达到要求。具体地，在设备端能够支撑的唤醒声学模型中，会严格控制节点数和层数，而唤醒声学模型的输出层的计算量常常占整个神经网络的前向计算量的很大比例，甚至是占据主导地位。由此可见，在兼顾唤醒声学模型的语音唤醒性能的同时，如何有效降低唤醒声学模型对设备端的计算资源的使用成为当前亟待解决的技术问题。

发明内容

本申请的目的在于提出一种语音识别方法及装置，用于解决现有技术中存在的在兼顾唤醒声学模型的语音唤醒性能的同时，如何有效降低唤醒声学模型对设备端的计算资源的使用的技术问题。

根据本申请实施例的第一方面，提供了一种语音识别方法。所述方法包括：获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

根据本申请实施例的第二方面，提供了一种语音识别装置。所述装置包括：第一获取模块，用于获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；第一确定模块，用于基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；第一训练模块，用于基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

根据本申请实施例的第三方面，提供了一种语音识别***。所述***包括：音频采集装置，用于采集待识别的音频数据；唤醒词识别装置，与所述音频采集装置连接，用于通过唤醒声学模型，对所述待识别的音频数据进行唤醒词识别，以获得所述音频数据的唤醒词识别结果，其中，所述唤醒词识别装置，具体用于：通过所述唤醒声学模型的输入层，对所述音频数据的当前音频数据帧、所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；通过所述唤醒声学模型的隐含层，对所述拼接后的声学特征数据进行特征提取操作，以获得所述拼接后的声学特征数据对应的特征表征数据；通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

根据本申请实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例的第一方面所述的语音识别方法。

根据本申请实施例的第五方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例的第一方面所述的语音识别方法。

根据本申请实施例提供的技术方案，获取第一音频样本的音频数据帧与第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果，并基于第一强制对齐结果，确定第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据，再基于音素标注数据，对待训练的唤醒声学模型进行训练，其中，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，与现有的其它方式相比，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，并且基于音频样本的音频数据帧与音频样本对应的文本标注数据的上下文相关音素的强制对齐结果确定的音频数据帧的音素标注数据，对待训练的唤醒声学模型进行训练，能够使得训练后的唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1A为现有技术中的唤醒声学模型进行建模的示意图；

图1B为本申请实施例一中语音识别方法的步骤流程图；

图1C为根据本申请实施例一提供的唤醒声学模型进行建模的示意图；

图2A为本申请实施例二中语音识别方法的步骤流程图；

图2B为根据本申请实施例二提供的唤醒声学模型的训练过程的示意图；

图3为本申请实施例三中语音识别装置的结构示意图；

图4为本申请实施例四中语音识别装置的结构示意图；

图5为本申请实施例五中语音识别装置的结构示意图；

图6为本申请实施例六中电子设备的结构示意图；

图7为本申请实施例七中电子设备的硬件结构。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1A为现有技术中的唤醒声学模型进行建模的示意图。如图1A所示，现有的唤醒声学模型包括输入层、隐含层和输出层。输出层的建模单元均为统一建模单元，也即是与唤醒词相关的部分和与唤醒词无关的部分采用相同的建模单元。具体来说，所述统一建模单元可包括以上下文无关音素进行建模的建模单元、以上下文相关音素进行建模的建模单元和以词进行建模的建模单元。其中，以上下文无关音素进行建模的建模单元可理解为以上下文无关音素为建模单元，以上下文相关音素进行建模的建模单元可理解为以上下文相关音素为建模单元，以词进行建模的建模单元可理解为以词为建模单元，所述上下文无关音素即为单音素，所述上下文相关音素即为三音素。当输出层的建模单元均为统一建模单元时，输出层的输出节点的具体含义可由以下公式(1)和(2)来进行表示：

其中，i表示输出层的输出节点的编号，表示当向唤醒声学模型的输入层输入音频数据帧的声学特征数据X_t时唤醒声学模型的输出层的输出节点i输出音频数据帧对应相关音素的后验概率。

当所述统一建模单元为以上下文无关音素进行建模的建模单元时，输出层的输出节点较少，一般在100个左右，因此输出层的计算量较小。但是，由于以上下文无关音素进行建模的建模颗粒度较大，对于唤醒词的建模不够细致，常常达不到最优的语音唤醒性能。

为了取得更好的语音唤醒性能，可在上下文无关音素进行建模的基础上对建模单元进一步细化，可获得以上下文相关音素进行建模的建模单元。该建模方式在语音识别中广泛应用，也被证明了比上下文无关音素建模有更好的语音唤醒性能。但是，该建模方式的缺点是导致输出层的输出节点数量较多，一般在1000个左右，输出层的计算量相对上下文无关音素的建模方式大大增加，在计算资源较为有限的设备端应用较为困难。

当然，也可直接采用词作为建模单元。在该建模方式下，输出层的输出节点只有个位数，分别为唤醒词节点和非唤醒词节点。其最大好处是输出层的计算量小，但是同上下文无关音素建模方式一样，建模颗粒度大，因此通常需要丰富的唤醒词相关数据才能训练好唤醒声学模型，这对于没有长期数据积累的产品是个很难达到的要求。同时，其输出节点的训练数据会有严重的不平衡问题(非唤醒词数据会远大于唤醒词数据的量)，这一方面依然是需要大量的唤醒词数据，另一方面也对训练过程本身稳定性带来挑战。

由此可见，输出层的输出节点的数量(输出层的计算量)与输出层的建模单元有关。基于此，本申请实施例提出一种语音识别方法，能够使得训练后的唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。

参照图1B，示出了本申请实施例一中语音识别方法的步骤流程图。

具体地，本实施例提供的语音识别方法包括以下步骤：

在步骤S101中，获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果。

在本实施例中，所述第一音频样本对应的文本标注数据可理解为以所述第一音频样本的文本内容进行标注的数据。音素是提据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。其中，英语的音素可以分为元音和辅音两大类。例如，英语包括48个音素，其中包括/i：/、/I/和/e/等20个元音音素，以及/p/、/t/、/k/、和/f/等28个辅音音素。所述上下文相关音素即为三音素，由三个单音素组成，与单音素类似，但其考虑了上下文的关系。具体地，所述三音素是指当前音素以及当前音素的左半和右半连接音素，三音素用于描述特定环境中更加多样化的上下文。所述第一强制对齐结果可理解为第一音频样本的音频数据帧与第一音频样本对应的文本标注数据的上下文相关音素的对应关系。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，可利用隐马尔科夫模型(HMM，Hidden Markov Model)、深度神经网络-隐马尔科夫模型(DNN-HMM，Deep Neural Network-Hidden Markov Model)，或者高斯混合模型-隐马尔科夫模型(GMM-HMM，Gaussian Mixture Model-Hidden MarkovModel)，获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果。具体地，对第一音频样本进行预处理，提取第一音频样本中每个音频数据帧的声学特征数据，形成声学特征序列；将声学特征序列与第一音频样本对应的文本标注数据的上下文相关音素进行强制对齐，生成第一强制对齐结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，声学特征数据为可以区分语音的有效信息，例如时域分辨率、或者频域分辨率等。具体地，声学特征数据可以包括梅尔频率倒谱系数(MFCC，MelFrequency Cepstral Coefficient)、或者线性预测倒谱系数(LPCC，Linear PredictionCepstral Coefficient)等。其中，MFCC特征是基于人耳特性提取出来的声学特征，MFCC特征与频率成非线性对应关系，基于该非线性对应关系，可以计算得到音频的频谱特征。形成声学特征序列可以有多种方法。以提取梅尔频率倒普系数(MFCC，Mel Frequency CepstralCoefficient)作为声学特征为例，提取第一音频样本的MFCC特征序列的步骤可以包括：采用预加重(Pre-emphasis)技术平衡第一音频样本的高低频分量；对第一音频样本进行采样，将第一音频样本划分为多个音频数据帧；将每个音频数据帧乘以汉明窗，以增加音频数据帧左端和右端的连续性并将音频数据帧的时域信号通过离散傅里叶变换(DFT，DiscreteFourier Transform)转换到频域信号；使用梅尔滤波器将频域信号进行平滑化处理并消除谐波的作用；将经过梅尔滤波器滤波后的频域信号的M个能量值取对数之后，生成M维的特征向量；再对M维的特征向量做离散余弦变换(DCT，Discrete Cosine Transform)，得到每个音频数据帧的MFCC特征；根据第一音频样本的所有音频数据帧的MFCC特征，形成第一音频样本的MFCC特征序列，即声学特征序列。需要说明的是，本实施例中也可以采用其它声学特征，例如线性预测倒谱系数(LPCC，Linear Prediction Cepstral Coefficient)等等，提取其它声学特征的方法可采用本领域的通用方法，在此就不再赘述。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，以HMM模型为例，将声学特征序列与第一音频样本对应的文本标注数据的上下文相关音素进行强制对齐，也就是利用HMM模型可以将声学特征序列和文本标注数据的上下文相关音素进行强制对齐，从而获得声学特征序列中与文本标注数据的各个上下文相关音素对应的声学特征数据以及各个上下文相关音素对应的音频数据帧。其中，与每个上下文相关音素对应的音频数据帧可以有多个，各个上下文相关音素对应的音频数据帧的个数可以是不同的。并且，利用HMM模型将声学特征序列和文本标注数据的上下文相关音素进行强制对齐时，可以将声学特征序列的停顿音或者环境噪音等进行过滤，仅保留与文本标注数据的上下文相关音素对应的音频数据帧。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在步骤S102中，基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据。

在本申请实施例中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。其中，所述唤醒词相关输出部分为采用上下文相关音素进行建模的建模单元，所述唤醒词无关输出部分为采用上下文无关音素进行建模的建模单元。具体地，所述采用上下文相关音素进行建模的建模单元可理解为以上下文相关音素为建模单元，所述采用上下文无关音素进行建模的建模单元可理解为以上下文无关音素为建模单元。如图1C所示，本申请实施例提供的唤醒声学模型包括输入层、隐含层和输出层。输出层的建模单元为混合建模单元，也即是对与唤醒词相关的部分和与唤醒词无关的部分分别采用不同的建模单元。更具体地，唤醒词相关部分采用上下文相关音素作为建模单元，唤醒词无关部分采用上下文无关音素作为建模单元。当输出层的建模单元为混合建模单元时，输出层的输出节点的具体含义可由以下公式(3)-(5)来进行表示：

其中，nw_i表示输出层中与唤醒词无关的输出节点，w_j表示输出层中与唤醒词相关的输出节点，表示当向唤醒声学模型的输入层输入音频数据帧的声学特征数据X_t时唤醒声学模型的输出层的输出节点nw_i输出音频数据帧对应上下文无关音素的后验概率，表示当向唤醒声学模型的输入层输入音频数据帧的声学特征数据X_t时唤醒声学模型的输出层的输出节点w_j输出音频数据帧对应上下文相关音素的后验概率，i表示输出层中与唤醒词无关的输出节点的编号，j表示输出层中与唤醒词相关的输出节点的编号。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，所述第一强制对齐结果包括所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素。在基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据时，如果所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素为与所述唤醒词相关的上下文相关音素，则确定所述第一音频样本的音频数据帧关于待训练的所述唤醒声学模型的音素标注数据为所述上下文相关音素；如果所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素为与所述唤醒词无关的上下文相关音素，则确定所述第一音频样本的音频数据帧关于待训练的所述唤醒声学模型的音素标注数据为所述上下文相关音素的中间音素。籍此，可通过判断音频数据帧对应的上下文相关音素与唤醒词相关的上下文相关音素是否相同来确定音频数据帧的音素标注数据，进而可使得基于该音素标注数据训练得到的唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在步骤S103中，基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练。

在一些可选实施例中，在基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练时，通过待训练的所述唤醒声学模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素和上下文无关音素的后验概率；基于所述音素标注数据和所述后验概率，对待训练的所述唤醒声学模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在通过待训练的所述唤醒声学模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素和上下文无关音素的后验概率时，通过所述唤醒声学模型的输入层，对所述第一音频样本的当前音频数据帧和所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；通过所述唤醒声学模型的隐含层，对所述拼接后的声学特征数据进行特征提取操作，以获得所述拼接后的声学特征数据对应的特征表征数据；通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率。其中，声学特征数据的获取方式与上文类似，在此不再赘述。预设帧数可由本领域技术人员根据实际需要进行设定，本申请实施例对此不做任何限定。

在一个具体的例子中，在基于所述音素标注数据和所述后验概率，对待训练的所述唤醒声学模型进行训练时，通过目标损失函数，确定所述音素标注数据与所述后验概率之间的差异值；基于所述差异值，调整所述唤醒声学模型的参数。其中，所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述唤醒声学模型的参数时，可采用反向传播算法，或者随机梯度下降算法来调整所述唤醒声学模型的参数。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，通过确定所述音素标注数据与所述后验概率之间的差异值，对当前获得的后验概率进行评估，以作为后续训练所述唤醒声学模型的依据。具体地，可将所述差异值反向传输给所述唤醒声学模型，从而迭代地训练所述唤醒声学模型。所述唤醒声学模型的训练是一个迭代的过程，本申请实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对所述唤醒声学模型的每次训练都可采用该训练方式，直至完成所述唤醒声学模型的训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

通过本申请实施例提供的语音识别方法，获取第一音频样本的音频数据帧与第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果，并基于第一强制对齐结果，确定第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据，再基于音素标注数据，对待训练的唤醒声学模型进行训练，其中，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，与现有的其它方式相比，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，并且基于音频样本的音频数据帧与音频样本对应的文本标注数据的上下文相关音素的强制对齐结果确定的音频数据帧的音素标注数据，对待训练的唤醒声学模型进行训练，能够使得训练后的唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。

本实施例的语音识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

参照图2A，示出了本申请实施例二的语音识别方法的步骤流程图。

具体地，本实施例提供的语音识别方法包括以下步骤：

在步骤S201中，获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果。

在一些可选实施例中，所述获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果之前，所述方法还包括：基于第二音频样本，对待训练的高斯混合模型-隐马尔科夫模型进行训练；所述获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果，包括：通过训练后的所述高斯混合模型-隐马尔科夫模型，获取所述第一强制对齐结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在通过训练后的所述高斯混合模型-隐马尔科夫模型，获取所述第一强制对齐结果时，通过训练后的所述高斯混合模型-隐马尔科夫模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素的后验概率；基于所述后验概率，获取所述第一强制对齐结果。具体地，在获取所述第一音频样本的音频数据帧对应的上下文相关音素的后验概率时，通过训练后的所述高斯混合模型-隐马尔科夫模型，基于所述第一音频样本的当前音频数据帧和所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数，获取所述第一音频样本的当前音频数据帧对应的上下文相关音素的后验概率。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，所述高斯混合模型-隐马尔科夫模型包括三音素高斯混合模型-隐马尔科夫模型。在基于第二音频样本，对待训练的高斯混合模型-隐马尔科夫模型进行训练时，基于所述第二音频样本的音频数据帧的声学特征数据，对待训练的单音素高斯混合模型-隐马尔科夫模型进行训练；通过训练后的所述单音素高斯混合模型-隐马尔科夫模型，对所述第二音频样本的音频数据帧与所述第二音频样本对应的文本标注数据的单音素进行强制对齐，以获得所述第二音频样本的音素特征序列；基于所述音素特征序列和所述声学特征数据，对待训练的三音素高斯混合模型-隐马尔科夫模型进行训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在基于所述第二音频样本的音频数据帧的声学特征数据，对待训练的单音素高斯混合模型-隐马尔科夫模型进行训练时，基于所述声学特征数据，获取待训练的所述单音素高斯混合模型-隐马尔科夫模型的均值和方差；基于待训练的所述单音素高斯混合模型-隐马尔科夫模型，获取所述声学特征数据对应的单音素标注数据；基于所述声学特征数据和所述单音素标注数据，对待训练的所述单音素高斯混合模型-隐马尔科夫模型进行迭代训练，以获得训练后的所述单音素高斯混合模型-隐马尔科夫模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在单音素GMM-HMM模型的初次迭代过程中，通过对少量的声学特征数据进行粗略计算，以获取待训练的单音素GMM-HMM模型的均值和方差。然后，基于待训练的单音素GMM-HMM模型，获取声学特征数据对应的单音素标注数据，即将声学特征数据对应的词通过发音词典替换为音素表达，以获取对应的单音素标注数据，由于只针对每一词发音，因此称为单音素。在多次迭代过程中，每次迭代均需基于声学特征数据和上一次迭代中获取到的单音素标注数据进行训练，以获得训练后的单音素GMM-HMM模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在通过训练后的所述单音素高斯混合模型-隐马尔科夫模型，对所述第二音频样本的音频数据帧与所述第二音频样本对应的文本标注数据的单音素进行强制对齐时，对照文本标注数据(ground truth)，以识别每个词的正确发音，保存为对应的目标单音素标注数据，并按照音素的起止时间进行对齐处理。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在基于所述音素特征序列和所述声学特征数据，对待训练的三音素高斯混合模型-隐马尔科夫模型进行训练时，基于所述音素特征序列中的单音素特征数据，获取三音素标注数据；将所述三音素标注数据输入训练后的所述单音素高斯混合模型-隐马尔科夫模型，以获取原始的所述三音素高斯混合模型-隐马尔科夫模型；对原始的所述三音素高斯混合模型-隐马尔科夫模型中的三音素标注数据进行聚类，以获取待训练的所述三音素高斯混合模型-隐马尔科夫模型；基于所述音素特征序列和所述声学特征数据，对待训练的所述三音素高斯混合模型-隐马尔科夫模型进行迭代训练，以获取训练后的所述三音素高斯混合模型-隐马尔科夫模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在三音素GMM-HMM模型的初次迭代过程中，通过将音素特征序列的少量目标单音素特征的每个音素加上其上下文，以获取三音素标注数据。然后，将所述三音素标注数据输入训练后的所述单音素高斯混合模型-隐马尔科夫模型，以获取原始的所述三音素高斯混合模型-隐马尔科夫模型)，以使原始三音素GMM-HMM模型可基于三音素进行训练，提高训练的准确率。再然后，采用决策树算法将原始三音素GMM-HMM模型中发音相近的三音素标注数据聚成一类，以获取聚类三音素混合高斯模型-隐马尔科夫模型，以提高训练后的模型进行语音识别的效率和准确率。在多次迭代过程中，每次迭代均需依据声学特征数据和上一次迭代中获取到的三音素标注数据进行训练，获得训练后的三音素GMM-HMM模型。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，所述方法还包括：通过训练后的所述高斯混合模型-隐马尔科夫模型，获取第三音频样本的音频数据帧与所述第三音频样本对应的文本标注数据的上下文相关音素的第二强制对齐结果；基于所述第二强制对齐结果，对待训练的语音识别模型进行训练；通过训练后的所述语音识别模型，获取所述第一强制对齐结果。其中，所述语音识别模型具体为深度神经网络模型。获取第二强制对齐结果的具体实施方式与获取第一强制对齐结果的具体实施方式相同，在此不再赘述。籍此，通过训练后的语音识别模型，获取第一强制对齐结果，能够提高第一强制对齐结果的准确度。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在基于所述第二强制对齐结果，对待训练的语音识别模型进行训练时，通过待训练的所述语音识别模型，基于所述第三音频样本的音频数据帧的声学特征数据，获取所述第三音频样本的音频数据帧对应的上下文相关音素的后验概率；基于所述第二强制对齐结果和所述后验概率，对待训练的所述语音识别模型进行训练。其中，在获取所述第三音频样本的音频数据帧对应的上下文相关音素的后验概率时，通过待训练的所述语音识别模型，基于所述第三音频样本的当前音频数据帧和所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数，获取所述第三音频样本的当前音频数据帧对应的上下文相关音素的后验概率。在基于所述第二强制对齐结果和所述后验概率，对待训练的所述语音识别模型进行训练时，通过目标损失函数，确定所述第二强制对齐结果与所述后验概率之间的差异值；基于所述差异值，调整所述语音识别模型的参数。其中，所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述语音识别模型的参数时，可采用反向传播算法，或者随机梯度下降算法来调整所述语音识别模型的参数。具体地，通过确定所述第二强制对齐结果与所述后验概率之间的差异值，对当前获得的后验概率进行评估，以作为后续训练所述语音识别模型的依据。具体地，可将所述差异值反向传输给所述语音识别模型，从而迭代地训练所述语音识别模型。所述语音识别模型的训练是一个迭代的过程，本申请实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对所述语音识别模型的每次训练都可采用该训练方式，直至完成所述语音识别模型的训练。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，在通过训练后的所述语音识别模型，获取所述第一强制对齐结果时，通过训练后的所述语音识别模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素的后验概率；基于所述后验概率，获取所述第一强制对齐结果。其中，在获取所述第一音频样本的音频数据帧对应的上下文相关音素的后验概率时，通过训练后的所述语音识别模型，基于所述第一音频样本的当前音频数据帧和所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数，获取所述第一音频样本的当前音频数据帧对应的上下文相关音素的后验概率。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在步骤S202中，基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据。

由于该步骤S202与上述步骤S102类似，在此不再赘述。

在步骤S203中，基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练。

由于该步骤S203与上述步骤S103类似，在此不再赘述。

在步骤S204中，通过训练后的所述唤醒声学模型，对待识别的音频数据进行唤醒词识别，以获得所述音频数据的唤醒词识别结果。

在本实施例中，所述唤醒词识别结果包括所述音频数据的当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，在通过训练后的所述唤醒声学模型，对待识别的音频数据进行唤醒词识别时，通过所述唤醒声学模型的输入层，对当前音频数据帧、所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；通过所述唤醒声学模型的隐含层，对所述拼接后的声学特征数据进行特征提取操作，以获得所述拼接后的声学特征数据对应的特征表征数据；通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，如图2B所示，首先使用第二音频样本进行三音素(上下文相关音素)的隐马尔科夫模型-混合高斯模型的训练。在训练完之后，通过训练后的三音素隐马尔科夫模型-混合高斯模型，获取用于训练DNN模型(语音识别模型)第三音频样本的音频数据帧与第三音频样本对应的文本标注数据的上下文相关音素的第二强制对齐结果。然后，基于第二强制对齐结果，对DNN模型进行训练。在训练完之后，通过训练后的DNN模型，获取用于训练唤醒声学模型第一音频样本的音频数据帧与第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果，也即是上下文相关音素的帧级别标注信息。然后，基于第一强制对齐结果，确定第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据。具体地，如果帧级别标注信息为与唤醒词相关的上下文相关音素，则将帧级别标注信息作为音素标注信息。如果帧级别标注信息为与唤醒词无关的上下文相关音素，则取帧级别标注信息中上下文相关音素的中间音素作为音素标注信息。然后，基于第一音频样本的音频数据帧的声学特征数据X_t和音素标注信息，对唤醒声学模型的输入层、隐含层和输出层进行训练。其中，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

现有的技术方案均采用统一建模单元，无法综合各种建模单元的优势，无法在性能以及计算量上达到统一。本申请实施例采用混合建模单元的唤醒声学模型，以对唤醒词无关的音素采用上下文无关音素建模和对唤醒词相关的音素采用上下文相关音素建模为例，能够有效利用上下文相关音素建模在模型性能上的优势；同时将输出层的输出节点的数量控制在100个左右，有效控制了唤醒声学模型的规模和计算量；并且对于产品初期数据不足的情况有较好适应性。总而言之，采用混合建模单元进行唤醒声学模型的建模，有效利用不同的建模单元的不同优势，获得计算量和性能上的多重优势。

通过本申请实施例提供的语音识别方法，获取第一音频样本的音频数据帧与第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果，并基于第一强制对齐结果，确定第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据，再基于音素标注数据，对待训练的唤醒声学模型进行训练，其中，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，再通过训练后的唤醒声学模型，对待识别的音频数据进行唤醒词识别，以获得音频数据的唤醒词识别结果，与现有的其它方式相比，唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，并且基于音频样本的音频数据帧与音频样本对应的文本标注数据的上下文相关音素的强制对齐结果确定的音频数据帧的音素标注数据，对待训练的唤醒声学模型进行训练，能够使得训练后的唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。

参照图3，示出了本申请实施例三中语音识别装置的结构示意图。

本实施例的语音识别装置包括：第一获取模块301，用于获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；第一确定模块302，用于基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；第一训练模块303，用于基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

本实施例的语音识别装置用于实现前述多个方法实施例中相应的语音识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图4，示出了本申请实施例四中语音识别装置的结构示意图。

本实施例的语音识别装置包括：第一获取模块402，用于获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；第一确定模块403，用于基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；第一训练模块404，用于基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

可选地，所述第一强制对齐结果包括所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素，所述第一确定模块403，具体用于：如果所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素为与所述唤醒词相关的上下文相关音素，则确定所述第一音频样本的音频数据帧关于待训练的所述唤醒声学模型的音素标注数据为所述上下文相关音素；如果所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素为与所述唤醒词无关的上下文相关音素，则确定所述第一音频样本的音频数据帧关于待训练的所述唤醒声学模型的音素标注数据为所述上下文相关音素的中间音素。

可选地，所述第一训练模块404，包括：第二获取模块4041，用于通过待训练的所述唤醒声学模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素和上下文无关音素的后验概率；第二训练模块4042，用于基于所述音素标注数据和所述后验概率，对待训练的所述唤醒声学模型进行训练。

可选地，所述第二获取模块4041，具体用于：通过所述唤醒声学模型的输入层，对所述第一音频样本的当前音频数据帧和所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；通过所述唤醒声学模型的隐含层，对所述拼接后的声学特征数据进行特征提取操作，以获得所述拼接后的声学特征数据对应的特征表征数据；通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率。

可选地，所述唤醒词相关输出部分为采用上下文相关音素进行建模的建模单元。

可选地，所述唤醒词无关输出部分为采用上下文无关音素进行建模的建模单元。

可选地，所述第一获取模块402之前，所述装置还包括：第三训练模块401，用于基于第二音频样本，对待训练的高斯混合模型-隐马尔科夫模型进行训练；对应地，所述第一获取模块402，包括：第三获取模块4021，用于通过训练后的所述高斯混合模型-隐马尔科夫模型，获取所述第一强制对齐结果。

可选地，所述高斯混合模型-隐马尔科夫模型包括三音素高斯混合模型-隐马尔科夫模型，所述第三训练模块401，包括：第四训练模块4011，用于基于所述第二音频样本的音频数据帧的声学特征数据，对待训练的单音素高斯混合模型-隐马尔科夫模型进行训练；强制对齐模块4012，用于通过训练后的所述单音素高斯混合模型-隐马尔科夫模型，对所述第二音频样本的音频数据帧与所述第二音频样本对应的文本标注数据的单音素进行强制对齐，以获得所述第二音频样本的音素特征序列；第五训练模块4013，用于基于所述音素特征序列和所述声学特征数据，对待训练的三音素高斯混合模型-隐马尔科夫模型进行训练。

可选地，所述第四训练模块4011，具体用于：基于所述声学特征数据，获取待训练的所述单音素高斯混合模型-隐马尔科夫模型的均值和方差；基于待训练的所述单音素高斯混合模型-隐马尔科夫模型，获取所述声学特征数据对应的单音素标注数据；基于所述声学特征数据和所述单音素标注数据，对待训练的所述单音素高斯混合模型-隐马尔科夫模型进行迭代训练，以获得训练后的所述单音素高斯混合模型-隐马尔科夫模型。

可选地，所述第五训练模块4013，具体用于：基于所述音素特征序列中的单音素特征数据，获取三音素标注数据；将所述三音素标注数据输入训练后的所述单音素高斯混合模型-隐马尔科夫模型，以获取原始的所述三音素高斯混合模型-隐马尔科夫模型；对原始的所述三音素高斯混合模型-隐马尔科夫模型中的三音素标注数据进行聚类，以获取待训练的所述三音素高斯混合模型-隐马尔科夫模型；基于所述音素特征序列和所述声学特征数据，对待训练的所述三音素高斯混合模型-隐马尔科夫模型进行迭代训练，以获取训练后的所述三音素高斯混合模型-隐马尔科夫模型。

参照图5，示出了本申请实施例五中语音识别装置的结构示意图。

本实施例的语音识别装置包括：第一获取模块502，用于获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；第一确定模块503，用于基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；第一训练模块504，用于基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

可选地，所述第一获取模块502之前，所述装置还包括：第三训练模块5011，用于基于第二音频样本，对待训练的高斯混合模型-隐马尔科夫模型进行训练。

可选地，所述装置还包括：第四获取模块5012，用于通过训练后的所述高斯混合模型-隐马尔科夫模型，获取第三音频样本的音频数据帧与所述第三音频样本对应的文本标注数据的上下文相关音素的第二强制对齐结果；第六训练模块5013，用于基于所述第二强制对齐结果，对待训练的语音识别模型进行训练；第五获取模块5021，用于通过训练后的所述语音识别模型，获取所述第一强制对齐结果。

可选地，所述第六训练模块5013，具体用于：通过待训练的所述语音识别模型，基于所述第三音频样本的音频数据帧的声学特征数据，获取所述第三音频样本的音频数据帧对应的上下文相关音素的后验概率；基于所述第二强制对齐结果和所述后验概率，对待训练的所述语音识别模型进行训练。

可选地，所述第五获取模块5021，具体用于：通过训练后的所述语音识别模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素的后验概率；基于所述后验概率，获取所述第一强制对齐结果。

本申请实施例还提供了一种语音识别***。所述***包括：音频采集装置，用于采集待识别的音频数据；唤醒词识别装置，与所述音频采集装置连接，用于通过唤醒声学模型，对所述待识别的音频数据进行唤醒词识别，以获得所述音频数据的唤醒词识别结果，其中，所述唤醒词识别装置，具体用于：通过所述唤醒声学模型的输入层，对所述音频数据的当前音频数据帧、所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；通过所述唤醒声学模型的隐含层，对所述拼接后的声学特征数据进行特征提取操作，以获得所述拼接后的声学特征数据对应的特征表征数据；通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。籍此，通过在唤醒声学模型的输出层中设置针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分，唤醒声学模型在兼顾语音唤醒性能的同时，能够有效降低对设备端的计算资源的使用。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

在本申请实施例中，所述音频采集装置可为单个麦克风、麦克风阵列等。所述唤醒词识别装置可为人工智能处理器。可以理解的是，以上描述仅为示例性的，本申请实施例对此不作任何限定。

图6为本申请实施例六中电子设备的结构示意图；该电子设备可以包括：

一个或多个处理器601；

计算机可读介质602，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例一或实施例二所述的语音识别方法。

图7为本申请实施例七中电子设备的硬件结构；如图7所示，该电子设备的硬件结构可以包括：处理器701，通信接口702，计算机可读介质703和通信总线704；

其中处理器701、通信接口702、计算机可读介质703通过通信总线704完成相互间的通信；

可选地，通信接口702可以为通信模块的接口，如GSM模块的接口；

其中，处理器701具体可以配置为：获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

处理器701可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读介质703可以是，但不限于，随机存取存储介质(Random AccessMemory，RAM)，只读存储介质(Read Only Memory，ROM)，可编程只读存储介质(Programmable Read-Only Memory，PROM)，可擦除只读存储介质(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块、第一确定模块和第一训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一获取模块还可以被描述为“获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果的模块”。

作为另一方面，本申请还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一或实施例二所描述的语音识别方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；基于所述音素标注数据，对待训练的所述唤醒声学模型进行训练，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)***在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；

至少基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；

通过待训练的所述唤醒声学模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素和上下文无关音素的后验概率；

通过目标损失函数，确定所述音素标注数据与所述后验概率之间的差异值，并基于所述差异值，调整所述唤醒声学模型的参数，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

2.根据权利要求1所述的方法，其特征在于，所述第一强制对齐结果包括所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素，所述方法还包括：

如果所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素为与所述唤醒词相关的上下文相关音素，则确定所述第一音频样本的音频数据帧关于待训练的所述唤醒声学模型的音素标注数据为所述上下文相关音素；

如果所述第一音频样本的音频数据帧对应的所述第一音频样本的文本标注数据的上下文相关音素为与所述唤醒词无关的上下文相关音素，则确定所述第一音频样本的音频数据帧关于待训练的所述唤醒声学模型的音素标注数据为所述上下文相关音素的中间音素。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述唤醒声学模型的输入层，对所述第一音频样本的当前音频数据帧和所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；

通过所述唤醒声学模型的隐含层，对所述拼接后的声学特征数据进行特征提取操作，以获得所述拼接后的声学特征数据对应的特征表征数据；

通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率。

4.根据权利要求1-3中任意一项权利要求所述的方法，其特征在于，所述唤醒词相关输出部分为采用上下文相关音素进行建模的建模单元。

5.根据权利要求1-3中任意一项权利要求所述的方法，其特征在于，所述唤醒词无关输出部分为采用上下文无关音素进行建模的建模单元。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于第二音频样本，对待训练的高斯混合模型-隐马尔科夫模型进行训练；

通过训练后的所述高斯混合模型-隐马尔科夫模型，获取所述第一强制对齐结果。

7.根据权利要求6所述的方法，其特征在于，所述高斯混合模型-隐马尔科夫模型包括三音素高斯混合模型-隐马尔科夫模型，所述方法还包括：

基于所述第二音频样本的音频数据帧的声学特征数据，对待训练的单音素高斯混合模型-隐马尔科夫模型进行训练；

通过训练后的所述单音素高斯混合模型-隐马尔科夫模型，对所述第二音频样本的音频数据帧与所述第二音频样本对应的文本标注数据的单音素进行强制对齐，以获得所述第二音频样本的音素特征序列；

基于所述音素特征序列和所述声学特征数据，对待训练的三音素高斯混合模型-隐马尔科夫模型进行训练。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于所述声学特征数据，获取待训练的所述单音素高斯混合模型-隐马尔科夫模型的均值和方差；

基于待训练的所述单音素高斯混合模型-隐马尔科夫模型，获取所述声学特征数据对应的单音素标注数据；

基于所述声学特征数据和所述单音素标注数据，对待训练的所述单音素高斯混合模型-隐马尔科夫模型进行迭代训练，以获得训练后的所述单音素高斯混合模型-隐马尔科夫模型。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于所述音素特征序列中的单音素特征数据，获取三音素标注数据；

将所述三音素标注数据输入训练后的所述单音素高斯混合模型-隐马尔科夫模型，以获取原始的所述三音素高斯混合模型-隐马尔科夫模型；

对原始的所述三音素高斯混合模型-隐马尔科夫模型中的三音素标注数据进行聚类，以获取待训练的所述三音素高斯混合模型-隐马尔科夫模型；

基于所述音素特征序列和所述声学特征数据，对待训练的所述三音素高斯混合模型-隐马尔科夫模型进行迭代训练，以获取训练后的所述三音素高斯混合模型-隐马尔科夫模型。

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：

通过训练后的所述高斯混合模型-隐马尔科夫模型，获取第三音频样本的音频数据帧与所述第三音频样本对应的文本标注数据的上下文相关音素的第二强制对齐结果；

基于所述第二强制对齐结果，对待训练的语音识别模型进行训练；

通过训练后的所述语音识别模型，获取所述第一强制对齐结果。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

通过待训练的所述语音识别模型，基于所述第三音频样本的音频数据帧的声学特征数据，获取所述第三音频样本的音频数据帧对应的上下文相关音素的后验概率；

基于所述第二强制对齐结果和所述后验概率，对待训练的所述语音识别模型进行训练。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

通过训练后的所述语音识别模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素的后验概率；

基于所述后验概率，获取所述第一强制对齐结果。

13.一种语音识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一音频样本的音频数据帧与所述第一音频样本对应的文本标注数据的上下文相关音素的第一强制对齐结果；

第一确定模块，用于基于所述第一强制对齐结果，确定所述第一音频样本的音频数据帧关于待训练的唤醒声学模型的音素标注数据；

第一训练模块，用于通过待训练的所述唤醒声学模型，基于所述第一音频样本的音频数据帧的声学特征数据，获取所述第一音频样本的音频数据帧对应的上下文相关音素和上下文无关音素的后验概率，通过目标损失函数，确定所述音素标注数据与所述后验概率之间的差异值，并基于所述差异值，调整所述唤醒声学模型的参数，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。

14.一种语音识别***，其特征在于，所述***包括：

音频采集装置，用于采集待识别的音频数据；

唤醒词识别装置，与所述音频采集装置连接，用于通过唤醒声学模型，对所述待识别的音频数据进行唤醒词识别，以获得所述音频数据的唤醒词识别结果，

其中，所述唤醒词识别装置，具体用于：

通过所述唤醒声学模型的输入层，对所述音频数据的当前音频数据帧、所述当前音频数据帧前后预设帧数的音频数据帧的声学特征数据进行拼接操作，以获得拼接后的声学特征数据；

通过所述唤醒声学模型的输出层，对所述拼接后的声学特征数据对应的特征表征数据进行映射操作，以获得所述当前音频数据帧对应的上下文相关音素和上下文无关音素的后验概率，其中，所述唤醒声学模型的输出层中设置有针对唤醒词的唤醒词相关输出部分和唤醒词无关输出部分。