CN106228976A

CN106228976A - 语音识别方法和装置

Info

Publication number: CN106228976A
Application number: CN201610586698.9A
Authority: CN
Inventors: 丁科; 蒋兵; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2016-12-14
Anticipated expiration: 2036-07-22
Also published as: US20190287514A1; CN106228976B; JP6778811B2; JP2019525233A; WO2018014537A1; US10997966B2

Abstract

本申请提出一种语音识别方法和装置，该语音识别方法包括：对输入的语音进行声学特征提取，得到声学特征；获取声学模型，其中，所述声学模型的参数是二值化参数；根据所述声学特征和所述声学模型进行语音识别。该方法能够适用于嵌入式语音识别。

Description

语音识别方法和装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音识别方法和装置。

背景技术

随着智能手机、平板电脑等移动设备的不断普及，语音作为一种自然的人机交互手段，在人们的日常生活工作中发挥着越来重要的作用。语音识别用于将语音识别为文本。

语音识别可以分为联网语音识别和嵌入式语音识别，联网语音识别是指用户通过网络将语音信号上传给服务器，由服务器进行语音识别，并将识别结果返回给用户。嵌入式语音识别是指用户通过嵌入在智能终端内的语音识别器进行语音识别。

语音识别的一个关键部分是声学模型，目前生成的声学模型都比较大。因此无法直接将服务器使用的声学模型直接应用于智能终端，需要给出适用于嵌入式语音识别的解决方案。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种语音识别方法，该方法可以适用于嵌入式语音识别。

本申请的另一个目的在于提出一种语音识别装置。

为达到上述目的，本申请第一方面实施例提出的语音识别方法，包括：对输入的语音进行声学特征提取，得到声学特征；获取声学模型，其中，所述声学模型的参数是二值化参数；根据所述声学特征和所述声学模型进行语音识别。

本申请第一方面实施例提出的语音识别方法，通过采用参数是二值化参数的声学模型，可以显著减小声学模型的大小，降低所需存储空间，从而可以适用于嵌入式语音识别。

为达到上述目的，本申请第二方面实施例提出的语音识别装置，包括：特征提取模块，用于对输入的语音进行声学特征提取，得到声学特征；获取模块，用于获取声学模型，其中，所述声学模型的参数是二值化参数；识别模块，用于根据所述声学特征和所述声学模型进行语音识别。

本申请第二方面实施例提出的语音识别装置，通过采用参数是二值化参数的声学模型，可以显著减小声学模型的大小，降低所需存储空间，从而可以适用于嵌入式语音识别。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的语音识别方法的流程示意图；

图2是本申请另一个实施例提出的语音识别方法的流程示意图；

图3是本申请实施例中二值化的激活函数的示意图；

图4是本申请实施例中二值化网络的示意图；

图5是本申请一个实施例提出的语音识别装置的结构示意图；

图6是本申请一个实施例提出的语音识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

本申请将以嵌入式语音识别进行说明。但是，可以理解的是，本实施例的方法不限于嵌入式语音识别，也可以应用于联网语音识别，即服务器也可以采用如下的方案。

相对于服务器，智能终端的存储空间、计算能力和资源都是比较差的，因此不能直接将服务器采用的声学模型直接应用于嵌入式语音识别中。

为了适用于嵌入式语音识别，需要减小声学模型的大小。

目前通常采用深度神经网络(Deep Neural Networks，DNN)和隐马尔科夫模型(hidden Markov model，HMM)混合建模生成声学模型。

为了有效减少声学模型的大小，本申请将基于如下的主要思路：对声学模型的参数进行改变，由浮点数表示方式改变为用二值化表示。进一步的，在声学特征经过DNN时，输出也转换为二值化。

需要说明的是，虽然上述对主要思路进行了说明，但是，具体的技术方案不限于上述的主要思路，还可以与其他特征相互结合，这些不同技术特征之间的结合依然属于本申请的保护范围。

需要说明的是，虽然上述给出了主要解决的技术问题，但是，本申请并不限于仅能解决上述技术问题，应用本申请给出的技术方案还可以解决的其他技术问题依然属于本申请的保护范围。

需要说明的是，本申请的每个实施例不限于能够全部完美解决所有的技术问题，而在至少在一定程度上解决至少一个技术问题。

需要说明的是，虽然上述给出了本申请的主要思路，以及后续实施例会对一些特别点进行说明。但是，本申请的创新点并不限于上述的主要思路及特别点所涉及的内容，并不排除本申请中一些并未特殊说明的内容依然可能会包含本申请的创新点。

可以理解的是，虽然上述进行了一些说明，但依然不排除其他可能方案，因此，与后续本申请给出的实施例相同、相似、等同等情况的技术方案依然属于本申请的保护范围。

下面将结合具体实施例对本申请的技术方案进行说明。

本申请中涉及的智能终端可以包括智能手机、平板电脑、智能可穿戴式设备、车载终端、智能机器人、智能家电等各种能够应用语音识别技术的终端。

图1是本申请一个实施例提出的语音识别方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：对输入的语音进行声学特征提取，得到声学特征。

其中，可以采用已有或将来出现的声学特征提取流程进行声学特征的提取。声学特征例如包括：梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等。

S12：获取声学模型，其中，所述声学模型的参数是二值化参数。

其中，可以在训练阶段生成声学模型，而在识别阶段，直接获取已训练生成的声学模型。

通常的声学模型的参数是浮点数，因此，每个参数通常会占用16位或32位(bit)。

本实施例中，声学模型的参数是二值化参数，二值化参数是指每个参数是已确定的两个值中的任一个。比如，已确定的两个值用+1和-1表示，则每个参数是+1或-1。

由于声学模型的参数是二值化参数，因此，每个参数可以用一位(bit)表示。相对于每个参数占用16或32位的情况，可以显著降低声学模型的大小，从而降低所需的存储空间。

S13：根据所述声学特征和所述声学模型进行语音识别。

其中，声学模型可以表明语音与声学状态概率之间的关系，因此，在得到声学特征后，依据声学模型可以得到声学状态概率。可以理解的是，在语音识别时还可以包括其他流程，比如，在得到声学状态概念后还可以根据语言模型、发音词典等，转换为文本，从而完成最终的语音识别。本申请主要对声学模型的相关内容进行说明，语音识别的其余流程可以采用已有或将来出现的技术实现。

本实施例中，通过采用参数是二值化参数的声学模型，可以显著减小声学模型的大小，降低所需存储空间，从而可以适用于嵌入式语音识别。

下面将给出一个相对解决较全面问题的技术方案，但是，本申请不限于本实施例的方案，还可以将解决不同技术问题的技术特征单独组成技术方案，或者，将不同技术特征进行其他方式的任意多个的组合以得到新的技术方案。

图2是本申请另一个实施例提出的语音识别方法的流程示意图。

参见图2，本实施例的方法包括：

S21：训练生成声学模型，其中，所述声学模型的参数是二值化参数，以及，在训练过程中包括计算误差，且误差的精度为浮点精度。

在训练阶段可以收集大量的语音样本，对每个语音样本提取声学特征，之后再根据这些声学特征进行训练，生成声学模型。

在训练声学模型时，可以采用多种方式，本实施例可以以DNN+HMM混合建模方式的训练生成声学模型。

与普通的DNN和HMM混合建模不同的是，本实施例中，声学模型的参数采用二值化参数。

上述计算误差时可以采用误差反向传播(反传)算法。误差反向传播大致包括：输出误差(某种形式)－>隐层(逐层)－>输入层其主要目的是通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值(其过程，是一个权值调整的过程)。

进一步的，为了保证精度，在计算误差时，采用的声学模型的参数是二值化参数，但误差的精度采用浮点精度。例如，在计算误差时除了声学模型的参数，其余数值都采用浮点数。

上述的S21可以在训练阶段完成，得到的声学模型可以用于之后的语音识别。

在语音识别阶段可以执行如下步骤：

S22：对输入的语音进行声学特征提取，得到声学特征。

该步骤可以参见上一实施例的相关内容，在此不再详细说明。

S23：将声学特征作为DNN的输入层，在DNN的每个隐层，采用声学模型的参数与输入值进行运算得到输出值，其中，对存在下一个隐层的输出值进行二值化，以作为下一个隐层的输入值。

其中，为了使得整体都是二值化的数值运算，不仅可以将声学模型的参数作采用二值化数值，其余涉及的参数也可以采用二值化数值。

上述流程中，还可以对声学特征进行二值化，以便与输入层连接的第一个隐层的输入也是二值化的数值。

进一步的，为了保证声学模型的稳定性，在对输出值进行二值化之前，还可以先进行线性变换。线性变换的公式可以如公式(1)所示。

Y＝a*X+b

其中，X表示输出值的原始值，Y是线性变换后的输出值，a和b是两个固定参数，可预设。

进一步的，在对数据进行二值化时，可以采用二值化激活函数进行处理。例如，二值化激活函数如图3所示。基于图3所示的激活函数，如果一个数据的原始数值为大于0的值，则二值化后的值是+1，如果一个数据的原始数值为大于0的值，则二值化后的值是-1。

上述以二值化后的值为+1或-1为例，可以理解的是，也可以用其他的数字表示，如为1或0。

因此，经过上述的二值化参数、线性变换和二值化激活函数，在语音识别时可以包括如图4所示的二值化网络。

进一步的，在数值之间运算时，由于是二值化数值之间的运算，因此可以采用位操作替换普通的矩阵操作。

具体的，可以用异或替换乘法运算，用每个二值化数值的个数替换加法运算。

例如，用a和b表示两个运算的数值，且a和b都是二值化数值，则如表1所示，a和b相乘(a*b)可以用异或(XOR)替换，在异或运算时可以将一个值编码为0，另一个编码为1，比如将+1编码为0，将-1编码为1。另外，累加操作则可以通过计算set位和unset位的个数来完成。其中，set位和unset位分别表示二值化数值中的一个，比如一个是+1，一个是-1。

表1

a	b	a*b
			+1	+1	+1
+1	-1	-1
			-1	+1	-1
-1	-1	+1

上述流程中可以采用特殊硬件实现，也可以采用通用的硬件，如CPU、GPU等。

本实施例中，通过将声学模型的参数选为二值化参数，可以降低声学模型的大小，降低所需的存储空间。通过在训练阶段将误差选为浮点数精度，可以保证声学模型的性能，从而保证语音识别的性能。通过在整体运算过程中采用二值化数值，以及在运算中用位操作替换矩阵运算，可以降低运算量，降低对计算能力和资源的需求，可以充分利用DSP、FPGA等硬件的计算能力。本实施例由于降低了运算复杂度，因此也可以应用于传统硬件，如CPU和GPU。

图5是本申请一个实施例提出的语音识别装置的结构示意图。

本实施例的装置可以位于嵌入式语音识别器中或者也可以用于服务器中。

如图5所示，本实施例的装置50包括：特征提取模块51、获取模块52和识别模块53。

特征提取模块51，用于对输入的语音进行声学特征提取，得到声学特征；

获取模块52，用于获取声学模型，其中，所述声学模型的参数是二值化参数；

识别模块53，用于根据所述声学特征和所述声学模型进行语音识别。

一些实施例中，参见图6，本实施例的装置50还包括：

训练模块54，用于训练生成所述声学模型，其中，在训练过程中包括利用误差反传方法计算误差，且误差的精度为浮点精度。

一些实施例中，所述识别模块53具体用于：

在所述声学模型包括DNN时，将所述声学特征作为所述DNN的输入层，且，在所述DNN的每个隐层，采用声学模型的参数与输入值进行运算得到输出值，以及，对存在下一个隐层的输出值进行二值化，以作为下一个隐层的输入值。

一些实施例中，所述识别模块53还用于：

对输出值进行线性变换，以对变换后的输出值进行二值化。

一些实施例中，所述识别模块53用于采用声学模型的参数与输入值进行运算得到输出值，包括：

根据声学模型的参数与输入值进行位操作，得到输出值。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括：

对输入的语音进行声学特征提取，得到声学特征；

获取声学模型，其中，所述声学模型的参数是二值化参数；

根据所述声学特征和所述声学模型进行语音识别。

2.根据权利要求1所述的方法，其特征在于，还包括：

训练生成所述声学模型，其中，在训练过程中包括利用误差反传方法计算误差，且误差的精度为浮点精度。

3.根据权利要求1所述的方法，其特征在于，所述根据所述声学特征和所述声学模型进行语音识别，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

对输出值进行线性变换，以对变换后的输出值进行二值化。

5.根据权利要求3所述的方法，其特征在于，所述采用声学模型的参数与输入值进行运算得到输出值，包括：

根据声学模型的参数与输入值进行位操作，得到输出值。

6.一种语音识别装置，其特征在于，包括：

特征提取模块，用于对输入的语音进行声学特征提取，得到声学特征；

获取模块，用于获取声学模型，其中，所述声学模型的参数是二值化参数；

识别模块，用于根据所述声学特征和所述声学模型进行语音识别。

7.根据权利要求6所述的装置，其特征在于，还包括：

训练模块，用于训练生成所述声学模型，其中，在训练过程中包括利用误差反传方法计算误差，且误差的精度为浮点精度。

8.根据权利要求6所述的装置，其特征在于，所述识别模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述识别模块还用于：

对输出值进行线性变换，以对变换后的输出值进行二值化。

10.根据权利要求8所述的装置，其特征在于，所述识别模块用于采用声学模型的参数与输入值进行运算得到输出值，包括：

根据声学模型的参数与输入值进行位操作，得到输出值。