CN104952443A

CN104952443A - 一种语音信息识别方法和解码器

Info

Publication number: CN104952443A
Application number: CN201510323327.7A
Authority: CN
Inventors: 赵峰; 王力劭
Original assignee: SHENZHEN VCYBER TECHNOLOGY Co Ltd
Current assignee: SHENZHEN VCYBER TECHNOLOGY Co Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2015-09-30

Abstract

本发明公开了一种语音信息识别方法和解码器，属于语音识别领域，包括：获取根据语音信息生成的输入数据；判断根据输入数据识别生成的输出数据是否有效；若输出数据无效，则设置输出数据为零；若输出数据有效，将输出数据输出至当前层模型单元的下一层模型单元。通过判断根据输入数据识别生成的输出数据是否有效，实现了对语音信息识别过程中对无效输出的识别，相比于传统的语音信息识别，提高了语音信息识别的速度，从而提高了语音识别的效率；同时，通过设置无效的输出数据为零，使得该在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

Description

一种语音信息识别方法和解码器

技术领域

本发明涉及语音识别领域，特别涉及一种语音信息识别方法和解码器。

背景技术

在语音识别过程中，语音识别的准确率和速度是识别效率的两大重要指标,随着语音识别技术的普及，对语音识别的识别效率要求越来越高，使得需要一种语音信息识别方法，提高语音识别的效率。

现有技术提供了一种语音信息识别方法，通过语音信息输入包括多个模型单元的多层神经网络，对所有模型单元的输出数据进行处理，生成识别结果，从而实现语音信息的识别，提高了语音识别的准确率。

但是在使用现有技术提供的方法时，由于是对多层神经网络中所有模型单元的输出数据进行处理，从而降低了语音信息识别的速度，降低了语音识别的效率。

发明内容

为了提高语音信息识别的速度，提高语音识别的效率，本发明实施例提供了一种语音信息识别方法和解码器。所述技术方案如下：

第一方面，提供了一种语音信息识别方法，所述方法包括：

获取根据语音信息生成的输入数据；

判断根据所述输入数据识别生成的输出数据是否有效；

若所述输出数据无效，则设置所述输出数据为零，若所述输出数据有效，则将所述输出数据输出至当前层模型单元的下一层模型单元。

第二方面，提供了一种语音信息解码器，所述语音信息解码器包括：

至少一层模型单元和控制模块，其中，所述控制模块包括：

获取子模块，用于获取根据语音信息生成的输入数据；

判决子模块，用于判断根据所述输入数据识别生成的输出数据是否有效；

设置子模块，用于在判定所述输出数据无效时，设置所述输出数据为零；

输出子模块，用于在判定所述输出数据有效时，将所述输出数据输出至当前层模型单元的下一层模型单元。

第三方面，提供了一种电子设备，所述电子设备包括麦克风、存储器以及与所述麦克风、所述存储器连接的处理器，其中，所述存储器用于存储一组程序代码，所述处理器调用所述存储器所述存储的程序代码用于执行以下操作：

获取根据语音信息生成的输入数据；

判断根据所述输入数据识别生成的输出数据是否有效；

本发明实施例提供了一种语音信息识别方法和解码器，包括：获取根据语音信息生成的输入数据；判断根据输入数据识别生成的输出数据是否有效；若输出数据无效，则设置输出数据为零；若输出数据有效，将输出数据输出至当前层模型单元的下一层模型单元。由于传统的语音信息识别方法无法识别无效输出，而本发明提供的方法通过判断根据输入数据识别生成的输出数据是否有效，实现了对语音信息识别过程中对无效输出的识别，相比于传统的语音信息识别，提高了语音信息识别的速度，从而提高了语音识别的效率；同时，通过设置无效的输出数据为零，使得该在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音信息识别方法流程图；

图2是本发明实施例提供的一种解码器结构示意图；

图3是本发明实施例提供的一种语音信息识别方法流程图；

图4是本发明实施例提供的一种解码器结构示意图；

图5是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一为本发明实施例提供的一种语音信息识别方法，参照图1所示，该方法包括：

101、获取根据语音信息生成的输入数据。

可选的，还可以包括：当前层模型单元包括至少一个节点，方法还包括：

设置至少一个节点的阈值。

102、判断根据输入数据识别生成的输出数据是否有效，若输出数据无效，则执行步骤103，若输出数据有效，则执行步骤104。

具体的，根据输入数据，生成与至少一个节点分别对应的至少一个输出数据；

判断与节点对应的输出数据是否大于或者等于与节点对应的阈值，若是，则判定节点对应的输出数据有效，否则，则判定节点对应的输出数据无效。

103、设置输出数据为零。

104、将输出数据输出至当前层模型单元的下一层模型单元。

具体的，将至少一个输出数据中所有有效的输出数据输出至下一层模型单元。

可选的，在将输出数据输出至当前层模型单元的下一层模型单元之前，还包括：

判断下一层模型单元是否为最后一层模型单元，若是，则输出输出数据；否则，继续执行将输出数据输出至当前层模型单元的下一层模型单元的步骤。

本发明实施例提供了一种语音信息识别方法，由于传统的语音信息识别方法无法识别无效输出，而本发明提供的方法通过判断根据输入数据识别生成的输出数据是否有效，实现了对语音信息识别过程中对无效输出的识别，相比于传统的语音信息识别，提高了语音信息识别的速度，从而提高了语音识别的效率；同时，通过设置无效的输出数据为零，使得该在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

实施例二为本发明实施例提供的一种语音信息识别方法，该方法应用于一种编码器，该编码器至少包括N层模型单元，该N层模型单元之间设置有连接权重，参照图2所示，在图2中，假设当前层模型单元为第X层模型单元，当前模型单元的下一层模型单元为第X+1层模型单元，该第X层模型单元包括两个节点，分别为第一节点和第二节点，该第一节点的阈值为第一阈值，该第二节点的阈值为第二阈值。在本发明实施例中，语音信息为根据用户的语音片段进行编码后生成的信息，该语音信息至少包括声纹特征参数，该声纹特征参数可以为LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱系数)、MFCC(Mel Frequnce Cepstrum Coefficient，美尔频率倒谱系数)和PLPC(PerceptualLinear Predictive Coefficient，感知线性预测系数)中的任意一个，在实际应用中，该声纹特征参数可以为MFCC。参照图3所示，该方法包括：

301、获取根据语音信息生成的输入数据。

具体的，若该第X层模型单元为N层模型单元中的第一层模型单元，则该输入数据为语音数据，获取根据语音信息生成的输入数据的过程可以为：

接收该语音信息。

若该第X层模型单元为N层模型单元中的第一层模型单元之后的任意一层模型单元，则该输入数据为第X-1层模型单元的输出数据，，该输入数据包括声纹特征参数。获取根据语音信息生成的输入数据的过程可以为：

接收第X-1层模型单元输出的输出数据。

本发明实施例对具体的接收方式不加以限定。

302、设置至少一个节点的阈值。

具体的，可以根据语音信息中所包括的声纹特征参数，设置至少一个节点的阈值，除此之外，还可以通过其他方式，设置至少一个节点的阈值，本发明实施例具体的方式不加以限定。

通过设置至少一个节点的阈值，并根据该节点的阈值判断该节点的输出数据是否有效，从而实现了对语音信息识别过程中对无效输出的识别，相比于传统的语音信息识别，提高了语音信息识别的速度，从而提高了语音识别的效率。

值得注意的是，步骤302是可选步骤，无需在每次执行步骤303之前，都执行步骤302，可以使用预先设置好的与该至少一个节点对应的阈值。

需要说明的是，步骤301与步骤302可以按照上述顺序执行，也可以同时执行，还可以按照其他顺序执行，本发明实施例对具体的执行顺序不加以限定。

303、根据输入数据，生成与至少一个节点分别对应的至少一个输出数据。

具体的，将输入数据分别输入该至少一个节点，在节点对该输入数据进行处理后，接收该至少一个节点分别输出的输出数据，该输出数据包括声纹特征参数。

本发明实施例对具体的处理方式不加以限定。

304、判断与节点对应的输出数据是否大于或者等于与该节点对应的阈值，若不是，则判定该节点对应的输出数据无效，并执行步骤305；否则，则判定该节点对应的输出数据有效，并执行步骤306。

具体的，判断与节点对应的输出数据中所包括的声纹特征参数与该节点对应的阈值之间的数值关系；

若与节点对应的输出数据中所包括的声纹特征参数大于或者等于与该节点对应的阈值，则判定该节点对应的输出数据有效。

若与节点对应的输出数据中所包括的声纹特征参数小于与该节点对应的阈值，则判定该节点对应的输出数据无效。

通过根据该节点的阈值判断该节点的输出数据是否有效，从而实现了对语音信息识别过程中对无效输出的识别，相比于传统的语音信息识别，提高了语音信息识别的速度，从而提高了语音识别的效率。另外，通过设置至少一个节点的阈值，并根据该节点的阈值判断该节点的输出数据是否有效，减少了判断该节点的输出数据是否有效过程中的数据数据处理量，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

值得注意的是，步骤303至步骤304是实现判断根据输入数据识别生成的输出数据是否有效的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的过程不加以限定。

通过设置与该节点无效的输出数据为零，使得该在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

305、设置与该节点对应的输出数据为零，并对该节点的下一节点继续执行步骤304。

具体的，本发明实施例对具体的设置过程不加以限定。

通过将所有节点输出的输出数据中无效的输出数据设置为零，使得在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

值得注意的是，在实际应用中，除了上述步骤303至步骤305所述的根据输入数据，生成与至少一个节点分别对应的至少一个输出数据后，对该多个至少一个节点中的任意一个节点对应的输出数据执行步骤304至步骤305，然后对该任意一个节点的下一个节点对应的输出数据执行步骤304至步骤305，直至模型单元所包括的所有节点都执行上述过程之外，还可以在根据输入数据，生成与模型单元所包括的多个节点中的任意一个节点对应的根据输出数据后，对该输出数据执行步骤304至步骤305，然后继续根据输入数据，生成与该任意一个节点的下一个节点对应的根据输出数据，再对该输出数据执行步骤304至步骤305，直至模型单元所包括的所有节点都执行上述过程。本发明实施例对具体的过程不加以限定。

306、判断下一层模型单元是否为最后一层模型单元，若是，则执行步骤307，若不是，则执行步骤308。

具体的，判断X+1与Y之间的数值关系，若X+1小于Y，则下一层模型单元不是最后一层模型单元；

若X+1等于Y，则下一层模型单元是最后一层模型单元。

307、输出输出数据。

具体的，输出至少一个输出数据中所有有效的输出数据至其他设备，该至少一个输出数据为识别后的语音信息。

308、将输出数据输出至当前层模型单元的下一层模型单元。

本发明实施例对具体的输出过程不加以限定。

通过将至少一个输出数据中所有有效的输出数据输出至下一层模型单元，使得在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

本发明实施例所提供的方法，通过将当前层模型单元有效的输出数据作为非零输出至下一层模型单元，并以此类推，使得每层模型单元的输出矢量变得非常稀疏，降低了语音信息识别过程中的计算成本。本发明实施例所述的方法在大、小词汇量的语音识别任务中作评测，结果显示在不影响语音识别效果的情况下，该方法可把非零输出减少隐含层节点总数的20％，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

实施例三为本发明实施例提供的一种解码器4，参照图4所示，解码器4包括：

输入模块41、输出模块42、至少一层模型单元43和控制模块44；

其中，所述输入模块41用于将语音信息输入值该至少一层模型单元43中的第一层模型单元；

控制模块44包括：

获取子模块441，用于获取根据语音信息生成的输入数据；

判决子模块442，用于判断根据输入数据识别生成的输出数据是否有效；

设置子模块443，用于在判定输出数据无效时，设置输出数据为零；

输出子模块444，用于在判定输出数据有效时，将输出数据输出至当前层模型单元的下一层模型单元；

该输出模块42用于输出该至少一层模型单元中的最后一层模型单元输出的输出数据。

可选的，当前层模型单元包括至少一个节点，设置子模块443还用于：

设置至少一个节点的阈值。

可选的，判决子模块442具体用于：

根据输入数据，生成与至少一个节点分别对应的至少一个输出数据；

可选的，输出子模块444具体用于：

将至少一个输出数据中所有有效的输出数据输出至下一层模型单元。

可选的，

判决子模块442还用于判断下一层模型单元是否为最后一层模型单元；

输出子模块444还用于在判定下一层模型单元是最后一层模型单元时，输出输出数据；

输出子模块444还用于在判定下一层模型单元是不是最后一层模型单元时，继续执行将输出数据输出至当前层模型单元的下一层模型单元的步骤。

本发明实施例提供了一种解码器，该解码器通过判断根据输入数据识别生成的输出数据是否有效，实现了对语音信息识别过程中对无效输出的识别，相比于传统的解码器，提高了语音信息识别的速度，从而提高了语音识别的效率；同时，通过设置无效的输出数据为零，使得该在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

实施例四为本发明实施例提供的一种电子设备5，参照图5所示，电子设备5包括麦克风51、存储器52以及与麦克风51、存储器52连接的处理器53，其中，存储器52用于存储一组程序代码，处理器53调用存储器52存储的程序代码用于执行以下操作：

获取根据语音信息生成的输入数据；

判断根据输入数据识别生成的输出数据是否有效；

若输出数据无效，则设置输出数据为零，若输出数据有效，则将输出数据输出至当前层模型单元的下一层模型单元。

可选的，处理器53调用存储器52存储的程序代码用于执行以下操作：

设置至少一个节点的阈值。

本发明实施例提供了一种电子设备，该电子设备通过判断根据输入数据识别生成的输出数据是否有效，实现了对语音信息识别过程中对无效输出的识别，提高了语音信息识别的速度，从而提高了语音识别的效率；同时，通过设置无效的输出数据为零，使得该在对语音信息识别过程中对无效输出不进行处理，从而进一步提高了语音信息识别的速度，从而提高了语音识别的效率。

值得注意的是，上述实施例中所述的“第一”和“第二”仅仅是示例性的，只是为了区分二者的不同，此处并非特指。

需要说明的是：上述实施例提供的解码器和电子设备在执行语音信息识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将解码器和电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的解码器、电子设备与语音信息识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信息识别方法，其特征在于，所述方法包括：

获取根据语音信息生成的输入数据；

判断根据所述输入数据识别生成的输出数据是否有效；

2.根据权利要求1所述的方法，其特征在于，所述当前层模型单元包括至少一个节点，所述方法还包括：

设置所述至少一个节点的阈值。

3.根据权利要求2所述的方法，其特征在于，所述判断根据所述输入数据识别生成的输出数据是否有效包括：

根据所述输入数据，生成与所述至少一个节点分别对应的至少一个输出数据；

判断与节点对应的输出数据是否大于或者等于与所述节点对应的阈值，若是，则判定所述节点对应的输出数据有效，否则，则判定所述节点对应的输出数据无效。

4.根据权利要求3所述的方法，其特征在于，所述将所述输出数据输出至当前层模型单元的下一层模型单元包括：

将所述至少一个输出数据中所有有效的输出数据输出至所述下一层模型单元。

5.根据权利要求1至4任一所述的方法，其特征在于，所述将所述输出数据输出至当前层模型单元的下一层模型单元之前，所述方法还包括：

判断所述下一层模型单元是否为最后一层模型单元，若是，则输出所述输出数据；否则，继续执行所述将所述输出数据输出至当前层模型单元的下一层模型单元的步骤。

6.一种语音信息解码器，其特征在于，所述解码器包括：

至少一层模型单元和控制模块，其中，所述控制模块包括：

获取子模块，用于获取根据语音信息生成的输入数据；

7.根据权利要求6所述的解码器，其特征在于，所述当前层模型单元包括至少一个节点，所述设置子模块还用于：

设置所述至少一个节点的阈值。

8.根据权利要求7所述的解码器，其特征在于，所述判决子模块具体用于：

9.根据权利要求8所述的解码器，其特征在于，所述输出子模块具体用于：

10.根据权利要求6至9任一所述的解码器，其特征在于，

所述判决子模块还用于判断所述下一层模型单元是否为最后一层模型单元；

所述输出子模块还用于在判定所述下一层模型单元是最后一层模型单元时，输出所述输出数据；

所述输出子模块还用于在判定所述下一层模型单元是不是最后一层模型单元时，继续执行所述将所述输出数据输出至当前层模型单元的下一层模型单元的步骤。