CN113516967B

CN113516967B - 一种语音识别方法及装置

Info

Publication number: CN113516967B
Application number: CN202110889732.0A
Authority: CN
Inventors: 李程帅; 周全; 徐涛
Original assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Current assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2024-06-25
Anticipated expiration: 2041-08-04
Also published as: CN113516967A

Abstract

本申请公开了一种语音识别方法及装置，用以提高语音识别效率，从而提高语音指令的响应速度。本申请提供的一种语音识别方法，包括：逐帧确定用户语音解码的最优路径；在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。

Description

一种语音识别方法及装置

技术领域

本申请涉及信息技术领域，尤其涉及一种语音识别方法及装置。

背景技术

在命令词语音识别***中，为了保证识别性能的准确性，语音识别的流式解码常会结合人声检测(VAD)模块来使用，即确保一段命令词从语音的起始到截止完整的说完后，再得到最终的结果。

例如，有关于空调的命令词“送风模式”，若说话人发出指令“送风模式”，按照现有技术，需要等到说话人“送风模式”说完再输出识别结果，所谓说完，例如：用连续3帧的静音，作为语音截止的判断条件，否则“送风”可能会与短指令“中风”发生混淆而导致误识别。也就是说，现有技术需要等待语音指令的截止，而这必然会带来延时，例如：用连续3帧的静音，作为语音截止的判断条件，便带来了至少3帧的延时，即用户语音指令响应速度慢，影响用户体验。

发明内容

本申请实施例提供了一种语音识别方法及装置，用以提高语音识别效率，从而提高语音指令的响应速度。

本申请实施例提供的一种语音识别方法包括：

逐帧确定用户语音解码的最优路径；

在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。

通过该方法，逐帧确定用户语音解码的最优路径；在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果，从而提高了语音识别效率，提高了语音指令的响应速度。

可选地，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果，具体包括：

将当前最优路径的代价值与预设阈值进行比较，根据比较结果确定是否输出用户语音对应的识别结果；

或者，比较当前最优路径与其他路径的距离，根据比较结果确定是否输出用户语音对应的识别结果。

可选地，在用户语音截止之前，若没有输出用户语音对应的识别结果，则该方法还包括：

若当前最优路径的代价值小于预设的第一阈值，并且用户语音截止，则输出用户语音对应的识别结果。

可选地，在用户语音截止之前，若当前最优路径的代价值小于预设的第二阈值，则输出用户语音对应的识别结果，其中，所述第二阈值小于所述第一阈值。

可选地，当到达用户语音的最终状态时，若当前最优路径的代价值小于预设的第二阈值，则输出用户语音对应的识别结果。

其中，具体如何判断是否到达用户语音的最终状态，属于现有技术。

可选地，所述当前最优路径的代价值，为当前最优路径的平均最优代价值，或者，为当前最优路径的平均代价值。

可选地，当到达用户语音的最终状态后的预设帧数，确定用户语音截止。

可选地，该方法还包括：

按照如下方式更新所述预设帧数：

N’＝(当前最优路径的平均代价值/第一阈值)×N

其中，N为预设帧数；

将对N’取整所得到的值，作为更新后的预设帧数；

当到达用户语音的最终状态后的更新后的预设帧数，确定用户语音截止。

本申请另一实施例提供的一种语音识别装置，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本申请另一实施例提供了一种计算设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本申请另一实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一种方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种最优路径的示意图；

图2为本申请实施例提供的一种最优路径的示意图；

图3为本申请实施例提供的一种语音识别方法的流程示意图；

图4为本申请实施例提供的一种语音识别方法的流程示意图；

图5为本申请实施例提供的一种语音识别装置的结构示意图；

图6为本申请实施例提供的一种语音识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

下面结合说明书附图对本申请各个实施例进行详细描述。需要说明的是，本申请实施例的展示顺序仅代表实施例的先后顺序，并不代表实施例所提供的技术方案的优劣。

本申请实施例提出在流式解码中不需要总是进行语音截止的等待判断，而是根据当前路径的置信度，决定进行等待语音截止的判断还是直接输出当前识别结果，其中，进行等待语音截止的判断情况下，还可以进一步动态的调节等待的帧数，而不是固定按照预设帧数进行等待，从而可以提高语音指令的响应速度，能够有效的降低响应时间。

本申请实施例所述的路径的置信度，可以等同于路径的平均最优代价值，其值越小，则该路径越有可能是正确的输出路径，即语音识别的准确性越高。

所述路径，即语音识别的解码路径，例如输入解码器连续的8帧的声学模型对语音数据的识别输出，该数据为每一帧全部音素的预测概率值，根据Viterbi算法得到解码图中的路径，例如，图1所示是输入8帧后的所有解码图中的一条路径。

也就是说，本申请实施例提供的语音识别方法，包括：

步骤一：逐帧确定用户语音解码的最优路径；

例如，如图1所示，连续8帧的语音数据，每输入一帧，解码图中都有若干条路径，其累计代价值最小的那一条路径就是当前帧解码图中的最优路径；

步骤二：在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。

本申请实施例中，当得到当前帧解码图中的最优路径时，判断是否到达了命令词的最后一个状态，即是否到达用户语音的最终状态，也可以称为最优路径的最后一个状态，以图1为例，音素139对应的状态为最后一个状态。

需要说明的是，本申请实施例中所述的用户语音截止之前，可以是到达用户语音的最终状态，例如到达图1所示的最后一个状态；也可以是按照预设延时到达用户语音的最终状态后的预设帧数有所提前，例如，预设在到达图2所示的代价值为0.5的音素139状态后的四帧，认为用户语音截止，但按照本申请实施例提供的方法，可以提前两帧就根据当前最优路径的置信度确定是否输出用户语音对应的识别结果，即提前两帧输出识别结果，具体提前几帧，可以根据实际情况而定，后续会展开举例说明。

其中，若最优路径达到了命令词的最终状态，计算当前最优路径的代价值；其中所述代价值，可以是当前最优路径的平均最优代价值，或者，也可以是当前最优路径的平均代价值。

当前最优路径的代价值越小，表示该最优路径的置信度越高。

例如，若最优路径的平均最优代价值小于第一阈值，则继续将该平均最优代价值与第二阈值对比，若同时小于第二阈值，则直接输出该最优路径对应的命令词(即当前的识别结果)，否则等到语音结束再进行判断值。

具体实施例的举例说明，参见图3，例如：

本申请实施例提出利用路径的置信度动态的调节流式解码的延时。若命令词“开机”的音素序列是“173 95 146 171 139”，其中，所述音素是指人为规定的最小发音单位，音素序列中的序号对应这些发音，例如“173”表示“开”当中的音素“k”。一个命令词，即用户语音命令，对应一个音素序列。

如图1所示，语音识别解码图输入8帧后，“开机”的最优路径到达了它的最后一个状态139(具体如何判断是否达到最后一个状态，可以采用现有技术实现，本申请实施例不再赘述)，此时计算这条最优路径的累计代价值为(0.05+0.2+0.12+0.1+0.3+0.2+0.09+0.1)＝1.16，是解码图中的最优路径，即1.16在解码图中的所有路径的累计代价值中最小，则进一步计算该最优路径的平均最优代价值，例如，“173 95 146 171 139”一共5个音素，对应5个最优状态，当同一音素有多个代价值时，例如，音素95的代价值，在第二帧是0.2，在第三帧是0.12，0.12比0.2小，所以，0.12为音素95的最优代价值，因此用0.12来计算该最优路径的平均最优代价值。5个音素的最优代价值求平均，即(0.05+0.12+0.1+0.09+0.1)/5＝0.092，该值越小，说明该最优路径的置信度越高。

设定若该平均最优代价值低于该命令词的第二阈值，则此时直接识别该命令词，即输出识别结果，例如，可以设定第二阈值等于第一阈值的0.1倍，若通过语音截止的方式识别为“开机”的平均最优代价值的阈值(第一阈值)为1.0，即此时0.092小于第二阈值0.1，即小于第一阈值的0.1倍，此时说明这条路径的置信度很高，因此可以直接识别为“开机”指令，不用得到语音截止，从而在保证语音指令识别正确的情况下，可以大大提高语音指令的响应速度，提升用户体验。

对于另一种情况，若此时的平均最优代价值介于0.1和1.0之间，即大于第二阈值，小于第一阈值，例如，如图2所示，前8帧的平均最优代价值为：(0.5+0.2+0.3+0.1+0.5)/5＝0.32，即介于0.1和1.0之间，同样的，第9帧和第10帧时的平均最优代价值也介于0.1和1.0，则，不能采用上述方式直接输出识别结果，需要在语音截止后做出判断，即延后进行识别结果输出。

其中，图2中的最后两帧对应的音素1代表没有语音的静音帧，说明语音结束，即有连续2帧静音，用连续N帧静音帧判断语音的截止，是因为语音检测模块有一定的误识别率，例如可能在语音中将某一语音帧误识别为静音帧，若语音截止后，最优路径的平均最优代价值小于第一阈值1.0，例如图2所示，最优路径的平均最优代价值为：(0.5+0.2+0.3+0.1+0.1)/5＝0.24，小于第一阈值1.0，则识别为“开机”。

在图1当中“开机”路径的置信度比较高，因此可以直接进行识别，否则如图2所示，语音截止后识别，显然图1的响应时间比图2要提前4帧，这便加快了识别的响应时间。

除了上述具体实施例中所述的方案，本申请实施例提供的技术方案还可以有以下实施方式：

首先，判断最优路径的置信度时，计算路径代价的方式不唯一，例如可以用上述实施例中的方式计算平均最优代价值，也可以直接计算该路径所有状态的平均代价，以图1为例，计算所有状态的平均代价值(0.05+0.2+0.12+0.1+0.3+0.2+0.09+0.1)/8＝0.145。

其次，关于第二阈值的确定方式，例如上述实施例中使用命令词阈值(即上述的第一阈值)的0.1倍作为第二阈值，也可以用固定数值或其他方式确定第二阈值，但第二阈值应小于等于常规的命令词阈值(即第一阈值)。

除了用阈值的方式确定最优路径的置信度，也可以比较当前最优路径与其他路径的距离，例如比较最优路径与排名第二的路径的距离，例如若命令词识别为“送风”的路径和命令词识别为“中风”的路径的置信度，都达到了第一阈值，“送风”路径的累计代价值仅次于“中风”路径的累计代价值，且“中风”路径的累计代价值小于“送风”路径的累计代价值的0.1倍，例如“送风”路径的累计代价值的为4.0，“中风”路径的累计代价值为0.3，此时说明“中风”路径和“送风”路径相距较远，且“中风”路径为最优路径，说明“中风”路径的置信度较高，直接输出语音识别结果“中风”。

最后，关于缩短流式语音解码延时的时长，上述实施例中，是按照当到达用户语音的最终状态后的预设帧数(例如4帧)，确定用户语音截止。本申请实施例中，还可以按照如下方式更新所述预设帧数，先更新，然后按照更新后的预设帧数，确定用户语音截止。例如：

更新后的预设帧数等于(最优路径平均代价/第一阈值)×N再取整，即：

N’＝(当前最优路径的平均代价值/第一阈值)×N

其中，N为预设帧数；

将对N’取整所得到的值，作为更新后的预设帧数；

其中，当前最优路径的平均最优代价值需小于第一阈值，在此情况下，当前最优路径的平均最优代价值越小，N’越小，即延时越短，反之延时越长，例如第一阈值为1.0，此时最优路径的平均最优代价值为0.4，N＝5，则更新后的延时帧数为round(5*(0.4/1.0))＝2，即由于该路径置信度较高，延时由5帧减少至2帧，即在到达命令词最终状态后两帧，即可输出识别结果。

本申请实施例中，上述的语音截止的判别方式，也可以采用现有技术，例如可以是任意的基于VAD、GMM、DNN等算法或模型。

另外，本申请实施例中，不同的命令词可以对应不同的阈值(包括第一阈值和/或第二阈值)，即不同路径可以对应不同阈值，具体本申请实施例中不进行限制。

综上所述，参见图4，本申请实施例中所述的一种语音识别方法，包括：

S101、逐帧确定用户语音解码的最优路径；

S102、在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。

可选地，该方法还包括：

按照如下方式更新所述预设帧数：

N’＝(当前最优路径的平均代价值/第一阈值)×N

其中，N为预设帧数；

将对N’取整所得到的值，作为更新后的预设帧数；

参见图5，本申请实施例中提供的一种语音识别装置，包括：

处理器600，用于读取存储器620中的程序，执行下列过程：

逐帧确定用户语音解码的最优路径；

可选地，在用户语音截止之前，若没有输出用户语音对应的识别结果，则处理器600还用于：

可选地，处理器600还用于：

按照如下方式更新所述预设帧数：

N’＝(当前最优路径的平均代价值/第一阈值)×N

其中，N为预设帧数；

将对N’取整所得到的值，作为更新后的预设帧数；

收发机610，用于在处理器600的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口630还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器600负责管理总线架构和通常的处理，存储器620可以存储处理器600在执行操作时所使用的数据。

可选的，处理器600可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)。

参见图6，本申请实施例中提供的另一种语音识别装置，包括：

第一单元11，用于逐帧确定用户语音解码的最优路径；

第二单元12，用于在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。

可选地，在用户语音截止之前，若没有输出用户语音对应的识别结果，则第二单元12还用于：

可选地，第二单元12还用于：

按照如下方式更新所述预设帧数：

N’＝(当前最优路径的平均代价值/第一阈值)×N

其中，N为预设帧数；

将对N’取整所得到的值，作为更新后的预设帧数；

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例中提供的语音识别装置，可以是一种用户设备，例如空调、冰箱、洗衣机等智能家电，也可以是其他类型的终端设备等。

本申请实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储本申请实施例提供的任一所述方法的程序。

处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行本申请实施例提供的任一所述方法。

本申请实施例提供了一种计算机存储介质，用于储存为上述本申请实施例提供的装置所用的计算机程序指令，其包含用于执行上述本申请实施例提供的任一方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，该方法包括：

逐帧确定用户语音解码的最优路径；

在用户语音截止之前，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果；

其中，当到达用户语音的最终状态后的预设帧数，确定用户语音截止；

所述方法还包括：

按照如下方式更新所述预设帧数：

N’＝(当前最优路径的平均代价值/第一阈值)×N

其中，N为预设帧数；

将对N’取整所得到的值，作为更新后的预设帧数；

2.根据权利要求1所述的方法，其特征在于，根据当前最优路径的置信度确定是否输出用户语音对应的识别结果，具体包括：

3.根据权利要求2所述的方法，其特征在于，在用户语音截止之前，若没有输出用户语音对应的识别结果，则所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，在用户语音截止之前，若当前最优路径的代价值小于预设的第二阈值，则输出用户语音对应的识别结果，其中，所述第二阈值小于所述第一阈值。

5.根据权利要求4所述的方法，其特征在于，当到达用户语音的最终状态时，若当前最优路径的代价值小于预设的第二阈值，则输出用户语音对应的识别结果。

6.根据权利要求1～5任一权项所述的方法，其特征在于，所述当前最优路径的代价值，为当前最优路径的平均最优代价值，或者，为当前最优路径的平均代价值。

7.一种语音识别装置，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至6任一项所述的方法。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至6任一项所述的方法。