CN110310633B

CN110310633B - 多音区语音识别方法、终端设备和存储介质

Info

Publication number: CN110310633B
Application number: CN201910433338.9A
Authority: CN
Inventors: 彭汉迎; 欧阳能钧; 贺学焱
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2022-05-20
Anticipated expiration: 2039-05-23
Also published as: CN110310633A

Abstract

本申请实施例提供一种多音区语音识别方法、终端设备和存储介质，该方法应用于终端设备，该终端设备包括一个唤醒引擎，该方法包括：获取识别区域的N个音区各自的语音信号，N为大于1的整数；根据该唤醒引擎和该N个音区各自的语音信号，从该N个音区中确定待识别音区；对待识别音区的语音信号进行语音识别。本申请实施例通过一个唤醒引擎实现多音区语音识别，占用CPU资源的较少，降低了终端设备在进行多音区语音识别时对终端设备上运行的其它应用或进程的影响。

Description

多音区语音识别方法、终端设备和存储介质

技术领域

本申请实施例涉及计算机技术，尤其涉及一种多音区语音识别方法、终端设备和存储介质。

背景技术

传统车载语音***只支持一路麦克风，随着语音技术的发展出现了多路麦克风的多音区识别技术。其中，将车内空间分成多个子空间，每个子空间为一个音区，比如车辆包括两音区或四音区。多音区的出现可实现识别说话人的位置信息的目的。

目前的多音区语音识别会占用车载***较多的中央处理器(Central ProcessingUnit，简称CPU)资源，以致影响车载***的其它应用的正常运行。

发明内容

本申请实施例提供一种多音区语音识别方法、终端设备和存储介质，减少了多音区语音识别所占用的CPU资源。

第一方面，本申请实施例提供一种多音区语音识别方法，所述方法应用于终端设备，所述终端设备包括一个唤醒引擎，所述方法包括：获取识别区域的N个音区各自的语音信号，N为大于1的整数；根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区；对所述待识别音区的语音信号进行语音识别。

本方案中终端设备通过一个唤醒引擎实现多音区语音识别，占用的CPU资源较少，降低了终端设备在进行多音区语音识别时对终端设备上运行的其它应用或进程的影响。

结合第一方面，在第一方面的一种可能的实现方式中，所述根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区，包括：通过所述唤醒引擎加载唤醒词模型，并根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，其中，所述唤醒词模型为用于识别语音信号中的唤醒词的模型；根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区。

在一种方案中，所述根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区，包括：在所述N个音区各自的语音信号对应的唤醒结果中确定目标唤醒结果，所述目标唤醒结果包括唤醒词和目标标识；确定所述目标标识所指示的音区为所述待识别音区。所述唤醒词模型的数量为N个，所述根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，包括：获取所述N个音区和所述N个唤醒词模型的对应关系；对于所述N个音区中的任一个音区，根据所述对应关系，确定与所述任一个音区对应的唤醒词模型，并根据所述任一个音区对应的唤醒词模型获取所述任一个音区的语音信号对应的唤醒结果。

本方案中的N个音区和N个唤醒词模型一一对应，在某一音区的语音信号中包括唤醒词信号的情况下，通过与该音区对应的唤醒词模型得到的该音区的语音信号所对应的唤醒结果中包括唤醒词和指示该音区的标识，从而可快速的获取到N个音区中的待识别音区。

在另一种方案中，所述唤醒词模型的数量为1个；所述根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，包括：按照所述N个音区的预设排序，依次获取所述N个音区各自的语音信号对应的唤醒结果；所述根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区，包括：若第n次获取到的唤醒结果中包括唤醒词，则确定排序为第n的音区为所述待识别音区，n＝1,…N。

本方案中只存在一个唤醒词模型，进一步减少了多音区语音识别过程所占用的CPU资源。

结合第一方面，在第一方面的一种可能的实现方式中，对所述待识别音区的语音信号进行语音识别，包括：将所述待识别音区的语音信号发送至服务器；从所述服务器接收所述待识别音区的语音信号的语音识别结果。

本方案可以降低终端设备的能耗。

第二方面，本申请实施例一种终端设备，包括处理器和存储器，其特征在于，所述存储器中存储有指令，所述处理器调用所述指令，控制执行如下操作：获取识别区域的N个音区各自的语音信号，N为大于1的整数；根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区；对所述待识别音区的语音信号进行语音识别。

结合第二方面，在第二方面的一种可能的实现方式中，所述处理器在用于控制执行根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：通过所述唤醒引擎加载唤醒词模型，并根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，其中，所述唤醒词模型为用于识别语音信号中的唤醒词的模型；根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区。

结合第二方面，在第二方面的一种可能的实现方式中，所述处理器在用于控制执行根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：在所述N个音区各自的语音信号对应的唤醒结果中确定目标唤醒结果，所述目标唤醒结果包括唤醒词和目标标识；确定所述目标标识所指示的音区为所述待识别音区。

结合第二方面，在第二方面的一种可能的实现方式中，所述唤醒词模型的数量为N个，所述处理器在用于控制执行根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果的操作时，具体用于控制执行如下操作：获取所述N个音区和所述N个唤醒词模型的对应关系；对于所述N个音区中的任一个音区，根据所述对应关系，确定与所述任一个音区对应的唤醒词模型，并根据所述任一个音区对应的唤醒词模型获取所述任一个音区的语音信号对应的唤醒结果。

结合第二方面，在第二方面的一种可能的实现方式中，所述唤醒词模型的数量为1个；所述处理器在用于控制执行根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果的操作时，具体用于控制执行如下操作：按照所述N个音区的预设排序，依次获取所述N个音区各自的语音信号对应的唤醒结果；所述处理器在用于控制执行根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：若第n次获取到的唤醒结果中包括唤醒词，则确定排序为第n的音区为所述待识别音区，n＝1,…N。

结合第二方面，在第二方面的一种可能的实现方式中，所述处理器在用于控制执行对所述待识别音区的语音信号进行语音识别的操作时，具体用于控制执行如下操作：将所述待识别音区的语音信号发送至服务器；从所述服务器接收所述待识别音区的语音信号的语音识别结果。

第三方面，本申请实施例提供一种计算机可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，第一方面以及第一方面任一可能的实现方式中所述的方法被执行。

本申请中终端设备通过一个唤醒引擎实现多音区语音识别，相对于现有技术中采用多个唤醒引擎进行多音区语音识别，占用的CPU资源较少，降低了终端设备在进行多音区语音识别时对终端设备上运行的其它应用或进程的影响。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种多音区示意图；

图2为本申请实施例提供的多音区语音识别方法的流程图一；

图3为本申请实施例提供的多音区语音识别方法的流程图二；

图4为本申请实施例提供的多音区语音识别方法的流程图三；

图5为本申请实施例提供的终端设备的示意性框图一；

图6为本申请实施例提供的终端设备的示意性框图二；

图7为本申请实施例提供的多音区语音识别装置的结构示意图一；

图8为本申请实施例提供的多音区语音识别装置的结构示意图二。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了更好的理解本申请，本申请引入如下要素：

音区：在某一区域中，例如在一个车辆内或者一个房间内，通常情况下会有多个用户都需要语音服务。在这种应用场景中，为了使得用户无论在区域的任意位置均能使用语音服务，可将该区域划分成多个独立的音区。具体地，该区域中还设置有多个麦克风，每个麦克风或用于采集一个音区的语音信号，并对其它音区的语音信号进行隔离。

图1为本申请实施例提供的一种多音区示意图，参见图1，一辆车辆内的空间被划分成4个音区，分别为音区11、音区12、音区13和音区14。

图2为本申请实施例提供的多音区语音识别方法的流程图一，如图2所示，本实施例的方法可以包括：

步骤S101、终端设备获取识别区域的N个音区各自的语音信号，N为大于1的整数，终端设备包括一个唤醒引擎。

具体地，本实施例中的终端设备可为车载终端设备，还可为其它用于多音区识别的终端设备。可以理解的是，若本实施例中的终端设备为车载终端设备，则该识别区域为车载终端设备所在的车辆内的区域，该识别区域被划分成N个音区。

在一种方式中，识别区域内可设置有N个麦克风，每个麦克风用于采集一个音区的语音信号，并可依据波束成形算法对其它音区的语音信号进行隔离。该N个麦克风可位于一个或多个麦克风模组中。其中，一个麦克风模组可由多个数字麦克风、数字信号处理(digital signal processing，简称DSP)芯片以及音频总线芯片组成。每个麦克风均可通过音频总线将采集到的语音信号发送至该终端设备。

该终端设备接收各麦克风采集的语音信号，获取到N个音区各自的语音信号。本实施例中的终端设备包括一个唤醒引擎，终端设备通过该唤醒引擎对N个音区各自的语音信号进行处理。

步骤S102、终端设备根据该唤醒引擎和N个音区各自的语音信号，从N个音区中确定待识别音区。

其中，终端设备根据该唤醒引擎和N个音区的语音信号，从N个音区中确定待识别音区，包括：终端设备通过该唤醒引擎加载唤醒词模型，并根据唤醒词模型获取N个音区各自的语音信号对应的唤醒结果，其中，唤醒词模型为用于识别语音信号中的唤醒词的模型；终端设备根据N个音区各自的语音信号对应的唤醒结果，从N个音区中确定待识别音区。

具体地，每个音区各自的语音信号对应一个唤醒结果。由于N个音区中一般只有一个音区存在需要语音服务的用户，因此，N个音区各自的语音信号对应的唤醒结果中一般存在一个包括唤醒词的唤醒结果，包括唤醒词的唤醒结果对应的音区即为待识别音区。其中，唤醒词可为“你好”、“hello”、“上午好”、“下午好”等等。

进一步地，唤醒词模型的数量可为一个或多个。在唤醒词模型为一个时，终端设备通过该唤醒引擎加载一个唤醒词模型，串行执行获取N个音区各自的语音信号对应的唤醒结果的过程。在唤醒词模型为多个时，终端设备通过该唤醒引擎加载N个唤醒词模型，可并行执行获取N个音区各自的语音信号对应的唤醒结果的过程。

步骤S103、对N个音区中的待识别音区的语音信号进行语音识别。

具体地，在从N个音区中确定了待识别音区后，可对待识别音区的语音信号进行语音识别。

在一种方式中，终端设备内具有语音识别模块，终端设备通过语音识别模块对待识别音区的语音信号进行语音识别。该种方式的语音识别的效率比较高。

在另一种方式中，终端设备将待识别音区的语音信号发送至服务器，服务器对待识别音区的语音信号进行语音识别，得到语音识别结果，并将语音识别结果发送至终端设备；终端设备从服务器接收待识别音区的语音信号的语音识别结果。该种方式可以减少终端设备的能耗。

可以理解的是，一旦确定好待识别音区后，只有待识别音具有语音识别的权限，即终端设备只对该待识别音区的语音信号进行语音识别，直至此次语音识别过程结束。在下一轮的语音识别过程中，终端设备重复执行步骤S101～步骤S102重新确定待识别音区。

本实施例中的终端设备通过一个唤醒引擎实现多音区语音识别，相对于现有技术中采用多个唤醒引擎进行多音区语音识别，占用的CPU资源较少，降低了终端设备在进行多音区语音识别时对终端设备上运行的其它应用或进程的影响。

下面采用几个具体的实施例，对图2所示方法实施例的技术方案进行详细说明。

首先对唤醒词模型为N个的情况所对应的多音区语音识别方法进行说明。

图3为本申请实施例提供的多音区语音识别方法的流程图二，如图3所示，本实施例的方法可以包括：

步骤S201、终端设备获取识别区域的N个音区各自的语音信号，N为大于1的整数，终端设备包括一个唤醒引擎。

具体地，该步骤的具体实现参见图2所示的实施例中的步骤S101的具体实现，此处不再赘述。

步骤S202、终端设备通过唤醒引擎加载N个唤醒词模型，并根据N个唤醒词模型获取N个音区各自的语音信号对应的唤醒结果，其中，唤醒词模型为用于识别语音信号中的唤醒词的模型。

具体地，N个唤醒词模型和N个音区具有一一对应关系，终端设备内可存储有N个音区和N个唤醒词模型的对应关系。对于N个唤醒词模型中的任意的一个第一唤醒词模型，若第一唤醒词模型与N个音区的中的第一音区对应，则终端设备根据第一唤醒词模型获取第一音区的第一语音信号的唤醒结果。

因此，根据N个唤醒词模型获取与N个音区各自的语音信号对应的唤醒结果，包括：

a1、获取N个音区和N个唤醒词模型的对应关系。

具体地，在一种方案中，该对应关系可以包括：N个音区的标识，以及每个音区的标识对应的唤醒词模型的标识。

在另一种方案中，该对应关系可以包括：N个麦克风的标识，以及每个麦克风的标识对应的唤醒词模型的标识。由于N个麦克风与N个音区一一对应，因此，麦克风的标识也可以用来指示音区。

a2、对于N个音区中的任一个音区，根据该对应关系，确定与该任一个音区对应的唤醒词模型，并根据与该任一个音区对应的唤醒词模型获取与该任一个音区的语音信号对应的唤醒结果。

具体地，麦克风在向终端设备发送采集到的语音信号时，还会携带该麦克风的标识或者该麦克风所在的音区的标识。若该任一个音区的语音信号是由第一麦克风采集的，则第一麦克风在向终端设备发送第一音区的第一语音信号时，还会携带第一麦克风的标识或者该任一个音区的标识。终端设备根据第一麦克风的标识或者该任一个音区的标识，以及该对应关系，确定与该任一个音区对应的唤醒词模型，并根据与该任一个音区对应的唤醒词模型获取该任一个音区的语音信号对应的唤醒结果。

可以理解的是，因此N个音区中的每个音区均按照a2中所述的方法获取音区的语音信号对应的唤醒结果。

步骤S203、确定N个音区各自的语音信号对应的唤醒结果中包括目标唤醒结果，目标唤醒结果包括唤醒词和目标标识，目标标识用于指示待识别音区。

具体地，目标唤醒结果为N个音区各自的语音信号对应的唤醒结果中的一个，该目标唤醒结果中包括了唤醒词和用于指示待识别音区的目标标识。

一般情况下，N个音区各自的语音信号对应的唤醒结果中除了目标唤醒结果以外的唤醒结果中不包括唤醒词。

步骤S204、确定目标标识所指示的音区为待识别音区。

具体地，根据目标标识所指示的音区，确定待识别音区。

示例性地，识别区域包括4个音区：音区a₁、音区a₂、音区a₃和音区a₄，音区a₁与唤醒词模型b₁对应，音区a₂与唤醒词模型b₂对应，音区a₃与唤醒词模型b₃对应，音区a₄与唤醒词模型b₄对应。若位于音区a₁的用户需要终端设备提供语音服务，则终端设备通过唤醒词模型b₁获取的音区a₁的语音信号对应的唤醒结果中包括唤醒词和用于指示音区a₁的标识，此时，音区a₁为待识别音区。若位于音区a₂的用户1需要终端设备提供语音服务，则终端设备通过唤醒词模型b₂获取的音区a₂的语音信号对应的唤醒结果中包括唤醒词和用于指示音区a₂的标识，此时，音区a₂为待识别音区。若位于音区a₃的用户需要终端设备提供语音服务，则终端设备通过唤醒词模型b₃获取的音区a₃的语音信号对应的唤醒结果中包括唤醒词和用于指示音区a₃的标识，此时，音区a₃为待识别音区。若位于音区a₄的用户需要终端设备提供语音服务，则终端设备通过唤醒词模型b₄获取的音区a₄的语音信号对应的唤醒结果中包括唤醒词和用于指示音区a₄的标识，此时，音区a₄为待识别音区。

步骤S205、对N个音区中的待识别音区的语音信号进行语音识别。

具体地，该步骤的具体实现参见图2所示的实施例中的步骤S103的具体实现，此处不再赘述。

本实施例中终端设备通过一个唤醒引擎实现多音区语音识别，占用的CPU资源较少。同时，本实施例中的N个音区和N个唤醒词模型一一对应，在某一音区的语音信号中包括唤醒词信号的情况下，通过与该音区对应的唤醒词模型得到的该音区的语音信号所对应的唤醒结果中包括唤醒词和指示该音区的标识，从而可快速的获取到N个音区中的待识别音区。

其次，对唤醒词模型为1个的情况所对应的多音区语音识别方法进行说明。

图4为本申请实施例提供的多音区语音识别方法的流程图三，如图4所示，本实施例的方法可以包括：

步骤S301、终端设备获取识别区域的N个音区各自的语音信号，N为大于1的整数，终端设备包括一个唤醒引擎。

步骤S302、终端设备通过唤醒引擎加载唤醒词模型，并按照N个音区的预设排序，依次获取N个音区各自的语音信号对应的唤醒结果，其中，唤醒词模型为用于识别语音信号中的唤醒词的模型。

具体地，N个音区的预设排序可通过排序列表的形式存储在终端设备中。排序列表中可包括各音区的标识或者采用语音信号的麦克风的标识。终端设备通过唤醒引擎加载唤醒词模型，并按照N个音区的预设排序，依次获取N个音区各自的语音信号分别对应的唤醒结果。

步骤S203、若第n次获取到的唤醒结果中包括唤醒词，则确定排序为第n的音区为所述待识别音区，n＝1,…N。

具体地，由于存在N个音区，因此，终端设备每轮的唤醒过程中会获取N次唤醒结果。因此，本实施例中的第n次获取到的唤醒结果是在当前一轮的唤醒过程中的第n次获取到的唤醒结果。

示例性地，识别区域包括4个音区：音区a₁、音区a₂、音区a₃和音区a₄，预设排序为：音区a₁、音区a₂、音区a₃、音区a₄。终端设备通过唤醒词模型依次获取音区a₁的语音信号、音区a₂的语音信号、音区a₃的语音信号、音区a₄的语音信号分别对应的唤醒结果。若终端设备通过唤醒词模型第2次获取到的唤醒结果中包括唤醒词，则确定在预设排序中排序第2的音区a₂为待识别音区。

此外，在另一种方案中，若n小于N，则排序为第n+1至N的音区的语音信号对应的唤醒结果也可以不再获取。

步骤S304、对N个音区中的待识别音区的语音信号进行语音识别。

本实施例中终端设备通过一个唤醒引擎实现多音区语音识别，占用的CPU资源较少。同时，本实施例中只存在一个唤醒词模型，进一步减少了多音区语音识别过程所占用的CPU资源。

以上对本申请实施例提供的多音区识别方法进行了说明，下面采用具体地实施例对本申请实施例提供装置进行说明。

图5为本申请实施例提供的终端设备的示意性框图一，参见图5，本实施例的终端设备包括处理器51和存储器52，所述存储器52中存储有指令，所述处理器51调用所述指令，控制执行如下操作：获取识别区域的N个音区各自的语音信号，N为大于1的整数；根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区；对所述待识别音区的语音信号进行语音识别。

具体地，所述处理器51调用所述指令，控制处理器51执行如下操作：获取识别区域的N个音区各自的语音信号，N为大于1的整数；根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区；对所述待识别音区的语音信号进行语音识别。

可选地，作为一个实施例，所述处理器51在用于控制执行根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：通过所述唤醒引擎加载唤醒词模型，并根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，其中，所述唤醒词模型为用于识别语音信号中的唤醒词的模型；根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区。

可选地，作为一个实施例，所述处理器51在用于控制执行根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：在所述N个音区各自的语音信号对应的唤醒结果中确定目标唤醒结果，所述目标唤醒结果包括唤醒词和目标标识；确定所述目标标识所指示的音区为所述待识别音区。

可选地，作为一个实施例，所述唤醒词模型的数量为N个，所述处理器51在用于控制执行根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果的操作时，具体用于控制执行如下操作：获取所述N个音区和所述N个唤醒词模型的对应关系；对于所述N个音区中的任一个音区，根据所述对应关系，确定与所述任一个音区对应的唤醒词模型，并根据所述任一个音区对应的唤醒词模型获取所述任一个音区的语音信号对应的唤醒结果。

可选地，作为一个实施例，所述唤醒词模型的数量为1个；所述处理器51在用于控制执行根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果的操作时，具体用于控制执行如下操作：按照所述N个音区的预设排序，依次获取所述N个音区各自的语音信号对应的唤醒结果；所述处理器在用于控制执行根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：若第n次获取到的唤醒结果中包括唤醒词，则确定排序为第n的音区为所述待识别音区，n＝1,…N。

本实施例的终端设备，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本申请实施例提供的终端设备的示意性框图二，参见图6，本实施例的通信设备在图5所示的终端设备的基础上，还包括收发器53。

所述处理器51在用于控制执行对所述待识别音区的语音信号进行语音识别的操作时，具体用于控制收发器53执行如下操作：将所述待识别音区的语音信号发送至服务器；从所述服务器接收所述待识别音区的语音信号的语音识别结果。

图7为本申请实施例提供的多音区语音识别装置的结构示意图一，上述终端设备中包括本实施例提供的多音区语音识别装置。如图7所示，本实施例的装置可以包括：处理模块71。

所述处理模块71用于：获取识别区域的N个音区各自的语音信号，N为大于1的整数；根据所述唤醒引擎和所述N个音区各自的语音信号，从所述N个音区中确定待识别音区；对所述待识别音区的语音信号进行语音识别。

可选地，作为一个实施例，所述处理模块71具体用于：通过所述唤醒引擎加载唤醒词模型，并根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，其中，所述唤醒词模型为用于识别语音信号中的唤醒词的模型；根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区。

可选地，作为一个实施例，所述处理模块71具体用于：在所述N个音区各自的语音信号对应的唤醒结果中确定目标唤醒结果，所述目标唤醒结果包括唤醒词和目标标识；确定所述目标标识所指示的音区为所述待识别音区。

可选地，作为一个实施例，所述唤醒词模型的数量为N个，所述处理模块71具体用于：获取所述N个音区和所述N个唤醒词模型的对应关系；对于所述N个音区中的任一个音区，根据所述对应关系，确定与所述任一个音区对应的唤醒词模型，并根据所述任一个音区对应的唤醒词模型获取所述任一个音区的语音信号对应的唤醒结果。

可选地，作为一个实施例，所述唤醒词模型的数量为1个；所述处理模块71具体用于：按照所述N个音区的预设排序，依次获取所述N个音区各自的语音信号对应的唤醒结果；所述处理器在用于控制执行根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区的操作时，具体用于控制执行如下操作：若第n次获取到的唤醒结果中包括唤醒词，则确定排序为第n的音区为所述待识别音区，n＝1,…N。

本实施例的多音区语音识别装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本申请实施例提供的多音区语音识别装置的结构示意图二，参见图8，本实施例的装置在图7所示的装置的基础上，还包括发送模块72和接收模块73。

发送模块72，用于将所述待识别音区的语音信号发送至服务器。

接收模块73，用于从所述服务器接收所述待识别音区的语音信号的语音识别结果。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种多音区语音识别方法，其特征在于，应用于终端设备，所述终端设备内设置有唤醒引擎，所述唤醒引擎的数量为1个，所述方法包括：

获取识别区域的N个音区各自的语音信号，N为大于1的整数；

根据所述唤醒引擎和所述N个音区各自的语音信号，获取所述N个音区对应的N个唤醒结果；

根据所述N个音区各自的语音信号对应的唤醒结果，从所述N个音区中确定待识别音区；

对所述待识别音区的语音信号进行语音识别；

所述根据所述唤醒引擎和所述N个音区各自的语音信号，获取所述N个音区对应的N个唤醒结果，包括：

通过所述唤醒引擎加载唤醒词模型，并根据所述唤醒词模型获取所述N个音区各自的语音信号对应的唤醒结果，其中，所述唤醒词模型为用于识别语音信号中的唤醒词的模型；

所述唤醒词模型的数量为N个，所述N个音区和N个唤醒词模型一一对应，所述待识别音区对应的唤醒结果中包括唤醒词和用于指示所述待识别音区的目标标识；或者，

所述唤醒词模型的数量为1个，若第n次获取到的唤醒结果中包括唤醒词，则所述待识别音区为预设排序中排序为第n的音区，所述预设排序为所述N个音区的语音信号被识别的顺序，n＝1,…N。

2.根据权利要求1所述的方法，其特征在于，对所述待识别音区的语音信号进行语音识别，包括：

将所述待识别音区的语音信号发送至服务器；

从所述服务器接收所述待识别音区的语音信号的语音识别结果。

3.一种终端设备，包括处理器和存储器，其特征在于，所述终端设备内设置有唤醒引擎，所述唤醒引擎的数量为1个，所述存储器中存储有指令，所述处理器调用所述指令，控制执行如下操作：

获取识别区域的N个音区各自的语音信号，N为大于1的整数；

根据唤醒引擎和所述N个音区各自的语音信号，获取所述N个音区对应的N个唤醒结果；

对所述待识别音区的语音信号进行语音识别；

所述处理器在用于控制执行根据所述唤醒引擎和所述N个音区各自的语音信号，获取所述N个音区对应的N个唤醒结果，具体用于控制执行如下操作：

4.根据权利要求3所述的终端设备，其特征在于，所述处理器在用于控制执行对所述待识别音区的语音信号进行语音识别的操作时，具体用于控制执行如下操作：

将所述待识别音区的语音信号发送至服务器；

5.一种计算机可读存储介质，包括程序或指令，其特征在于，当所述程序或指令在计算机上运行时，权利要求1或2所述的方法被执行。