CN111883145A

CN111883145A - 唤醒识别处理方法和装置

Info

Publication number: CN111883145A
Application number: CN202010740306.6A
Authority: CN
Inventors: 王鹏; 甘津瑞
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-03

Abstract

本发明公开一种唤醒识别处理方法和装置，其中，唤醒识别处理方法，包括：响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。通过蓝牙设备和主设备中的语音处理服务配合完成Oneshot功能，仅需要在特定唤醒事件后才开启音频的无线传输，从而可以实现能明显的降低蓝牙外设的功耗，增加待机时长，并提高识别的准确率。之后还能进一步降低蓝牙外设的质量和体积，并能支持后续的语音能力的拓展。

Description

唤醒识别处理方法和装置

技术领域

本发明属于语音唤醒识别技术领域，尤其涉及唤醒识别处理方法和装置。

背景技术

蓝牙外设录音，主设备(一般是手机)实现方案。蓝牙外设仅作为音频的采集设备，采集到的音频数据传输到主设备后，在主设备处理语音。

蓝牙外设仅作为单纯的音频采集设备，实时采集音频，并通过无线蓝牙通道将采集到的音频实时传输给主设备。在主设备中完成语音信号的处理。Oneshot功能的具体实现还是在主设备。

发明内容

本发明实施例提供一种唤醒识别处理方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种唤醒识别处理方法，包括：响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。

第二方面，本发明实施例提供另一种唤醒识别处理方法，包括：基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据；对所述音频数据进行语音识别处理。

第三方面，本发明实施例提供一种唤醒识别处理装置，包括：唤醒模块，配置为响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；传输模块，配置为经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。

第四方面，本发明实施例提供另一种唤醒识别处理装置，包括：接收模块，配置为基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据；识别处理模块，配置为对所述音频数据进行语音识别处理。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的唤醒识别处理方法的步骤。

第六方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过蓝牙设备和主设备中的语音处理服务配合完成Oneshot功能，仅需要在特定唤醒事件后才开启音频的无线传输，从而可以实现能明显的降低蓝牙外设的功耗，增加待机时长，并提高识别的准确率。之后还能进一步降低蓝牙外设的质量和体积，并能支持后续的语音能力的拓展。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种唤醒识别处理方法的流程图；

图2为本发明一实施例提供的另一种唤醒识别处理方法的流程图；

图3为本发明一实施例提供的又一种唤醒识别处理方法的流程图；

图4为本发明一实施例提供的又一种唤醒识别处理方法的流程图；

图5为本发明一实施例提供的又一种唤醒识别处理方法的流程图；

图6是本发明实施例的唤醒识别处理的方案一具体实施例的***流程图；

图7时本发明一实施例提供的一种唤醒识别处理装置的框图；

图8时本发明一实施例提供的另一种唤醒识别处理装置的框图；

图9是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种唤醒识别处理方法的一实施例的流程图，其中，一种唤醒识别处理方法，用于蓝牙外设。

如图1所示，在步骤101中年，响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；

在步骤102中，经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。

在本实施例中，对于步骤101，唤醒识别处理装置响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力，例如，蓝牙外设为蓝牙耳机，主设备为智能手机，当蓝牙耳机开启后，会实时分析采集到的音频，直到检测到用户的唤醒词，然后才会建立蓝牙耳机与手机之间的蓝牙传输通道；

对于步骤102，经由蓝牙传输通道实时向主设备传输唤醒后接收的第一音频数据，例如，蓝牙外设为蓝牙耳机，主设备为智能手机，当建立蓝牙传输通道后，蓝牙耳机向手机持续传输唤醒后接收的音频。

在本实施例的方案中，通过蓝牙外设与主设备中的语音处理服务配合，完成Oneshot功能。

请参考图2，其示出了本发明一实施例提供的另一种唤醒识别处理方法的流程图，该流程图主要是针对流程图图1中步骤101“所述响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道”进一步限定的步骤的流程图。其中，所述蓝牙外设具备缓存能力。

如图2所示，在步骤201中，持续缓存固定时长的第二音频数据，实时解析所述第二音频数据中是否包含唤醒词；

在步骤202中，若所述第二音频数据中包含唤醒词，建立与所述主设备之间的蓝牙传输通道。

在本实施例中，对于步骤201，唤醒识别处理装置在开启Oneshot功能后会持续缓存固定时长的第二音频数据，实时解析所述第二音频数据中是否包含唤醒词；之后，对于步骤202，若所述第二音频数据中包含唤醒词，建立与所述主设备之间的蓝牙传输通道。例如，在一个用户开车出行的情景下，蓝牙外设持续缓存一个固定时长的音频，直至检测到唤醒词，例如一个缓存音频为：去北京西站，小驰。其中小驰为唤醒词，蓝牙外设检测到唤醒词后建立与所述主设备之间的蓝牙传输通道。

在本实施例的方案中，通过持续缓存固定时长的第二音频数据，从而可以实现就算用户指令在唤醒词前面，也可以正常的识别用户指令。

请参考图3，其示出了本发明一实施例提供的另一种唤醒识别处理方法的流程图，该流程图主要是针对流程图图2中步骤202“所述建立与所述主设备之间的蓝牙传输通道”之前进一步限定的步骤的流程图。

如图3所示，在步骤301中，向所述主设备发送唤醒指令；

在步骤302中，接收所述主设备返回的音频请求；

在步骤303中，响应于所述音频请求，建立与所述主设备之间的蓝牙传输通道。

在本实施例中，对于步骤301，唤醒识别处理装置在检测到唤醒词后，向主设备发送唤醒指令；然后，对于步骤302，唤醒识别处理装置接收主设备返回的音频请求；最后，对于步骤303，唤醒识别处理装置响应于主设备的音频请求，才会建立与所述主设备之间的蓝牙传输通道。例如，蓝牙外设在没有收到主设备的音频请求之前，蓝牙传输通道是关闭的，只有在收到主设备的音频请求之后，才会建立与主设备的蓝牙传输通道。

在本实施例的方案中，通过主设备的音频请求建立与主设备之间的蓝牙传输通道，从而可以实现降低蓝牙外设在开启Oneshot后的功耗，增加待机时长，并显著提高了识别的准确率。

在一些可选的实施例所述的方法中，所述经由所述蓝牙传输通道向所述主设备传输唤醒后实时接收的第一音频数据包括：经由所述蓝牙传输通道实时向所述主设备传输持续缓存的所述第二音频数据和唤醒后接收的第一音频数据。

例如，一个缓存音频与唤醒后接收的音频为：去北京西站，小驰。很快就可以到的。又例如：很快就可以到的，小驰，去北京西站。其中，小驰为唤醒词，小驰之前的为缓存音频，小驰之后的为唤醒后接收的音频。蓝牙外设向主设备传输的音频包括缓存音频与唤醒后接收的音频。

在本实施例的方案中，通过向主设备传输的音频包括缓存音频与唤醒后接收的音频，从而可以实现唤醒词与用户指令没有先后顺序，让语音交互更加的方便与智能。

请参考图4，其示出了本发明的一种唤醒识别处理方法的另一实施例的流程图，其中，一种唤醒识别处理方法，用于主设备。

如图4所示，在步骤401中，基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据；

在步骤402中，对所述音频数据进行语音识别处理。

在本实施例中，对于步骤401，唤醒识别处理装置基于与蓝牙外设建立的蓝牙传输通道，接收蓝牙外设传输的音频数据；之后，对于步骤402，唤醒识别处理装置对音频数据进行语音识别处理。

在本实施例的方案中，通过接收蓝牙外设传输的音频数据，对音频数据进行语音识别处理，从而可以实现和蓝牙外设配合实现Oneshot功能。

请参考图5，其示出了本发明一实施例提供的另一种唤醒识别处理方法的流程图，该流程图主要是针对流程图图4中步骤401“基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据”进一步限定的步骤的流程图。

如图5所示，在步骤501中，响应于接收到所述蓝牙外设发送的唤醒指令，向所述蓝牙外设发送音频请求；

在步骤502中，响应于建立与所述蓝牙外设之间的蓝牙传输通道，接收所述蓝牙外设传输的音频数据。

在本实施例中，对于步骤501，唤醒识别处理装置响应于接收到蓝牙外设发送的唤醒指令，向蓝牙外设发送音频请求；之后，对于步骤502，唤醒识别处理装置响应于建立与所述蓝牙外设之间的蓝牙传输通道，接收所述蓝牙外设传输的音频数据。

在本实施例的方案中，通过向蓝牙外设发送音频请求建立与蓝牙外设之间的蓝牙传输通道，从而可以实现降低蓝牙外设在开启Oneshot后的功耗，增加待机时长。并显著提高了识别的准确率。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

蓝牙外设实时采集音频并通过无线信号传输给主设备，导致蓝牙外设耗电严重，无法长时间待机。

Oneshot功能的具体实现在主设备端，导致需要实时通过无线信号传输音频，耗电严重。

发明人在实现本发明的过程中发现为什么不容易想到原因：

一般会在蓝牙外设上独立实现Oneshot功能。Oneshot功能依赖于唤醒，识别和语义理解。需要较高的硬件能力，包括CPU处理能力，内存大小。这就导致了蓝牙外设的成本和功耗都非常高。

因为本方案需要和主设备的语音处理服务相互协调。需要语音技术能力深入到蓝牙外设的软件开发阶段。需要从业人员能同时掌握蓝牙外设和语音技术开发能力。

本申请实施例的方案通过以下方案解决上述现有技术中存在的技术问题：

蓝牙外设内置唤醒模块，实时分析采集到的音频。同时，当外设开启Oneshot功能后，会一直缓存固定时间的音频。当触发唤醒事件后，才会启动蓝牙无线通道，将缓存的音频和后续的实时音频传输到主设备中。和主设备中的语音处理服务配合，完成Oneshot功能。

由于仅需要在特定唤醒事件后才开启音频的无线传输，能明显的降低蓝牙外设的功耗，可长期低功耗运行。

本发明的技术创新点：

流程具体描述：

蓝牙外设分析实时音频，等待唤醒事件的发生，并同步缓存固定时长的音频。

唤醒事件发生后通知主设备，主设备准备语音服务，请求外设传递音频。

外设将缓存音频和后续实时音频通过无线蓝牙通道传输给主设备。

主设备中的语音服务处理获取到的音频，和外设配合实现Oneshot功能。

发明人在实现本申请的过程中，还尝试过以下方案：

和正式版的区别是蓝牙外设不增加音频缓存。在蓝牙外设上增加唤醒功能，当检测到有唤醒词后，再通过蓝牙无线信号试试传输唤醒后的音频。和主设备相互配合实现Oneshot功能。由于这种方案不需要实时传输音频到主设备端实现完整功能，因此也达到了省电的目的。

优点：

方案成熟，蓝牙外设不需要做大量修改。

缺点：

缺少缓存，导致传输后丢失前部分音频，效果不理想。

请参考图7，其示出了本发明一实施例提供的一种唤醒识别处理装置的框图。

如图7所示，唤醒识别处理装置700，包括：唤醒模块710和传输模块720。

其中，唤醒模块710，配置为响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；传输模块720，配置为经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。

如图8所示，其示出了另一种用于唤醒识别处理装置800，包括：接收模块810和识别处理模块820。

其中，接收模块810，配置为基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据；

识别处理模块820，配置为对所述音频数据进行语音识别处理。

应当理解，图7和图8中记载的诸模块与参考图1、图2、图3、图4和图5中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7和图8中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如唤醒模块可以描述为响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力，另外，还可以通过硬件处理器来实现相关功能模块，例如唤醒模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的唤醒识别处理方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；

经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据；

对所述音频数据进行语音识别处理。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据唤醒识别处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至唤醒识别处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项实体分类方法。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该设备包括：一个或多个处理器910以及存储器920，图9中以一个处理器910为例。用于唤醒识别处理方法的设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于唤醒识别处理装置方法。输入装置930可接收输入的数字或字符信息，以及产生与用于唤醒识别处理装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于唤醒识别处理装置中，用于蓝牙外设，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

作为另一种实施方式，上述电子设备应用于唤醒识别处理装置中，用于主设备，包括：

对所述音频数据进行语音识别处理。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种唤醒识别处理方法，用于蓝牙外设，包括：

2.根据权利要求1所述的方法，其中，所述蓝牙外设具备缓存能力，所述响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道包括：

持续缓存固定时长的第二音频数据，实时解析所述第二音频数据中是否包含唤醒词；

若所述第二音频数据中包含唤醒词，建立与所述主设备之间的蓝牙传输通道。

3.根据权利要求2所述的方法，其中，所述建立与所述主设备之间的蓝牙传输通道之前包括：

向所述主设备发送唤醒指令；

接收所述主设备返回的音频请求；

响应于所述音频请求，建立与所述主设备之间的蓝牙传输通道。

4.根据权利要求2所述的方法，其中，所述经由所述蓝牙传输通道向所述主设备传输唤醒后实时接收的第一音频数据包括：

经由所述蓝牙传输通道实时向所述主设备传输持续缓存的所述第二音频数据和唤醒后接收的第一音频数据。

5.一种唤醒识别处理方法，用于主设备，包括：

对所述音频数据进行语音识别处理。

6.根据权利要求5所述的方法，其中，所述基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据包括：

响应于接收到所述蓝牙外设发送的唤醒指令，向所述蓝牙外设发送音频请求；

响应于建立与所述蓝牙外设之间的蓝牙传输通道，接收所述蓝牙外设传输的音频数据。

7.一种唤醒识别处理装置，包括：

唤醒模块，配置为响应于所述蓝牙外设被唤醒，建立与所述主设备之间的蓝牙传输通道，其中，所述主设备具备语音识别能力，所述蓝牙外设不具备语音识别能力；

传输模块，配置为经由所述蓝牙传输通道实时向所述主设备传输唤醒后接收的第一音频数据。

8.一种唤醒识别处理装置，包括：

接收模块，配置为基于与蓝牙外设建立的蓝牙传输通道，接收所述蓝牙外设传输的音频数据；

识别处理模块，配置为对所述音频数据进行语音识别处理。

9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6中任一项所述方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。