CN114596855A

CN114596855A - 一种语音唤醒方法、装置、电子设备和存储介质

Info

Publication number: CN114596855A
Application number: CN202210225931.6A
Authority: CN
Inventors: 许东星; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-07

Abstract

本申请涉及一种语音唤醒方法、装置、电子设备和存储介质，该方法包括：获取唤醒语音；正向端到端唤醒***检测所述唤醒语音中是否存在唤醒事件；若正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在事唤醒件；若逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。本申请不仅通过唤醒语音对正向端到端唤醒***进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒***进行唤醒，提升了唤醒设备的准确率，降低了误唤醒，提升了用户体验。

Description

一种语音唤醒方法、装置、电子设备和存储介质

技术领域

本申请涉及语音唤醒技术领域，特别是涉及一种语音唤醒方法、装置、电子设备和存储介质。

背景技术

语音交互***中，唤醒是很重要的交互入口。唤醒需要实时处理语音，不仅需要唤醒率高，误唤醒率低，同时对内存和功耗等***资源要求苛刻。目前的唤醒***，通常包括特征提取、声学计算、解码、置信度判决等模块。通常需要对语音输入进行流式处理，逐帧提取语音特征，送到输入声学模型计算声学得分，然后将声学得分传到唤醒网络进行识别，最后通过置信度计算输出唤醒置信度分数。

现有的语音唤醒***，由于进行声学计算和解码时，都是对原始语音进行处理，即便采用了多个***进行判决，但由于多个***都是由同样时序的语音训练得到的，模型之间存在较大的相似性，并不能提供额外新的信息进行误唤醒抑制；因此，这样的***误唤醒通常较高，这也是当前唤醒***的一个难点。

发明内容

基于当前语音唤醒中的问题，本申请提供一种语音唤醒方法、装置、电子设备和存储介质。

第一方面，本申请实施例提供一种语音唤醒方法，包括：

获取唤醒语音；

正向端到端唤醒***检测所述唤醒语音中是否存在唤醒事件；

若正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在唤醒事件；

若逆向端到端唤醒***检测唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

进一步地，上述一种语音唤醒方法，还包括：训练正向端到端唤醒***；

其中，训练正向端到端唤醒***的步骤，包括：

获取语音以及语音对应的标注文本对；

训练语音以及语音对应的标注文本对得到正向端到端唤醒***。

进一步地，上述一种语音唤醒方法，还包括：训练逆向端到端唤醒***；

其中，训练逆向端到端唤醒***的步骤，包括：

获取语音以及语音对应的标注文本对；

逆向语音得到逆向后的语音，提取逆向后的语音特征得到逆向后的语音的语音特征，逆向语音对应的标注文本得到逆向后的语音对应的标注文本；

利用所述逆向后的语音的语音特征以及所述逆向后的语音对应的标注文本训练得到逆向端到端唤醒***。

进一步地，上述一种语音唤醒方法，还包括：

若正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，所述逆向端到端唤醒***检测所述唤醒语音的逆向特征是否存在唤醒事件；

若逆向端到端唤醒***检测所述唤醒语音的逆向特征中不存在唤醒事件，则唤不醒对应设备。

进一步地，上述一种语音唤醒方法，还包括：

若正向端到端唤醒***检测唤醒语音中存在唤醒事件，缓存预设时间段内的语音得到第一语音，对第一语音进行逆向得到逆向后的第一语音；

提取逆向后的第一语音的语音特征，逆向端到端唤醒***检测逆向后的第一语音的语音特征中是否存在唤醒事件；

若逆向端到端唤醒***检测逆向后的第一语音的语音特征中存在唤醒事件，则唤醒对应设备。

进一步地，上述一种语音唤醒方法中，缓存预设时间段内的是缓存最近N秒的语音，其中，N是浮点数。

进一步地，上述一种语音唤醒方法中，唤醒语音的逆向特征是唤醒语音的逆时序特征。

第二方面，本申请实施例还提供一种语音唤醒装置，包括：

获取模块：用于获取唤醒语音；

第一检测模块：用于正向端到端唤醒***检测所述唤醒语音中是否存在唤醒事件；

第二检测模块：用于若正向端到端唤醒***检测唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在唤醒事件；

唤醒模块：用于若逆向端到端唤醒***检测唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

第三方面，本申请实施例还提供一种电子设备，包括：处理器和存储器；

处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种语音唤醒方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行上述任一项一种语音唤醒方法。

本申请实施例的优点在于：本申请涉及一种语音唤醒方法、装置、电子设备和存储介质，该方法包括：获取唤醒语音；正向端到端唤醒***检测所述唤醒语音中是否存在唤醒事件；若正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在事唤醒件；若逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。本申请不仅通过唤醒语音对正向端到端唤醒***进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒***进行唤醒，提升了唤醒设备的准确率，降低了误唤醒，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音唤醒方法示意图一；

图2为本申请实施例提供的一种语音唤醒方法示意图二；

图3为本申请实施例提供的一种语音唤醒方法示意图三；

图4为本申请实施例提供的一种语音唤醒装置示意图；

图5是本申请实施例提供的一种电子设备的示意性框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵时做类似改进，因此本申请不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1为本申请实施例提供的一种语音唤醒方法示意图一。

第一方面，本申请实施例提供一种语音唤醒方法，结合图1，包括S101至S104四个步骤：

S101：获取唤醒语音。

具体的，本申请实施例中，唤醒语音可以是厂商定制的唤醒语音，如云知声对应的“你好魔方”，比亚迪对应的“小迪，你好”等语音，也可以是用户根据个人爱好设置的语音。

S102：正向端到端唤醒***检测唤醒语音中是否存在唤醒事件。

具体的，本申请实施例中，正向端到端唤醒***是语音在正常时序下能够对***进行唤醒，首先通过正向端到端唤醒***检测唤醒语音如“你好魔方”中是否存在唤醒事件。

S103：若正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在唤醒事件。

具体的，本申请实施例中，逆向端到端唤醒***是语音在逆时序下能够对***进行唤醒，如：正常时序下的语音“你好魔方”能够唤醒正向端到端唤醒***，逆时序下的“你好魔方”语音能够唤醒逆向端到端唤醒***，在正向端到端唤醒***检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒***检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件。

S104：若逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

具体的，本申请实施例中，在正向端到端唤醒***检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒***检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件，在逆向端到端唤醒***检测唤醒语音的逆向特征中存在唤醒事件的情况下，才对对应的设备进行唤醒。应理解，本申请不仅通过唤醒语音对正向端到端唤醒***进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒***进行唤醒，提升了唤醒设备的准确率，解决了误唤醒的问题，提升了用户体验。

图2为本申请实施例提供的一种语音唤醒方法示意图二。

其中，训练正向端到端唤醒***，结合图2，包括：S201至S202两个步骤：

S201：获取语音以及语音对应的标注文本对；

S202：训练语音以及语音对应的标注文本对得到正向端到端唤醒***。

具体的，本申请实施例中，语音及语音对应的标注文本对是大量人说的语音如“你好魔方”，以及“你好魔方”语音对应的标注文本，通过训练语音以及语音对应的标注文本对得到正向端到端唤醒***。

图3为本申请实施例提供的一种语音唤醒方法示意图三。

其中，训练逆向端到端唤醒***，结合图3，包括S301至S303三个步骤：

S301：获取语音以及语音对应的标注文本对；

S302：逆向语音得到逆向后的语音，提取逆向后的语音特征得到逆向后的语音的语音特征，逆向语音对应的标注文本得到逆向后的语音对应的标注文本；

S303：利用所述逆向后的语音的语音特征以及所述逆向后的语音对应的标注文本训练得到逆向端到端唤醒***。

具体的，本申请实施例中，语音及语音对应的标注文本对是大量人说的语音如“你好魔方”，以及“你好魔方”语音对应的标注文本，将语音进行逆向得到逆向后的语音，提取逆向后的语音特征得到逆向后的语音的语音特征，以及语音对应的标注文本，利用逆向后的语音的语音特征以及逆向后的语音对应的标注文本训练得到逆向端到端唤醒***。

进一步地，上述一种语音唤醒方法，还包括：

具体的，本申请实施例中，在正向端到端唤醒***检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒***检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件，在逆向端到端唤醒***检测唤醒语音的逆向特征中不存在唤醒事件的情况下，则唤不醒对应设备。

进一步地，上述一种语音唤醒方法，还包括：

若正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，缓存预设时间段内的语音得到第一语音，对第一语音进行逆向得到逆向后的第一语音。

具体的，本申请实施例中，若正向端到端唤醒***检测唤醒语音中“你好魔方”存在唤醒事件，对最近N秒的唤醒语音进行缓存，如最近一秒唤醒语音是“你好魔方”，缓存“你好魔方”，首先对缓存的语音“你好魔方”进行逆向。

提取逆向后的第一语音的语音特征，逆向端到端唤醒***检测逆向后的第一语音的语音特征中是否存在唤醒事件。

具体的，本申请实施例中，提取逆向后的缓存语音“你好魔方”得到对应的逆向后的第一语音的语音特征，逆向端到端唤醒***检测逆向后的第一语音的语音特征中是否存在唤醒事件。

具体的，本申请实施例中，在逆向端到端唤醒***检测逆向后的第一语音的语音特征中存在唤醒事件的情况下，则唤醒对应设备。

进一步地，上述一种语音唤醒方法中，缓存预设时间段内语音的特征得到第一语音特征是缓存最近N秒的语音的特征，其中，N是浮点数。

具体的，本申请实施例中的N为浮点数，具体数值可以根据唤醒词命令长度灵活进行调整。

图4为本申请实施例提供的一种语音唤醒装置示意图。

第二方面，本申请实施例还提供一种语音唤醒装置，结合图4，包括：

获取模块401：用于获取唤醒语音。

具体的，本申请实施例中，获取模块401获取唤醒语音，唤醒语音可以是厂商定制的唤醒语音，如云知声对应的“你好魔方”，比亚迪对应的“小迪，你好”等语音，也可以是用户根据个人爱好设置的语音。

第一检测模块402：用于正向端到端唤醒***检测唤醒语音中是否存在唤醒事件。

具体的，本申请实施例中，正向端到端唤醒***是语音在正常时序下能够对***进行唤醒，首先通过正向端到端唤醒***的第一检测模块402检测唤醒语音如“你好魔方”中是否存在唤醒事件。

第二检测模块403：用于若正向端到端唤醒***检测唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在唤醒事件。

具体的，本申请实施例中，逆向端到端唤醒***是语音在逆时序下能够对***进行唤醒，如：正常时序下的语音“你好魔方”能够唤醒正向端到端唤醒***，逆时序下的语音能够唤醒逆向端到端唤醒***，在正向端到端唤醒***检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒***的第二检测模块403检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件。

唤醒模块404：用于若逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

具体的，本申请实施例中，在正向端到端唤醒***检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒***检测唤醒语音的逆向特征中是否存在唤醒事件，在逆向端到端唤醒***检测唤醒语音“你好魔方”的逆向特征中存在唤醒事件的情况下，唤醒模块404才对对应的设备进行唤醒。应理解，本申请不仅通过唤醒语音对正向端到端唤醒***进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒***进行唤醒，提升了唤醒设备的准确率，解决了误唤醒的问题，提升了用户体验。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线***504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线***504用于实现这些组件之间的连接通信。总线***504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线***504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作***和应用程序。

其中，操作***，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种语音唤醒方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的一种语音唤醒方法各实施例的步骤。

获取唤醒语音；

正向端到端唤醒***检测唤醒语音中是否存在唤醒事件；

若正向端到端唤醒***检测唤醒语音中存在唤醒事件，逆向端到端唤醒***检测唤醒语音的逆向特征是否存在唤醒事件；

若逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

本申请实施例提供的一种语音唤醒方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种语音唤醒方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成一种语音唤醒方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音唤醒方法，其特征在于，包括：

获取唤醒语音；

所述正向端到端唤醒***检测所述唤醒语音中是否存在唤醒事件；

若所述正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，所述逆向端到端唤醒***检测所述唤醒语音的逆向特征是否存在唤醒事件；

若所述逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

2.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述方法还包括：训练正向端到端唤醒***；

其中，所述训练正向端到端唤醒***的步骤，包括：

获取语音以及语音对应的标注文本对；

训练所述语音以及语音对应的标注文本对得到正向端到端唤醒***。

3.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述方法还包括：训练逆向端到端唤醒***；

其中，所述训练逆向端到端唤醒***的步骤，包括：

获取语音以及语音对应的标注文本对；

逆向所述语音得到逆向后的语音，提取所述逆向后的语音特征得到逆向后的语音的语音特征，逆向所述语音对应的标注文本得到逆向后的语音对应的标注文本；

4.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述方法还包括：

若所述逆向端到端唤醒***检测所述唤醒语音的逆向特征中不存在唤醒事件，则唤不醒对应设备。

5.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述方法还包括：

若所述正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，缓存预设时间段内的语音得到第一语音，对所述第一语音进行逆向得到逆向后的第一语音；

提取所述逆向后的第一语音的语音特征，所述逆向端到端唤醒***检测所述逆向后的第一语音的语音特征中是否存在唤醒事件；

若所述逆向端到端唤醒***检测所述逆向后的第一语音的语音特征中存在唤醒事件，则唤醒对应设备。

6.根据权利要求5所述的一种语音唤醒方法，其特征在于，缓存预设时间段内的是缓存最近N秒的语音，其中，N是浮点数。

7.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述唤醒语音的逆向特征是唤醒语音的逆时序特征。

8.一种语音唤醒装置，其特征在于，包括：

获取模块：用于获取唤醒语音；

第一检测模块：用于所述正向端到端唤醒***检测所述唤醒语音中是否存在唤醒事件；

第二检测模块：用于若所述正向端到端唤醒***检测所述唤醒语音中存在唤醒事件，所述逆向端到端唤醒***检测所述唤醒语音的逆向特征是否存在唤醒事件；

唤醒模块：用于若所述逆向端到端唤醒***检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述一种语音唤醒方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种语音唤醒方法。