CN110534099A

CN110534099A - 语音唤醒处理方法、装置、存储介质及电子设备

Info

Publication number: CN110534099A
Application number: CN201910828451.7A
Authority: CN
Inventors: 陈杰; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2019-12-03
Anticipated expiration: 2039-09-03
Also published as: CN110534099B

Abstract

本申请提供的一种语音唤醒处理方法、装置、存储介质及电子设备，取该输入语音信息的音频帧特征，将其输入声学模型进行处理，得到预设唤醒词的每个音节对应的目标音频帧特征的后验概率，利用部署的分别针对成人模式和儿童模式的置信度判决，实现对得到的这些后验概率的双置信度判决，以使每个音节得到两个置信度得分，其中任一置信度得分的判决结果通过，会从缓存中获取相应长度的校验音频帧特征进行二次置信度校验，待置信度校验结果通过，可以直接响应该预设唤醒词对应的指令，控制电子设备执行预设操作。可见，本实施例提供的语音唤醒处理方法，能够同时兼顾成人语音唤醒性能和儿童语音唤醒性能，提高了语音唤醒效率及准确性。

Description

语音唤醒处理方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能应用领域，具体涉及一种语音唤醒处理方法、装置、存储介质及电子设备。

背景技术

语音识别作为一种人工智能技术，已在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域得到广泛应用，使得应用于各领域的电子设备具有语音识别能力，通过识别用户发出唤醒词，来唤醒电子设备及其包含的应用，为用户使用电子设备提供了极大便利。

现有技术中，参照图1示出的现有语音唤醒处理方法的流程示意图，通常是将用户输入的语音信息发送至声学模型(如深度神经网络)，得到组成唤醒词的音素或音节等，同时，经填充单元还会得到非唤醒词，之后由后验处理模块的平滑窗和置信度计算窗，对唤醒词的音素或音节进行处理，得到该唤醒词的置信分数，若该置信分数达到阈值，将响应该唤醒词，控制电子设备执行预设操作。

可见，现有的语音唤醒处理方法虽然可以通过调整阈值，来平衡唤醒性能，但其并未考虑到成人语音特征与儿童语音特征之间的差别，导致声学模型的输出准确性较低，降低了对电子设备的语音唤醒性能。

发明内容

有鉴于此，本申请实施例提供一种语音唤醒处理方法、装置、存储介质及电子设备，能够同时兼顾成人语音唤醒性能和儿童语音唤醒性能，提高了语音唤醒效率及准确性。

为实现上述目的，本申请实施例提供如下技术方案：

一方面，本申请提出了一种语音唤醒处理方法，所述方法包括：

获取输入的语音信息的音频帧特征；

将所述音频帧特征输入声学模型进行处理，得到与预设唤醒词的每个音节对应的目标音频帧特征的后验概率；

对所述每个音节对应的目标音频帧特征的后验概率进行双置信度判决，得到相应音节的第一置信度得分及第二置信度得分；

利用所述第一置信度得分和所述第二置信度得分中通过的判决结果，获取所述语音信息的音频帧特征中的校验音频帧特征；

获取所述校验音频帧特征的置信度校验结果，所述置信度校验结果是对所述校验音频帧特征进行二次置信度判决得到的；

若所述置信度校验结果通过，响应所述预设唤醒词对应的指令，控制电子设备执行预设操作。

又一方面，本申请提出了一种语音唤醒处理装置，所述装置包括：

特征获取模块，用于获取输入的语音信息的音频帧特征；

后验概率获取模块，用于将所述音频帧特征输入声学模型进行处理，得到与预设唤醒词的每个音节对应的目标音频帧特征的后验概率；

置信度判决模块，用于对所述每个音节对应的目标音频帧特征的后验概率进行双置信度判决，得到相应音节的第一置信度得分及第二置信度得分；

校验特征获取模块，用于利用所述第一置信度得分和所述第二置信度得分中通过的判决结果，获取所述语音信息的音频帧特征中的校验音频帧特征；

置信度校验结果获取模块，用于获取所述校验音频帧特征的置信度校验结果，所述置信度校验结果是对所述校验音频帧特征进行二次置信度判决得到的；

语音唤醒模块，用于若所述置信度校验结果通过，响应所述预设唤醒词对应的指令，控制电子设备执行预设操作。

又一方面，本申请提出了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行，实现如上所述的语音唤醒处理的各步骤的程序。

又一方面，本申请提出了一种电子设备，所述电子设备包括：

声音采集器，用于采集用户输出的语音信息；

通信接口；

存储器，用于存储实现如上所述的语音唤醒处理的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如上所述的语音唤醒处理的各步骤。

由此可见，相对于现有技术，本申请在获取用户针对电子设备输入的语音信息后，将获取该语音信息的音频帧特征，并通过将其输入声学模型进行处理，得到该语音信息中包含的预设唤醒词的每个音节对应的目标音频帧特征的后验概率，之后，本实施例将会考虑到不同类型用户(如成人和儿童)的语音特征之间的差异，部署分别针对成人模式和儿童模式的不同的置信度判决模块，共享一个声学模型，实现对得到的这些后验概率的双置信度判决，以使每个音节得到两个置信度得分，其中任一置信度得分的判决结果通过，会从缓存中获取相应长度的校验音频帧特征进行二次置信度校验，待置信度校验结果通过，可以确定语音信息中包含了该预设唤醒词，可以直接响应该预设唤醒词对应的指令，控制电子设备执行预设操作。可见，本实施例提供的语音唤醒处理方法，能够同时兼顾成人语音唤醒性能和儿童语音唤醒性能，提高了语音唤醒效率及准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了现有的一种语音唤醒处理方法的流程示意图；

图2示出了本申请提出的语音唤醒处理方法的研发过程中，提出的实现语音唤醒处理方法的一可选结构示意图；

图3示出了实现本申请提出的语音唤醒处理方法的一可选实例的结构示意图；

图4示出了本申请提出的电子设备的一可选实例的硬件结构示意图；

图5示出了本申请提出的电子设备的又一可选实例的硬件结构示意图；

图6示出了本申请提出的语音唤醒处理方法的一可选实例的流程图；

图7示出了本申请提出的语音唤醒处理方法的一可选实例的信令流程图；

图8示出了本申请提出的语音唤醒处理装置的一可选实例的结构示意图；

图9示出了本申请提出的语音唤醒处理装置的又一可选实例的结构示意图；

图10示出了实现本申请提出的语音唤醒处理方法的一种***结构示意图；

图11示出了实现本申请提出的语音唤醒处理方法的一应用场景示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

如背景技术部分所介绍，目前语音唤醒电子设备应用中，电子设备所执行的语音唤醒处理方法，因只使用一个声学模型，对不同类型用户(如成人用户、儿童用户)的语音信息进行处理，从而导致这一个声学模型，无法兼顾成人和儿童的语音唤醒性能，通常情况下，模型训练的样本数据中，成人的数据会显著大于儿童数据，所以，现有的这种语音唤醒处理方法，可能会在成人唤醒性能上较高，但儿童唤醒性能很差。

为了提高语音唤醒性能，本申请提出训练两个不同大小的声学模型，构成两级声学模型，并共享一个后验处理模块来计算置信分数，进行最终判决，参照图2所示的一种语音唤醒处理方法的流程示意图，对于用户输出的语音信息，可以先进行语音特征信息的提取，如采用MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)方式实现，但并不局限于此，再将提取到的语音特征信息写入帧缓冲区，由第一级模型即较小的声学模型(如图2中的第一声学模型)，对提取的语音特征信息进行置信分数计算，如利用隐马尔科夫模型HMM，计算得到该语音特征信息的置信分数；或者采用上文图1所示的后验处理模块进行置信分数计算等，在第一级模型被触发后，还可以将上述提取到的相同的语音特征信息发送至较大的声学模型(如图2中的第二声学模型)，采用类似方式计算语音特征信息的置信分数，从而实现对同一语音特征信息的二次判决，相对于图1所示的单个模型的语音唤醒处理方式，在一定程度上提高了语音唤醒性能。

与此同时，本申请还提出了另一种语音唤醒处理方法，其与上述图2所示的语音唤醒处理方法的区别在于，在第一级模型被触发后，是将用户输出的语音信息发送至云端的服务器，由服务器的自动语音识别(Automatic Speech Recognition，ASR)部件进行识别，此时，该服务器可以采用更大规模的声学模型，并结合较大的语言模型，经过编码器解码处理，实现对该语音信息的二次判决。

由此可见，本申请上文提出的两种语音唤醒处理方法，都是引入了一个较大的二级模型，达到提升***性能的目的，但是上文提出的几种语音唤醒处理方法，虽然相对于单个声学模型的方案，能够适当提高语音唤醒性能，但均未真正考虑成人语音特征与儿童语音特征之间的存在的差异，儿童相对成人语速很慢的特点，导致这几种方法中构建的声学模型，都不能真正兼顾成人与儿童的性能，进而导致使用该语音唤醒处理方法的电子设备，无法很好地同时适用于成人和儿童，大大降低了用户体验。

结合上文提出的改进方案，本申请为了解决上述儿童和成人的语音唤醒性能无法同时兼顾的问题，提出在上述图1所示的语音唤醒处理方法所使用的***架构的基础上，针对儿童语音特点进行改进，增加双置信度判决机制，并在二级模型中，将儿童与成人的模型分离开，以使两者输入的语音特征信息及训练数据不同，显著提升儿童唤醒的性能。

具体的，参照图3示出的实现本申请实施例提出的语音唤醒处理方法的***结构示意图，该***可以由前后串联的两级三个模型构成，如图3所示，一级模型除了包括特征计算模块、特征缓存模块外，配置了一个声学模型和一个双置信度判决模块，该双置信度判决模块将会分别按照成人和儿童模型进行后验处理，也就是说，该双置信度判决模块可以包括成人后验处理模块和儿童后验处理模块。在二级模型中，将会针对这两种后验处理模块，配置相应的成人校验模型和儿童校验模型，共享一级模型，当其中的任意一后验处理模块的输出结果通过，触发二级模型进行二次置信度判决，若通过，将会响应语音信息包含的预设唤醒词，控制电子设备执行预设操作，具体实现过程可以参照下文方法实施例相应部分的描述。

结合上文对本申请提出的语音唤醒处理方法的技术构思的分析，该语音唤醒处理方法可以适用于如电子设备(即终端设备)和/或服务器等计算机设备。具体的，本申请上文提出的一级模型可以部署在电子设备，二级模型是在一级模型被触发后运行，其可以部署在电子设备或云端的服务器上，但并不局限于这种部署方式，可以根据实际场景的需求确定。

示例性的，本申请提出的语音唤醒处理方法可以应用于电子设备，也就是说，上述***结构中的一级模型和二级模型均可以位于电子设备，当然，根据实际需要一级模型可以位于电子设备，二级模型可以位于服务器或其他设备，无论是哪种***布局，实现语音唤醒处理方法的过程类似，本申请不再针对每一种***布局，分别描述其实现语音唤醒处理方法的过程。

其中，上述电子设备可以是手机、平板电脑、可穿戴设备、车载设备、智能家居设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、个人数字助理(personal digital assistant，PDA)等等，本申请实施例对电子设备的具体类型不做限定。

应当理解，为了实现对电子设备的语音控制，通常需要电子设备具有语音识别功能，如安装有语音助手等应用，这样，用户需要使用电子设备时，可以不用手动操作，直接说该电子设备的唤醒词，即可启动电子设备或其安装的某应用等，非常方便。通常情况下，对于不同厂家不同类型的电子设备，其设定的启动***及各应用的唤醒词可能会有所差异，本申请对此不做详述，且用户可以根据实际需求，灵活调整电子设备的***及应用的唤醒词，本申请对唤醒词的配置方法及其使用方法不做详述。

示例性的，图4示出了实现本申请提供的语音唤醒处理方法的一种电子设备的硬件结构示意图，该电子设备可以包括：声音采集器11、通信接口12、存储器13和处理器14，其中：

本实施例中，声音采集器11、通信接口12、存储器13和处理器14可以通过通信总线实现相互间的通信，且该声音采集器11、通信接口12、存储器13、处理器14以及通信总线的数量可以为至少一个，可以依据具体应用需求确定，本申请对上述电子设备组成部件的数量不作限定。

声音采集器11可以采集用户针对电子设备输出的语音信息，通常可以包含唤醒电子设备***和/或电子设备安装的任一应用的唤醒词，也就是说，当用户需要唤醒电子设备或其具有的某一应用时，可以直接说相应的预设唤醒词，电子设备的声音采集器11就可以采集用户输出的包含该唤醒词的语音信息，以便通过识别该唤醒词，响应对应的控制指令，控制电子设备执行预设操作，本申请对电子设备的唤醒词的配置及其使用方法不做详述。

通信接口12可以接收声音采集器11输出的语音信息，并将其发送至处理器14进行处理，还可以用来实现声音采集器11与存储器13，存储器13与处理器14之间的数据交互，或者是电子设备中其他组成部件之间，其他组成部件与本实施例列举的组成部件之间的数据交互，本申请对通信接口12收发数据的内容不做详述，可以依据电子设备产品类型及其应用场景确定。

基于此，该通信接口12可以包括无线通信模块和/或有线通信模块的接口，如GSM(Global System for Mobile Communications，全球移动通信***)模块的接口、WIFI模块的接口、GPRS(General Packet Radio Service，通用分组无线服务技术)模块的接口等，还可以包括；USB(通用串行总线，universal serial bus)接口、串/并口等等，本申请不做一一详述。

存储器13可以用来存储实现本申请提出的语音唤醒处理方法的程序，还可以存储预设的至少一个唤醒词，以及语音唤醒处理方法运行过程中产生的各种中间数据，以及其他电子设备或用户发送的数据等等，可以依据应用场景的需求确定，本申请不做详述。

在实际应用中，存储器13可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器14可以用来调用并执行存储器所存储的程序，以实现上述应用于电子设备的语音唤醒处理方法的各步骤，具体实现过程可以参照下文方法实施例相应部分的描述。

本实施例中，处理器14可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路等，本申请对处理器14的具体结构不做详述。

可选的，上述存储器13可以独立于处理器14，也可以部署在处理器14中，同理，上述通信接口所包含的至少部分接口，也可以部署在处理器14中，如集成电路接口、集成电路内置音频接口、USB接口等等，本申请对存储器13与处理器14之间的部署关系，以及处理器14内部署的通信接口数量及类型不做限定，可以依据实际需求确定。

另外，应当理解，电子设备的***组成结构，并不局限于上文列举的声音采集器、通信接口、存储器和处理器，如图5所示，电子设备还可以包括显示器、输入设备、电源模块、扬声器、传感器模块、摄像头、指示灯、天线、电源模块等组成部件，本申请不做一一列举，且电子设备的组成可以包括比图5示出的更多或更少的部件，或者组合/拆分某些部件，或者不同的部件布置等，图示的部件可以是硬件、软件或硬件与软件的组合实现。

且，图5示出的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定，也就是说，在其他实施例中，电子设备也可以采用与本实施例中不同的接口连接关系，或多种接口连接方式的组合，本申请不做一一详述。

结合上图3示出的***结构示意图，参照图6，示出了本申请实施例提供了一种语音唤醒处理方法的流程示意图，如上文方法可以由电子设备执行实现，也可以由电子设备和服务器配合实现，本实施例主要从电子设备的角度进行描述，具体实现过程可以包括但并不局限于以下步骤：

步骤S11，获取输入的语音信息的音频帧特征；

本实施例实际应用中，用户是希望对电子设备进行语音控制，来替代传统的手动操作，解放用户的双手，通常情况下，对于不同类型的电子设备的各种操作，可以预先配置相应的唤醒词，用户只需要说出所需操作对应的唤醒词，即可通过语音控制方式，控制电子设备执行相应的操作。

比如，用户希望控制智能音箱播放歌曲A，可以说“xx，播放歌曲A”，智能音箱可以通过对这一语音信息进行分析，识别出该语音信息包含的唤醒词，以唤醒智能音箱***，并播放歌曲A。

在该过程中，由于不同类型用户的语音特征不同，如成人和儿童这两大类用户的语音特征存在很大差异，为了能够准确识别该语音信息中包含的唤醒词，本实施例可以将针对电子设备输入的语音信息划分成多帧(即多个音频帧)数据，再对每一帧数据进行特征提取，得到相应的音频帧特征，该音频帧特征可以是一个特征向量，按照这种处理方式，本实施例可以得到n维特征向量，n的数值取决于语音信息包含的音频帧的数量，本申请对n数值不做限定。

需要说明，本申请对获取输入的语音信息后，对其进行特征提取，得到用于输入声学模型的特征数据的过程不做限定，可以在对语音信息进行分帧预处理后，采用FBanK(FilterBank)特征提取方式，对预处理后的各音频帧数据进行逐帧特征提取，得到相应帧的音频帧特征，本申请对FBanK特征提取的具体实现过程不作详述，且对于获取语音信息的各音频帧的音频帧特征的实现方式，并不局限于这种FBanK特征提取方式。

步骤S12，将该音频帧特征输入声学模型进行处理，得到与预设唤醒词的每个音节对应的目标音频帧特征的后验概率；

声学模型是语音识别***中最为重要的部分之一，可以采用隐马尔可夫模型HMM进行建模，但并不局限于这种建模方式，也可以采用其他神经网络等深度学习网络构建声学模型。该隐马尔可夫模型是一个离散时域有限状态自动机，且其打分、解码和训练相应的算法可以是前向算法、Viterbi算法和前向后向算法等，本申请对声学模型的建模过程不做详述。

通常情况下，声学模型的输入时由特征提取模块提取的多维的特征，且其取值可以是离散或连续的，本实施例可以实际需求获取输入声学模型的音频帧特征。

本实施例将得到的语音信息的多个音频帧特征输入声学模型后，声学模型可以将这多个音频帧特征与预设唤醒词对应的声学特征进行处理，以从这多个音频帧特征中，筛选出与该预设唤醒词对应的声学特征的每个音节对应的音频帧的范围，之后，可以利用筛除的每个音频帧的范围中的每个音频帧的声学似然评分，从每个音频帧的范围中，确定出符合预设要求的预设数量的目标音频帧，如声学似然评分达到预设评分的预设数量的目标音频帧，但并不局限于这种确定方式，本实施例可以将目标音频帧对应的音频帧特征记为目标音频帧特征，最后，可以利用声学模型，计算出这些目标音频帧特征各自的声学后验得分即后验概率，本申请对如何利用声学模型，计算音频帧特征的后验概率的实现过程不作详述。

可见，每一帧的音频帧特征输入声学模型，可以得到一个后验概率，该后验概率可以表示相应音频帧特征是预设唤醒词的音频帧特征的可能性大小，通常情况下，后验概率越大，说明其对应的音频帧特征是预设唤醒词的音频帧特征的可能性越大。

应该理解的是，实际应用中，语音信息的所有音频帧特征输入声学模型后，输出的数据不仅可能包括组成唤醒词的音节或音素的各音频帧特征的后验概率，往往还可能包含其他非唤醒词的音节或音素的各音频帧特征的后验概率，本申请则是对组成唤醒词的音节或音素的各音频帧特征的后验概率进行后续处理，因此，可以从声学模块的输出数据中筛选出这部分需要的后验概率，具体实现过程不做详述。

本实施例中的预设唤醒词可以指用户当前对电子设备执行的语音控制所对应的预设的唤醒词，通常情况下，用户向电子设备发出其执行某操作的语音指令时，用户所说的语音信息会包含该预设唤醒词，本申请对预设唤醒词的内容不做限定。

另外，需要说明的是，步骤S12中与预设唤醒词的每个音节对应的目标音频帧特征，可以是声学模型认为输入的音频帧特征中，可能是预设唤醒词的每一音节对应的音频帧特征。

步骤S13，对与预设唤醒词的每个音节对应的目标音频帧特征的后验概率进行双置信度判决，得到相应音节的第一置信度得分及第二置信度得分；

本实施例中，缓存的语音信息的音频帧特征经过声学模型的处理后，将利用针对不同类型用户预设的不同置信度判决模块，对处理结果进行双置信度判决，从而使得语音信息中可能是预设唤醒词的每一个音节，都能够得到两个置信度得分，记为第一置信度得分和第二置信度得分。本申请对如何实现对语音信息中的可能是预设唤醒词的每一个音节的置信度计算方法不做限定，可以包括但并不局限于以下计算方式：

上述置信度(confidence)计算公式中，n可以表示声学模型的输出单元个数，具体数值可以依据该声学模型的具体结果确定，p_i'_j可以表示平滑处理后的第i个单元第j帧的音频帧特征的后验概率，h_max＝max{1,j-w_max+1}可以表示置信度计算窗(即置信度判决窗)W_max中的第一帧的位置。

由上述置信度计算公式可以得知，本申请可以从声学模型的各输出单元的各音频帧特征的后验概率中，确定出各输出单元的最大后验概率，经过相乘和开方计算后，可以得到预设唤醒词的每个音节的置信度得分。如用户希望电子设备执行预设操作的唤醒词为“okey ***”，按照上述置信度计算方式，得到的置信度得分可以表示在大小为h_max的时间内出现了okey和***的可能性有多大。

继上文对本申请提出的语音唤醒处理方法的技术构思的分析，本申请将针对不同类型用户采用不同的置信度判决规则，来提高语音唤醒准确性，以不同类型用户为成年用户(即成人)和未成年用户(年龄较小的儿童)为例进行说明，可以预先针对这两种类型的用户，配置相应的置信度判决模块(即后验处理模块)实现后验处理，如上图3中的成人后验处理模块和儿童后验处理模块，利用这两个后验处理模块分别对上述得到的，与预设唤醒词的每个音节对应的目标音频帧特征的后验概率进行置信度计算，对于每个音节，将会得到两个置信度得分。

需要说明的是，本申请的不同类型用户的语音特征之间是存在较大的差异，如儿童的语速通常要比成人语速慢，这样，在置信度计算过程中，适用于成人用户的语音信息的判决窗大小可能无法覆盖儿童唤醒词完整语音，所以，本申请可以将适用于儿童用户的语音信息的判决窗，配置成大于适用于成人用户的语音信息的判决窗，这两种判决窗的具体大小不做限定，可以依据实际需求灵活调整。

由此可见，对于不同的置信度判决模块，因两者配置的判决窗大小不同，两者会缓存音频帧特征的后验概率的时间长度不同，且在本次判决通过的情况下，后续进行二次判决时，获取所要判决的已缓存的音频帧特征的长度也会相应改变，该长度可以与相应判决窗大小匹配，以使得进行二次判决的音频帧特征尽量包含完整的唤醒词特征。

其中，在配置好上述判决窗后，如该判决窗设置为缓存100帧的音频帧特征，那么，在已经保存了100帧的音频帧特征后，获取最新一帧的音频帧特征，会将最早缓存的一帧丢弃，加入该最新一帧的音频帧特征，达到缓存的目的，但并不局限于本实施例描述的判决窗的大小。

步骤S14，利用第一置信度得分和第二置信度得分中通过的判决结果，获取该语音信息的音频帧特征中的校验音频帧特征；

继上文分析，对于不同置信度判决模块得到的置信度得分，判断相应音节是否为预设唤醒词的音节的阈值不同，本实施例可以将不同的阈值记为第一置信度判决阈值、第二置信度判决阈值等。

这样，得到第一置信度得分和第二置信度得分后，可以将第一置信度得分与第一置信度判决阈值进行比较，将第二置信度得分与第二置信度判决阈值进行比较，若任一置信度得分达到相应的置信度判决阈值，可以认为该音节属于相应类型用户输入的预设唤醒词，此时，上图3中的一级模型将被触发，可以从缓存中，按照该类型用户对应的判决窗大小，获取校验音频帧特征。

举例说明，若适用于儿童的置信度判决模块得到的第二置信度得分，达到了第二置信度判决阈值(即儿童的置信度判决阈值，相应地，第一置信度判决阈值则适用于成人)，可以按照儿童对应的判决窗大小，从缓存的音频帧特征中，获取相应长度的校验音频帧特征；同理，若是适用于成人的置信度判决模块得到的第一置信度得分，达到了第一置信度判决阈值，则可以获取与成人对应的判决窗大小匹配的，相应长度的校验音频帧特征，具体获取过程不做详述。

步骤S15，获取该校验音频帧特征的置信度校验结果，置信度校验结果是对该校验音频帧特征进行二次置信度判决得到的；

基于上述分析，本实施例是在一级模型中，采用双置信度判决模块，实现对语音信息的唤醒词识别，并在该一级模型被唤醒后，即初步确定该语音信息中包含预设唤醒词的情况下，将继续由二级模型对该语音信息进行二次验证，如上述分析，该二级模型可以部署在电子设备，也可以部署在服务器上，本申请对二级模型的部署位置及其结构不做限定。

可选的，对于如图3中的二级模型，可以针对不同类型的用户配置相应的校验模型，如图3中的成人模型和儿童模型，这两种校验模型的网络结构可以相同，如上文技术方案研发过程中提出的部署在电子设备或云端的更大声学模型+后验处理模块，或者是一级模型中声学模型+相应的置信度判决模块等，本申请对校验模型的具体网络结构不作限定。

需要说明的是，在构建不同类型用户对应的校验模型过程中，需要利用相应类型用户的语音样本进行训练，且在训练过程中，输入网络的样本特征的音频帧长度也会不同，可以参照上述判决窗部分的描述。

其中，对校验音频帧特征的二次置信度判决过程，与上述一级模型对目标音频帧特征的首次置信度判决过程类似，本申请不再赘述。

步骤S16，若该置信度校验结果通过，响应该预设唤醒词对应的指令，控制电子设备执行预设操作。

如上述分析，本申请是在一级模型被唤醒后，即上述步骤S14中的第一置信度得分和第二置信度得分各自的判决结果中，至少有一个判决结果通过的情况下，才会进行二次置信度判决，待二次置信度判决得到的置信度判决结果也通过，可以认为从语音信息处理识别出的唤醒词的确是预设的预设唤醒词，即准确识别出了用户输入的语音信息中的唤醒词，之后，电子设备就可以响应该唤醒词对应的指令，控制电子设备执行预设操作，如控制智能音箱播放歌曲A。

综上所述，本实施例获取用户针对电子设备输入的语音信息后，将获取该语音信息的音频帧特征，并通过将其输入声学模型进行处理，得到该语音信息中包含的预设唤醒词的每个音节对应的目标音频帧特征的后验概率，之后，本实施例将会考虑到不同类型用户(如成人和儿童)的语音特征之间的差异，部署分别针对成人模式和儿童模式的置信度判决，从而实现对得到的这些后验概率的双置信度判决，以使每个音节得到两个置信度得分，其中任一置信度得分的判决结果通过，会从缓存中获取相应长度的校验音频帧特征进行二次置信度校验，待置信度校验结果通过，可以确定语音信息中包含了该预设唤醒词，可以直接响应该预设唤醒词对应的指令，控制电子设备执行预设操作。可见，本实施例提供的语音唤醒处理方法，能够同时兼顾成人语音唤醒性能和儿童语音唤醒性能，提高了语音唤醒效率及准确性。

下面将针对本申请上文描述的语音唤醒处理方法进行细化，但并不局限于下文描述的细化示例，如图7所示，为本申请提出的语音唤醒处理方法的一种细化示例的信令流程图，该方法可以包括但并不局限于以下步骤：

步骤S21，电子设备获取用户输入的语音信息；

步骤S22，电子设备对该语音信息进行逐帧的特征提取，得到音频帧特征并缓存；

本实施例中，对用户输入的语音信息进行逐帧的特征提取，将会得到组成该语音信息的各音频帧的音频帧特征，之后，可以将得到的该语音信息的音频帧特征进行缓存，用来实现该语音信息的唤醒词的识别，进而实现对电子设备的语音唤醒控制。

本申请对音频帧特征的获取方法及其缓存方式均不作限定，可以包括但并不局限于上文实施例描述的方法。

步骤S23，电子设备将缓存的音频帧特征输入声学模型进行处理，得到与预设唤醒词的每个音节对应的目标音频帧特征的后验概率；

关于步骤S23的实现过程可以参照上述实施例相应部分的描述。

步骤S24，电子设备分别按照第一置信度判决规则和第二置信度判决规则进行置信度计算，得到语音信息包含的该预设唤醒的同一音节的第一置信度得分和第二置信度得分；

结合上述实施例的描述，本实施例可以按照第一置信度判决规则，对该预设唤醒词中的每个音节对应的目标音频帧特征的后验概率进行置信度计算，得到相应音节的第一置信度得分；并按照第二置信度判决规则，对该预设唤醒词中的每个音节对应的目标音频帧特征的后验概率进行置信度计算，得到相应音节的第二置信度得分。其中，第一置信度判决规则与所述第二置信度判决规则的判决窗大小及置信度判决阈值均不同，所述判决窗用于确定进行置信度计算的目标音频帧特征的时间长度，具体数值不作限定。

本实施例中，上述第一置信度判决规则和第二置信度判决规则可以是，不同的置信度判决模块(即后验处理模块)进行置信度计算过程所依据的置信度计算规则，本申请对其具体内容不做限定，可以依据相应置信度判决模块的置信度计算方法确定。如上述分析，置信度判决模块可以包括成人的置信度判决模块，也可以包括儿童的置信度判决模块，可见，相对于现有技术，加入了针对儿童模式的置信度判决模块，且其与成人模式的置信度判决模块相互独立，在不影响成人唤醒性能的情况下，通过设置较大的判决窗，可以有效提高对儿童语音的唤醒性能。

步骤S25，电子设备利用第一置信度判决阈值对第一置信度得分进行判决，得到第一判决结果，并利用第二置信度判决阈值对第二置信度得分进行判决，得到第二判决结果；

本实施例对第一置信度判决阈值和第二置信度判决阈值的具体数值大小不做限定。

步骤S26，电子设备在第一判决结果或第二判决结果通过的情况下，获取校验音频帧特征；

其中，该校验音频帧特征是缓存的与通过的判决结果对应的判决窗大小匹配的音频帧特征，具体获取过程可以参照上述实施例相应部分的描述。

步骤S27，电子设备向服务器发送语音置信度校验请求；

其中，该语音置信度校验请求可以携带有校验音频帧特征，以及该校验音频帧特征对应的用户类型标识，如成人用户标识、儿童用户标识，需要说明，该语音置信度校验请求携带的内容并不局限于此，还可以包括首次置信度判决结果，如通过或不通过等。

步骤S28，服务器解析该语音置信度校验请求，得到该校验音频帧特征及其对应的用户类型标识；

步骤S29，服务器利用与该用户类型标识对应的校验模型，对校验音频帧特征进行置信度校验，得到置信度校验结果；

可见，电子设备在确定校验音频帧特征后，可以利用与通过的判决结果对应的校验模型对校验音频帧特征进行置信度校验，得到校验音频帧特征的置信度校验结果，其中，针对不同的置信度判决规则，配置有相应的校验模型，该校验模型是通过对相应置信度判决规则对应类型用户的语音样本进行训练得到的，具体实现过程可以参照上述实施例相应部分的描述，但并不局限于本实施例描述的这种处理方式。

步骤S210，服务器将该置信度校验结果反馈至电子设备；

步骤S211，电子设备在该置信度校验结果通过的情况下，响应该预设唤醒词对应的指令，执行预设操作。

综上，本实施例的电子设备将针对儿童语音和成人语音的特点，配置两个对应的置信度判决模块，即双置信度判决模块，相对于现有技术，加入了儿童模式的置信度判决，且这两个置信度判决模块相对独立，从而使实施例的电子设备在不影响成人唤醒性能的情况下，通过设置较大的判决窗，可以有效提高对儿童语音的唤醒性能。

且，在如图3的一级模型中，无论是成人用户还是儿童用户输入语音信息，将会共享声学模型进行处理，不需要针对这两类用户设置两个声学模型，减少了计算量，以及对电子设备资源的占用，使其能够适用于电子设备上资源受限的场景。

另外，在图3的二级模型中，本申请针对不同类型用户配置了不同的校验模型，这两个校验模型可以分别针对成人语音样本和儿童语音样本进行分别建模，能够有效利用这两类用户的语音样本，分别得到各自的最优性能，有效提升二次置信度判决的准确性，同时提升了儿童语音的唤醒率。

参照图8，为本申请提出的语音唤醒处理装置的一可选示例的结构图，该装置可以用于电子设备，本申请对电子设备的产品类型不做限定，如图8所示，该装置可以包括：

特征获取模块21，用于获取输入的语音信息的音频帧特征；

可选的，该特征获取模块21可以包括：

语音信息获取单元，用于获取针对电子设备输入的语音信息；

特征提取单元，用于对所述语音信息进行特征提取，得到组成所述语音信息的各音频帧的音频帧特征，并对得到的音频帧特征进行缓存。

后验概率获取模块22，用于将所述音频帧特征输入声学模型进行处理，得到与预设唤醒词的每个音节对应的目标音频帧特征的后验概率；

置信度判决模块23，用于对所述每个音节对应的目标音频帧特征的后验概率进行双置信度判决，得到相应音节的第一置信度得分及第二置信度得分；

校验特征获取模块24，用于利用所述第一置信度得分和所述第二置信度得分中通过的判决结果，获取所述语音信息的音频帧特征中的校验音频帧特征；

作为本申请一可选示例，如图9所示，该置信度判决模块23可以包括：

第一置信度计算单元231，用于按照第一置信度判决规则，对所述每个音节对应的目标音频帧特征的后验概率进行置信度计算，得到相应音节的第一置信度得分；

第二置信度计算单元232，用于按照第二置信度判决规则，对所述每个音节对应的目标音频帧特征的后验概率进行置信度计算，得到相应音节的第二置信度得分；

其中，所述第一置信度判决规则与所述第二置信度判决规则的判决窗大小及置信度判决阈值均不同，所述判决窗用于确定进行置信度计算的目标音频帧特征的时间长度。

相应地，上述校验特征获取模块24可以包括：

第一判决单元241，用于利用第一置信度判决阈值对所述第一置信度得分进行判决，得到第一判决结果；

第二判决单元242，用于利用第二置信度判决阈值对所述第二置信度得分进行判决，得到第二判决结果；

校验音频帧特征获取单元243，用于在第一判决结果或第二判决结果的判决通过的情况下，从语音信息的音频帧特征中，获取与通过的判决结果对应的判决窗大小匹配的校验音频帧特征。

置信度校验结果获取模块25，用于获取所述校验音频帧特征的置信度校验结果，所述置信度校验结果是对所述校验音频帧特征进行二次置信度判决得到的；

可选的，置信度校验结果获取模块25可以包括：

置信度校验单元，用于利用与通过的判决结果对应的校验模型对所述校验音频帧特征进行置信度校验，得到所述校验音频帧特征的置信度校验结果；

其中，针对不同的置信度判决规则，配置有相应的校验模型，所述校验模型是通过对相应置信度判决规则对应类型用户的语音样本进行训练得到的。

在实际应用中，上述校验音频帧特征的置信度校验结果可以直接由电子设备进行二次置信度判决得到，也可以由与电子设备能够通信连接的服务器或其他电子设备进行二次置信度判决得到，本申请对校验音频帧特征的置信度校验结果的具体获取方法不做限定，可以参照上述方法实施例相应部分的描述。

基于此，上述置信度校验单元可以包括：

置信度校验请求发送单元，用于向服务器发送语音置信度校验请求，所述语音置信度校验请求携带有所述校验音频帧特征，以及所述校验音频帧特征对应的用户类型标识；

置信度校验结果接收单元，用于接收所述服务器反馈的所述校验音频帧特征的置信度校验结果，所述置信度校验结果是所述服务器响应所述语音置信度校验请求，利用与所述用户类型标识对应的校验模型，对所述校验音频帧特征进行置信度校验得到的。

基于上述分析，应该理解的是，上述置信度校验结果由电子设备直接运算得到的实例中，与本实施例描述的运算处理过程类似，可以预先训练对应不同用户类型标识的校验模型，利用该校验模型对相应用户类型标识对应的校验音频特征进行二次置信度校验，具体校验过程可以与上一次该用户类型标识对应的置信度判决方法类似，本实施例不作赘述。

语音唤醒模块26，用于若所述置信度校验结果通过，响应所述预设唤醒词对应的指令，控制电子设备执行预设操作。

综上所述，本实施例中，对于获取的语音信息，将结合不同类型用户的语音特点，对该语音信息进行双置信度判决，且该双置信度判决模块将共享同一声学模型实现，即双置信度判决模块对相同的音频帧特征进行置信度判决，只要有一个置信度判决通过，就会触发后续的二次置信度校验操作，即按照与通过的置信度判决所使用的判决窗大小相匹配的长度，获取校验音频帧特征，发送至相应用户类型的校验模型进行置信度校验，若校验通过，确定获取的语音信息包含预设唤醒词，电子设备可以响应用户输入的语音信息，执行预设操作。可见，本申请提出的语音唤醒处理方案，能够同时兼顾成人语音唤醒性能和儿童语音唤醒性能，相对于现有技术，提升了儿童语音唤醒性能，即提高了语音唤醒效率及准确性。

另外，需要说明，关于上述语音唤醒处理装置中的各模型、单元实际上是有程序代码构成的功能模块，通过执行相应的程序代码，实现该功能模型的功能，关于各功能模型实现相应功能的过程，可以参照上述实施例相应部分的描述。

本申请实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行，实现上述语音唤醒处理方法的各步骤，该语音唤醒处理方法的实现过程可以参照上述方法实施例的描述。

参照图10，为本申请提出的语音唤醒处理***的一可选示例的结构示意图，该***可以包括但并不局限于：至少一个电子设备31和服务器32，其中：

本实施例对各电子设备31的产品类型不做限定，并不局限于图10示出的电子设备的类型。

服务器32可以是单独的服务设备，或由多个服务设备构成的服务器集，本申请对服务器32的结构及类型不做限定，如可以包括通信接口、存储器及处理器，服务器中的存储器可以用来对校验音频帧特征进行二次置信度判决方法的程序，处理器可以调用该程序并执行，实现对校验音频帧特征的二次置信度判决，得到校验音频帧特征的置信度校验结果，具体实现过程可以参照上述方法实施例相应部分的描述。

如图11所示，当用户希望语音控制电子设备执行某操作(即预设操作)，用户可以说出相应的唤醒词，如需要智能音箱播放歌曲B，用户可以说“xx(可以是智能音箱***的唤醒词，但并不局限于此)，播放歌曲B”，电子设备采集到用户输出的语音信息后，可以按照上述实施例描述的方式对其进行处理，如电子设备可以对该语音信息进行逐帧的特征提取，得到多个音频帧特征，输入预设的声学模型进行处理，得到各音频帧特征的后验概率，在确定出该语音信息中包含的可能是预设唤醒词的，每一个音节对应的至少一个目标音频帧特征的后验概率，之后，对确定出的各音节对应的目标音频帧特征的后验概率进行双置信度判决，如分别使用成人置信度判决模块和儿童置信度判决模块进行处理，可见，本申请考虑到了成人语音特点与儿童语音特点之间的差异，使用不同的置信度判决模块，共享一个声学模型，对该声学模型输出的各目标音频帧特征的后验概率进行置信度计算、判决，需要说明，此处所使用的判决窗大小及置信度阈值大小不同，可以依据不同用户类型特点确定，通常儿童的判决窗大于成人的判决窗，以尽量保证唤醒词特征的完整性。

实际应用中，上述双置信度判决结果中，只要一个置信度判决通过，认为如图3所示的一级模型被激活，可以触发二级模型工作，此时，获取特征长度与置信度判决通过的，用户类型的判决窗大小匹配的校验音频帧特征，将该校验音频帧特征发送至与该用户类型对应的校验模型(其可以部署在电子设备，也可以部署在其他电子设备，如上述服务器)，由该校验模型(如成人校验模型或儿童校验模型)按照上述处理方式，对校验音频帧特征进行二次置信度校验，具体过程不做赘述。其中，对于不同用户类型的校验模型是利用相应用户类型的数据训练得到的，保证了二次置信度判决的准确性。

经过上述两次置信度判决均通过，可以确定当前获取的语音信息包含预设唤醒词，电子设备可以响应该预设唤醒词对应的控制指令，执行预设操作，满足用户对该电子设备的语音唤醒控制需求。如第一次置信度判决时是儿童的置信度判决结果通过，可以认为该语音信息可能是儿童输出的，且该语音信息可能包含预设唤醒词，将从缓存的音频帧特征中，获取与儿童判决窗大小匹配的校验音频帧特征，发送至儿童校验模型进行二次置信度判决，若通过，确定该语音信息是儿童发出的且包含预设唤醒词，电子设备将响应该语音信息，提升了儿童语音唤醒的性能。

需要说明的是，在本实施例的应用场景下，在得到校验音频帧特征后，并不局限于图11所示的处理方式，即发送至服务器进行二次置信度判决，也可以由电子设备自身进行二次置信度判决，具体实现过程相同，本申请不做赘述。

本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、***、电子设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音唤醒处理方法，其特征在于，所述方法包括：

获取输入的语音信息的音频帧特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述每个音节对应的目标音频帧特征的后验概率进行双置信度判决，得到相应音节的第一置信度得分及第二置信度得分；

按照第一置信度判决规则，对所述每个音节对应的目标音频帧特征的后验概率进行置信度计算，得到相应音节的第一置信度得分；

按照第二置信度判决规则，对所述每个音节对应的目标音频帧特征的后验概率进行置信度计算，得到相应音节的第二置信度得分；

3.根据权利要求2所述的方法，其特征在于，所述利用所述第一置信度得分和所述第二置信度得分中通过的判决结果，得到所述语音信息的音频帧特征中的校验音频帧特征，包括：

利用第一置信度判决阈值对所述第一置信度得分进行判决，得到第一判决结果，并利用第二置信度判决阈值对所述第二置信度得分进行判决，得到第二判决结果；

若所述第一判决结果或所述第二判决结果通过，从所述语音信息的音频帧特征中，获取与通过的判决结果对应的判决窗大小匹配的校验音频帧特征。

4.根据权利要求1～3任意一项所述的方法，其特征在于，所述获取所述校验音频帧特征的置信度校验结果，包括：

利用与通过的判决结果对应的校验模型对所述校验音频帧特征进行置信度校验，得到所述校验音频帧特征的置信度校验结果；

5.根据权利要求4所述的方法，其特征在于，所述利用与通过的判决结果对应的校验模型对所述校验音频帧特征进行置信度校验，得到所述校验音频帧特征的置信度校验结果，包括：

向服务器发送语音置信度校验请求，所述语音置信度校验请求携带有所述校验音频帧特征，以及所述校验音频帧特征对应的用户类型标识；

接收所述服务器反馈的所述校验音频帧特征的置信度校验结果，所述置信度校验结果是所述服务器响应所述语音置信度校验请求，利用与所述用户类型标识对应的校验模型，对所述校验音频帧特征进行置信度校验得到的。

6.根据权利要求1～4任一项所述的方法，其特征在于，所述获取输入的语音信息的音频帧特征，包括：

获取针对电子设备输入的语音信息；

对所述语音信息进行特征提取，得到组成所述语音信息的各音频帧的音频帧特征，并对得到的音频帧特征进行缓存。

7.一种语音唤醒处理装置，其特征在于，所述装置包括：

特征获取模块，用于获取输入的语音信息的音频帧特征；

8.根据权利要求7所述的装置，其特征在于，所述置信度校验结果获取模块包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行，实现如权利要求1-9任意一项所述的语音唤醒处理的各步骤的程序。

10.一种电子设备，其特征在于，所述电子设备包括：

声音采集器，用于采集用户输出的语音信息；

通信接口；

存储器，用于存储实现如权利要求1-9任意一项所述的语音唤醒处理的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如权利要求1-9任意一项所述的语音唤醒处理的各步骤。