CN111048068A

CN111048068A - 语音唤醒方法、装置、***及电子设备

Info

Publication number: CN111048068A
Application number: CN201811186019.4A
Authority: CN
Inventors: 曹元斌; 张智超; 风翮; 王刚
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2020-04-21
Anticipated expiration: 2038-10-11
Also published as: CN111048068B; WO2020073839A1

Abstract

本发明实施例提供一种语音唤醒方法、装置、***及电子设备，其中，方法包括：获取第一语音信号；对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列；将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列；对所述第三韵部信号序列对应在所述第一语音信号中的全拼语音信号进行自动语音识别处理，确定所述全拼语音信号是否为所述唤醒词对应的语音信号。本发明实施例的方案，能够快速、准确的识别唤醒词，提高设备的被唤醒速度。

Description

语音唤醒方法、装置、***及电子设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音唤醒方法、装置、***及电子设备。

背景技术

随着人工智能相关应用的越来越深入发展，语音识别技术作为智能化设备的基本的交互方式，扮演着越来越重要的角色。语音识别技术涉及到很多方面，其中包括通过语音指令来唤醒设备、对设备的操作进行控制、与设备进行人机对话以及针对多个设备的语音指令控制等。高效和准确的语音识别技术以及快捷便利的唤醒模式，是智能化设备的重要的发展方向。

目前，自定义唤醒的主要性能瓶颈在于端上(终端设备)计算资源有限，核心部分的分类器对语音特征所分的类别数直接影响到唤醒的速度和准确率。传统的拼音粒度的分类策略是取常用汉字的全拼做分类，带声调的1200多个，去掉声调的400多个，可以达到80％左右的准确率。但是，要想达到更高的准确率，需要提高端上计算性能和完善很多后处理工作。

发明内容

本发明提供了一种语音唤醒方法、装置、***及电子设备，能够快速、准确的识别唤醒词，提高设备的被唤醒速度。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供了一种语音唤醒方法，包括：

获取第一语音信号；

对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列；

将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列；

对所述第三韵部信号序列对应在所述第一语音信号中的全拼语音信号进行自动语音识别处理，确定所述全拼语音信号是否为所述唤醒词对应的语音信号。

第二方面，提供了另一种语音唤醒方法，包括：

获取第一语音信号；

对所述第一语音信号中包含的元音信号进行识别，得到所述第一语音信号对应的第一元音信号序列；

将所述第一元音信号序列与预设的唤醒词的第二元音信号序列进行比较，以从所述第一元音信号序列中提取与所述第二元音信号序列内容相同的第三元音信号序列；

对所述第三元音信号序列对应在所述第一语音信号中的全量语音信号进行自动语音识别处理，确定所述全量语音信号是否为所述唤醒词对应的语音信号。

第三方面，提供了一种语音唤醒装置，包括：

信号获取模块，用于获取第一语音信号；

信号识别模块，用于对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列；

信号比较模块，用于将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列；

语音识别模块，用于对所述第三韵部信号序列对应在所述第一语音信号中的全拼语音信号进行自动语音识别处理，确定所述全拼语音信号是否为所述唤醒词对应的语音信号。

第四方面，提供了另一种语音唤醒装置，包括：

信号获取模块，用于获取第一语音信号；

信号识别模块，用于对所述第一语音信号中包含的元音信号进行识别，得到所述第一语音信号对应的第一元音信号序列；

信号比较模块，用于将所述第一元音信号序列与预设的唤醒词的第二元音信号序列进行比较，以从所述第一元音信号序列中提取与所述第二元音信号序列内容相同的第三元音信号序列；

语音识别模块，用于对所述第三元音信号序列对应在所述第一语音信号中的全量语音信号进行自动语音识别处理，确定所述全量语音信号是否为所述唤醒词对应的语音信号。

第五方面，提供了一种语音唤醒***，包括：

终端，用于获取第一语音信号；对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列；将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列；将所述第三韵部信号序列对应的全拼语音信号发送至服务器；

所述服务器，用于对所述第三韵部信号序列对应在所述第一语音信号中的全拼语音信号进行自动语音识别处理，确定所述全拼语音信号是否为所述唤醒词对应的语音信号。

第六方面，提供了一种语音唤醒方法，包括：

终端获取第一语音信号；对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列；将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列；将所述第三韵部信号序列对应的全拼语音信号发送至服务器；

所述服务器对所述第三韵部信号序列对应在所述第一语音信号中的全拼语音信号进行自动语音识别处理，确定所述全拼语音信号是否为所述唤醒词对应的语音信号。

第七方面，提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

获取第一语音信号；

第八方面，提供了另一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

获取第一语音信号；

本发明提供了一种语音唤醒方法、装置、***及电子设备，在获取到待识别的第一语音信号后，先对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；然后，将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；最后，对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号，进而识别出第一语音信号中是否包含唤醒词。本方案采用先对待识别的语音信号中的韵部信号与唤醒词的韵部进行比对，提取出待识别语音信号中韵部信号与唤醒词韵部相同的语音信号部分，然后针对该部分语音信号再整体通过自动语音识别处理以确定其中是否包含唤醒词，从而实现快速、准确的识别唤醒词，提高设备的被唤醒速度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为语音唤醒的基本流程逻辑示意图；

图2为语音唤醒的基本流程中端上唤醒引擎的处理逻辑示意图；

图3为本发明实施例的唤醒引擎的处理逻辑示意图；

图4为本发明实施例的语音唤醒***结构图；

图5为本发明实施例的语音唤醒方法流程图一；

图6为本发明实施例的语音唤醒方法流程图二；

图7为本发明实施例的韵部分类训练方法流程图一；

图8为本发明实施例的韵部分类训练方法流程图二；

图9为本发明实施例的语音唤醒装置结构图一；

图10为本发明实施例的语音唤醒装置结构图二；

图11为本发明实施例的韵部分类训练装置结构图一；

图12为本发明实施例的韵部分类训练装置结构图二；

图13为本发明实施例的语音唤醒方法流程图三；

图14为本发明实施例的电子设备的结构示意图一；

图15为本发明实施例的电子设备的结构示意图二。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，为语音唤醒的基本流程，语音设备接受到语音信号后，先对语音信号进行信号处理(主要包括降噪、回声消除)和特征抽取，从而将原始输入音频信号转换成端上(终端)唤醒引擎可以识别的特征(即语音的频谱信号)；然后将特征输入至唤醒引擎进行唤醒词的比对识别；当唤醒词命中，会继续指示服务端执行后续指令，如播放歌曲、相声等。

在图1所示的语音唤醒的基本流程中，端上唤醒引擎可以认为是执行唤醒的核心部分。如图2所示，该端上唤醒引擎主要包括两部分：分类器和后处理部分。

一、分类器，用于将连续语音特征转换成不同的类别，这一部分计算，往往是所有唤醒工作最消耗计算资源的部分，通常神经网络的最后一层输出的分类数，直接决定了整个网络的计算规模。传统的基于隐马尔科夫模型-深度神经网络(Hidden Markov Model-Deep Neural Network，HMM-DNN)，采用音速(phone)的概率密度函数(ProbabilityDensity Function，PDF)进行建模，而要想达到生产可用状态，需要至少6000～8000个分类；采用拼音做分类，也需要1200～400多个分类。

二、后处理，唤醒词的检验都存在后处理部分，传统方法检测整个词，可以在对经分类器输出的语音进行平滑处理(smooth)后采用动态时间规整算法(Dynamic TimeWarping，DTW)识别该语音与唤醒词是否相同；也可以采用自动语音识别(AutomaticSpeech Recognition，ASR)技术对语音是否命中唤醒词进行识别。

采用上述的端上唤醒引擎中的分类器，由于最终使用的分类数较多致使分类网络庞大，需要端上配置较高的计算性能。

本发明实施例改善了现有技术中分类网络庞大导致的需要在端上配置较高计算资源才能准确、快速执行语音唤醒的缺陷，其核心思想是，将执行语音唤醒的核心部分拆分成两次唤醒词的识别过程。第一次唤醒词识别过程在终端上完成，该过程只对唤醒词的拼音韵部进行分类识别，完成对待识别的语音信号的初步识别过程。然后，将初步筛选出的与唤醒词韵部信号相同的韵部信号所对应的全量语音信号发送至云端，由云端再次对该语音信号整体进行识别，确定该语音信号是否命中唤醒词。

如图3所示，为本发明实施例的唤醒引擎的处理逻辑示意图，涉及设备端(如智能音箱等可接收和识别语音的终端)以及云端(设置有服务器)两个执行语音唤醒的主体。

在设备端上，待识别的语音信号首先经过第一次唤醒词识别，该识别过程只对语音信号的韵部信号通过预先训练生成的分类器进行韵部分类识别；然后，将识别出的韵部信号序列通过后处理与唤醒词的韵部进行比对，以判断语音信号中是否命中唤醒词的韵部，并将命中唤醒词韵部的全量语音信号传送到云端。

在云端，待识别的语音信号为韵部信号与唤醒词韵部相同的全量语音信号，对这些语音信号进行第二次唤醒词识别(二次检验)，该识别过程是对语音信号整体进行识别，例如采用ASR技术，对该语音信号是否命中唤醒词进行识别。

基于上述语音唤醒的方案思想，图4为本发明实施例提供的语音唤醒***结构图。如图4所示，该***包括终端410和服务器420，其中：

终端410包括：

信号获取模块，用于获取第一语音信号，该第一语音信号例如为中文语音信号；

信号识别模块，用于对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；

信号比较模块，用于将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；

服务器420包括：

语音识别模块，用于对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号。

下面通过多个实施例来进一步说明本申请的技术方案。

实施例一

基于上述语音唤醒的方案思想，如图5所示，其为本发明实施例示出的语音唤醒方法流程图一，该方法的执行主体可以为部署在图4中终端410和服务器420中的模块。其中，步骤S510～530可在端上(终端)执行，步骤S540可在云端(服务器)中执行。如图5所示，该语音唤醒方法包括如下步骤：

S510，获取第一语音信号，该第一语音信号例如为中文语音信号。

其中，第一语音信号可以为通过语音设备接收的语音信号，通过对该语音信号进行唤醒词的识别，以进一步唤醒目标设备。

S520，对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列。

本步骤中，将拼音的声部和韵部分开：如tian->t，ian；mao->m，ao。汉语的日常对话中，拼音声部(简称“声部”)如t、m往往都是***音，从语音信号的特征频谱图上看，声部就是一个短暂的尖峰或低谷，基本所有的延长音，都在拼音韵部(简称“韵部”)。传统的三音素(triphone)建模中，往往需要结合前、后phone，才能达到不错的识别准确率，本方案在端上计算优先的情况下，去掉对声部的识别，只是对第一语音信号中包含的韵部信号进行识别，从而得到第一语音信号对应的第一韵部信号序列。该第一韵部信号序列中包含时间序列，以及位于时间序列上每个时刻点的韵部信号。

S530，将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列。

传统的唤醒词识别方法是检测整个词，本方案为了减少端上的计算量，只在端上识别每个字的韵部，即将上述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列。

例如，假设预设的唤醒词为“你好”，对应的第二韵部信号序列为“ǐ，ǎo”，那么在第一韵部信号序列中的信号序列为“ǐ，ǎo”的，都可作为第三韵部信号序列。

S540，对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号。

在实际应用场景中，由于端上只验证了韵部，如：“好”，“老”，“考”，由于拥有同样韵部，都可顺利通过分类，并可能作为韵部识别唤醒词的初步结果。因此，在云端上需要执行二次校验，对第三韵部信号序列对应在第一语音信号中的全拼语音信号(包含声部信号)进行自动语音识别ASR处理，以确定全拼语音信号是否为唤醒词对应的语音信号。

本环节的二次校验就是过滤掉声部与唤醒词声部不一样的语音信号部分，这么做的好处是端上过滤到了绝大部分的非唤醒词，而云端只需要做最后校验就可以识别到真正的唤醒词，如此平衡了端上和服务端的计算，既可以有很高的准确率，同时不会有由于端上模型过大带来的高延时。

本发明提供的语音唤醒方法，在获取到待识别的第一语音信号后，先对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；然后，将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；最后，对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号，进而识别出第一语音信号中是否包含唤醒词。本方案采用先对待识别的语音信号中的韵部信号与唤醒词的韵部进行比对，提取出待识别语音信号中韵部信号与唤醒词韵部相同的语音信号部分，然后针对该部分语音信号再整体通过自动语音识别处理以确定其中是否包含唤醒词，从而实现快速、准确的识别唤醒词，提高设备的被唤醒速度。

实施例二

如图6所示，为本发明实施例的语音唤醒方法流程图二。在上一实施例中所示方法的基础上，增加了预处理环节，并对步骤S520和S530进行了细化。如图6所示，该语音唤醒方法包括如下步骤：

S610，获取第一语音信号，该第一语音信号例如为中文语音信号。

步骤S610与步骤S510内容相同。

S620，对第一语音信号进行去噪的预处理。

在获取到第一语音信号之后，可对第一语音信号进行降噪、回声消除等预处理，以最大程度保留第一语音信号中的有效信号比例。

S630，获取预处理后的第一语音信号的特征频谱。

其中，所谓特征频谱指在进行分类识别或分类训练时，待处理的语音信号需要被转换为满足一定特征要求的频谱信号。

比如，在对第一语音信号进行分类识别时，将待识别的第一语音信号转换为频谱信号后，将音频按固定时间长度切成如20ms左右的帧频谱信号，以作为后续分类识别时的特征频谱。

S640，对第一语音信号的特征频谱采用韵部分类器进行分类计算，得到第一语音信号对应的第一韵部信号序列。

其中，韵部分类器可为预先训练生成的语音分类模型，但该语音分类模型只对语音信号中的韵部信号进行分类，并输出相应韵部信号的序列值。

步骤S630～S640为上述步骤S520的细化。

进一步地，可采用如图7所示的韵部分类训练方法，训练生成上述韵部分类器，方法包括：

S710，获取用于模型训练的语音信号的特征频谱。

S720，对特征频谱中的拼音韵部信号进行标注。

通常，相同韵部由于在发音过程中受到声部信号的影响，它们在特征频谱中表现的形态也会不完全相同。通过有监督的学习，可以快速、准确地锁定不同韵部所对应的韵部信号的特征形态。

S730，以已标注的拼音韵部信号作为训练样本，采用神经网络算法以及连接时序分类的联合模型算法训练生成韵部分类器。

训练过程主要包含两个处理环节，一个是如何准确对不同韵部的特征频谱信号进行韵部分类；另一个则是如何将分好类别的韵部放置到语音信号中的正确位置。

在解决这两个问题时，可以采用神经网络算法实现对不同韵部的特征频谱信号进行准确的韵部分类，并结合连接时序分类(Connectionist Temporal Classification，CTC)算法，以锁定分好类别的韵部在语音信号中的正确位置。采用这两种模型算法进行联合建模，以基于训练样本训练生成韵部分类器。

进一步地，还可采用如图8所示的韵部分类训练方法，训练生成上述韵部分类器，方法包括：

S810，获取用于模型训练的语音信号的特征频谱。

S820，对特征频谱中的拼音韵部信号进行标注。

S830，以已标注的拼音韵部信号作为训练样本，采用隐马尔科夫模型以及深度神经网络的联合模型算法训练生成韵部分类器。

在解决这两个问题时，也可以采用隐马尔科夫模型(HMM-DNN)两种模型算法进行联合建模，以基于训练样本训练生成韵部分类器。

与现有技术不同的是，本方案中的分类器，为针对拼音韵部进行分类的韵部分类器。

S650，采用动态时间规整算法将第一韵部信号序列与预设的唤醒词的第二韵部信号序列按时序对应进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列。

在将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较时，可采用动态时间规整(Dynamic Time Warping，DTW)算法将比对的两个信号序列进行位置对齐，然后按时序对应进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列。

S660，对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号。

步骤S660与步骤S540内容相同。

本发明提供的语音唤醒方法，在实施例一的基础上进行了方法拓展：

首先，在获取到第一语音信号之后，对第一语音信号进行预处理，以最大程度保留第一语音信号中的有效信号比例。

其次，通过预先训练的韵部分类器，对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列，以实现快速识别。在训练韵部分类器时，采用神经网络算法以及连接时序分类的联合模型算法进行训练建模，或者采用隐马尔科夫模型以及深度神经网络的联合模型算法进行训练建模，以保证训练出的韵部分类器的准确度。

最后，采用动态时间规整算法对第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以快速准确的得到第三韵部信号序列。

实施例三

如图9所示，为本发明实施例的语音唤醒装置结构图一，该语音唤醒装置可设置在图4所示的语音唤醒装置***中，用于执行如图5所示的方法步骤，其包括：

信号获取模块910，用于获取第一语音信号；

信号识别模块920，用于对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；

信号比较模块930，用于将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；

语音识别模块940，用于对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号。

进一步地，如图10所示，上述语音唤醒装置中，信号识别模块920可包括：

特征获取单元101，用于获取第一语音信号的特征频谱；

信号识别单元102，用于对第一语音信号的特征频谱采用韵部分类器进行分类计算，得到第一语音信号对应的第一韵部信号序列。

进一步地，在图10所示的语音唤醒装置中，还可包括：

预处理模块103，用于对第一语音信号进行去噪的预处理。

进一步地，上述信号比较模块930具体可用于，

采用动态时间规整算法将第一韵部信号序列与预设的唤醒词的第二韵部信号序列按时序对应进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列。

图10所示语音唤醒装置可用于执行图6所示的方法步骤。

进一步地，如图11所示，上述语音唤醒装置中，还可包括：

第一频谱获取模块111，用于获取用于模型训练的语音信号的特征频谱；

第一信号标注模块112，用于对特征频谱中的拼音韵部信号进行标注；

第一训练模块113，用于以已标注的拼音韵部信号作为训练样本，采用神经网络算法以及连接时序分类的联合模型算法训练生成韵部分类器。

进一步地，如图12所示，上述语音唤醒装置中，还可包括：

第二频谱获取模块121，用于获取用于模型训练的语音信号的特征频谱；

第二信号标注模块122，用于对所述特征频谱中的拼音韵部信号进行标注；

第二训练模块123，用于以所述已标注的拼音韵部信号作为训练样本，采用隐马尔科夫模型以及深度神经网络的联合模型算法训练生成所述韵部分类器。

图11、图12所示装置可用于对应执行图7、图8所示的方法步骤。

本发明提供的语音唤醒装置，在获取到待识别的第一语音信号后，先对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；然后，将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；最后，对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号，进而识别出第一语音信号中是否包含唤醒词。本方案采用先对待识别的语音信号中的韵部信号与唤醒词的韵部进行比对，提取出待识别语音信号中韵部信号与唤醒词韵部相同的语音信号部分，然后针对该部分语音信号再整体通过自动语音识别处理以确定其中是否包含唤醒词，从而实现快速、准确的识别唤醒词，提高设备的被唤醒速度。

进一步地，在获取到第一语音信号之后，对第一语音信号进行预处理，以最大程度保留第一语音信号中的有效信号比例。

进一步地，通过预先训练的韵部分类器，对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列，以实现快速识别。在训练韵部分类器时，采用神经网络算法以及连接时序分类的联合模型算法进行训练建模，或者采用隐马尔科夫模型以及深度神经网络的联合模型算法进行训练建模，以保证训练出的韵部分类器的准确度。

进一步地，采用动态时间规整算法对第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以快速准确的得到第三韵部信号序列。

实施例四

基于上述语音唤醒的方案思想，如图13所示，其为本发明实施例示出的语音唤醒方法流程图三，该方法的执行主体可以为部署在图4中终端410和服务器420中的模块。其中，步骤S131～133可在端上(终端)执行，步骤S134可在云端(服务器)中执行。如图13所示，该语音唤醒方法包括如下步骤：

S131，获取第一语音信号。

本步骤中，对第一语音信号的语言类型不做限定，例如可以为中文、英文、日文等。该第一语音信号可以为通过语音设备接收的语音信号，通过对该语音信号进行唤醒词的识别，以进一步唤醒目标设备。

S132，对第一语音信号中包含的元音信号进行识别，得到第一语音信号对应的第一元音信号序列。

自然语音按发音学范畴划分，可为元音和辅音，比如在中文中，元音对应为拼音中的韵部、辅音对应为拼音中的声部；又比如在英文中，包含5个元音：a、e、i、o、u，21个辅音；又比如在日文中，包含5个元音，以“あ·い·う·え·お”这五个假名来表示，音韵学上，其发音接近[a][i]

[e][o]，辅音方面，有清音-“か·さ·た·な·は·ま·や·ら·わ行”的辅音、浊音-“が·ざ·だ·ば行”的辅音、半浊音-“ぱ行”的辅音。对任一语言类型的第一语音信号中包含的元音信号进行识别，均可以得到第一语音信号对应的第一元音信号序列。例如，当第一语音信号为中文语音信号时，第一语音信号对应的第一元音信号序列可以为图5所示方法中的第一韵部信号。

S133，将第一元音信号序列与预设的唤醒词的第二元音信号序列进行比较，以从第一元音信号序列中提取与第二元音信号序列内容相同的第三元音信号序列。

例如，当处理对象为中文语音信号时，可以执行如步骤S530的内容，将上述第一韵部信号与唤醒词的第二韵部信号序列进行比较，从而从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列。

S134，对第三元音信号序列对应在第一语音信号中的全量语音信号进行自动语音识别处理，确定全量语音信号是否为唤醒词对应的语音信号。

其中，第三元音信号序列对应在第一语音信号中的全量语音信号为第三元音信号序列对应在第一语音信号中的区间范围内所有的语音信号。当语音信号为中文语音信号时，该全量语音信号即为上述第三韵部信号序列对应在第一语音信号中的全拼语音信号。

进一步地，根据第一语音信号所属语言类型的不同，上述第一语音信号中包含的元音信号可以具体为第一语音信号所属语言类型所包含的单音节中元音对应的语音信号。

例如，当第一语音信号为中文语音信号时，第一语音信号中包含的元音信号即为中文所包含的单字中韵部对应的语音信号。

实施例五

本发明实施例提供一种语音唤醒装置，该语音唤醒装置可包含图9所示的所有模块，用于执行图13所示的方法步骤，其包括：

信号获取模块910，用于获取第一语音信号；

信号识别模块920，用于对第一语音信号中包含的元音信号进行识别，得到第一语音信号对应的第一元音信号序列；

信号比较模块930，用于将第一元音信号序列与预设的唤醒词的第二元音信号序列进行比较，以从第一元音信号序列中提取与第二元音信号序列内容相同的第三元音信号序列；

语音识别模块940，用于对第三元音信号序列对应在第一语音信号中的全量语音信号进行自动语音识别处理，确定全量语音信号是否为唤醒词对应的语音信号。

进一步地，上述第一语音信号中包含的元音信号可以为第一语音信号所属语言类型所包含的单音节中元音对应的语音信号。

例如，第一语音信号所属语言类型可包括：中文、英文、日文等。当第一语音信号为中文语音信号时，本实施例中的语音唤醒装置可以执行如图5所示的方法步骤。

实施例六

本实施例提供了一种语音唤醒***，包括：

终端，用于获取第一语音信号，该第一语音信号例如为中文语音信号；对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；将第三韵部信号序列对应的全拼语音信号发送至服务器；

服务器，用于对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号。

相应的，基于上述语音唤醒***，本实施例还提供了一种语音唤醒方法，即从终端和服务端两侧的执行流程对语音唤醒方法进行描述。该方法包括：

终端获取第一语音信号，该第一语音信号例如为中文语音信号；对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；将第三韵部信号序列对应的全拼语音信号发送至服务器；

服务器对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为唤醒词对应的语音信号。

通过将整个唤醒流程拆分为两部分：第一部分在终端侧通过识别第一语音信号中的韵部信号，对唤醒词进行初次识别；第二部分在服务器侧通过对初次识别所提炼的韵部信号对应的全拼语音信号进行自动语音识别，从而完成整个语音信号是否命中唤醒词的识别过程。该方法使得整个唤醒过程在终端和服务器的计算量达到平衡，减少了终端的计算压力，提高了整个语音唤醒过程的执行效率。

实施例七

前面实施例三描述了一种语音唤醒装置的整体架构，该装置的功能可借助一种电子设备实现完成，如图14所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器141和处理器142。

存储器141，用于存储程序。

除上述程序之外，存储器141还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器141可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器142，耦合至存储器141，用于执行存储器141中的程序，以用于：

获取第一语音信号；

对第一语音信号中包含的拼音韵部信号进行识别，得到第一语音信号对应的第一韵部信号序列；

将第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，以从第一韵部信号序列中提取与第二韵部信号序列内容相同的第三韵部信号序列；

对第三韵部信号序列对应在第一语音信号中的全拼语音信号进行自动语音识别处理，确定全拼语音信号是否为所述唤醒词对应的语音信号。

上述的具体处理操作已经在前面实施例中进行了详细说明，在此不再赘述。

进一步，如图14所示，电子设备还可以包括：通信组件143、电源组件144、音频组件145、显示器146等其它组件。图14中仅示意性给出部分组件，并不意味着电子设备只包括图14所示组件。

通信组件143被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件143经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件143还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件144，为电子设备的各种组件提供电力。电源组件144可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件145被配置为输出和/或输入音频信号。例如，音频组件145包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器141或经由通信组件143发送。在一些实施例中，音频组件145还包括一个扬声器，用于输出音频信号。

显示器146包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

实施例八

前面实施例五描述了一种语音唤醒装置的整体架构，该装置的功能可借助一种电子设备实现完成，如图15所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器151和处理器152。

存储器151，用于存储程序。

除上述程序之外，存储器151还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器151可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器152，耦合至存储器151，用于执行存储器151中的程序，以用于：

获取第一语音信号；

对第一语音信号中包含的元音信号进行识别，得到第一语音信号对应的第一元音信号序列；

将第一元音信号序列与预设的唤醒词的第二元音信号序列进行比较，以从第一元音信号序列中提取与第二元音信号序列内容相同的第三元音信号序列；

对第三元音信号序列对应在第一语音信号中的全量语音信号进行自动语音识别处理，确定全量语音信号是否为唤醒词对应的语音信号。

进一步，如图15所示，电子设备还可以包括：通信组件153、电源组件154、音频组件155、显示器156等其它组件。图15中仅示意性给出部分组件，并不意味着电子设备只包括图15所示组件。

通信组件153被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件153经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件153还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件154，为电子设备的各种组件提供电力。电源组件154可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件155被配置为输出和/或输入音频信号。例如，音频组件155包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器151或经由通信组件153发送。在一些实施例中，音频组件155还包括一个扬声器，用于输出音频信号。

显示器156包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音唤醒方法，包括：

获取第一语音信号；

2.根据权利要求1所述的方法，其中，所述对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列包括：

获取所述第一语音信号的特征频谱；

对所述第一语音信号的特征频谱采用韵部分类器进行分类计算，得到所述第一语音信号对应的所述第一韵部信号序列。

3.根据权利要求2所述的方法，其中，所述方法还包括：

获取用于模型训练的语音信号的特征频谱；

对所述特征频谱中的拼音韵部信号进行标注；

以所述已标注的拼音韵部信号作为训练样本，采用神经网络算法以及连接时序分类的联合模型算法训练生成所述韵部分类器。

4.根据权利要求2所述的方法，其中，所述方法还包括：

获取用于模型训练的语音信号的特征频谱；

对所述特征频谱中的拼音韵部信号进行标注；

以所述已标注的拼音韵部信号作为训练样本，采用隐马尔科夫模型以及深度神经网络的联合模型算法训练生成韵部分类器。

5.根据权利要求1所述的方法，其中，所述对所述第一语音信号中包含的拼音韵部信号进行识别，得到所述第一语音信号对应的第一韵部信号序列之前还包括：

对所述第一语音信号进行去噪的预处理。

6.根据权利要求1所述的方法，其中，所述将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列进行比较，从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列包括：

采用动态时间规整算法将所述第一韵部信号序列与预设的唤醒词的第二韵部信号序列按时序对应进行比较，以从所述第一韵部信号序列中提取与所述第二韵部信号序列内容相同的第三韵部信号序列。

7.根据权利要求1所述的方法，其中，所述第一语音信号为中文语音信号。

8.一种语音唤醒方法，包括：

获取第一语音信号；

9.根据权利要求8所述的方法，其中，所述第一语音信号中包含的元音信号为所述第一语音信号所属语言类型所包含的单音节中元音对应的语音信号。

10.一种语音唤醒装置，包括：

信号获取模块，用于获取第一语音信号；

11.一种语音唤醒装置，包括：

信号获取模块，用于获取第一语音信号；

12.一种语音唤醒***，包括：

13.一种语音唤醒方法，包括：

14.一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

获取第一语音信号；

15.一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

获取第一语音信号；