CN109215647A

CN109215647A - 语音唤醒方法、电子设备及非暂态计算机可读存储介质

Info

Publication number: CN109215647A
Application number: CN201811004154.2A
Authority: CN
Inventors: 李深; 胡亚光
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-15

Abstract

本发明实施例提供了一种语音唤醒方法、电子设备及非暂态计算机可读存储介质，应用于语音识别技术领域。该方法包括：向第一语音识别模型中依次输入从语音信号中提取到的音频特征，当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入确定出的待输入至第二语音识别模型中的第一音频特征，当满足第一预设条件时，确定执行唤醒操作，其中，第一预设条件包括：第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值，和/或，第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。本发明实施例实现了如何实现语音唤醒。

Description

语音唤醒方法、电子设备及非暂态计算机可读存储介质

技术领域

本发明实施例涉及语音识别技术领域，具体而言，本发明实施例涉及一种语音唤醒方法、电子设备及非暂态计算机可读存储介质。

背景技术

随着信息技术的发展，语音识别技术也随之发展，利用语音识别的产品越来越多，例如，会话助理、智能机器人、智能手表等。这些产品都是通过语音识别来增强用户体验和提高自然人机交互的水平。

在语音识别中，一种非常重要的技术就是关键词检测，一般也可以称为语音唤醒，用户通常使用特定语音唤醒词激活设备，以进行后续语音交互。

因此，如何检测用户语音中是否包含特定语音唤醒词，以进行语音唤醒成为一个关键问题。

发明内容

本发明实施例提供了一种语音唤醒方法、电子设备及非暂态计算机可读存储介质，可以解决如何根据用户语音进行语音唤醒的问题。所述技术方案如下：

第一方面，提供了一种语音唤醒方法，该方法包括：

向第一语音识别模型中依次输入从语音信号中提取到的音频特征；

当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，所述第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，所述第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，所述第二音频特征为第一音频特征之后第二预设帧数的音频特征；

当满足第一预设条件时，确定执行唤醒操作；

所述第一预设条件包括以下至少一项：

第一语音识别模型检测第二音频特征时，检测到音频特征置信度达到第一唤醒阈值；

第二语音识别模型检测第一音频特征时，检测到音频特征置信度达到第二唤醒阈值。

第二方面，提供了一种语音唤醒装置，该装置包括：

第一输入模块，用于向第一语音识别模型中依次输入从语音信号中提取到的音频特征；

第二输入模块，用于当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，所述第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，所述第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，所述第二音频特征为第一音频特征之后第二预设帧数的音频特征；

第二确定模块，用于当满足第一预设条件时，确定执行唤醒操作；

所述第一预设条件包括以下至少一项：

第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行第一方面所示的语音唤醒的方法。

第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面所示的语音唤醒的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供了一种语音唤醒方法、电子设备及非暂态计算机可读存储介质，本发明实施例通过向第一语音识别模型中依次输入从语音信号中提取到的音频特征，当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，第二音频特征为第一音频特征之后第二预设帧数的音频特征，并且当满足第一预设条件时，确定执行唤醒操作，其中，第一预设条件包括：第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值，和/或，第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。即本发明实施例中可以通过第一语音识别模型和/或第二语音识别模型，检测音频特征的置信度，以确定用户语音中是否包含预设唤醒词，进而确定是否执行唤醒操作，从而可以实现检测用户语音中是否包含特定语音唤醒词，以进行语音唤醒。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种语音唤醒方法的流程示意图；

图2为本发明实施例提供的一种语音唤醒装置的结构示意图；

图3为本发明实施例提供的另一种语音唤醒装置的结构示意图；

图4为本发明实施例提供的一种语音唤醒的电子设备的结构示意图。

具体实施方式

下面详细描述本发明实施例的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明实施例，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明实施例的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例实施方式作进一步地详细描述。

现有技术中语音唤醒的方式有两种，包括：方式一以及方式二；

其中方式一为单步验证，以确定是否执行语音唤醒操作。具体地，对输入的音频信号进行“流式”处理，实时判断用户输入的音频信号中是否包含预设唤醒词，一旦检测到音频信号的置信度达到唤醒阈值，则确定执行唤醒操作。

其中步骤二为两步验证，以确定是否执行语音唤醒操作。具体地，“流式”处理输入的音频信号，实时进行第一步的计算和判断，并且缓存预设时间段的音频信号，当置信度达到预设阈值时，利用第二种算法或者第二种模型对缓存的预设时间段的音频信号进行验证，检测该缓存的预设时间段的音频信号中是否包含特定语音唤醒词，当检测到通过第二种算法或者第二种模型进行验证的置信度达到唤醒阈值，则确定执行唤醒操作。

为了保证语音唤醒的实时性，以及降低设备的计算功耗，现有技术中语音唤醒的方式一中，通过单步验证中使用的算法以及模型，检测语音信号中是否包含特定语音唤醒词，以确定执行唤醒操作，导致进行语音唤醒的准备度较低，误唤醒率较高，并且很难在提高唤醒率以及降低误唤醒二者之间找到平衡；

现有技术中语音唤醒的方式二中，为了提高语音唤醒的准备度，采用两步验证的方式，但是第二步验证通常采用复杂度较高、计算量较大的算法或者模型，因此在用户说完唤醒词，第一步验证通过之后，还需要等待第二步验证模型进行验证，以确定是否执行语音唤醒操作，从而在用户说完唤醒词到确定是否执行唤醒操作之间存在较长一段时间，从而导致进行语音唤醒的延迟较大，进而导致用户体验较差。

本发明实施例提供的语音唤醒方法、电子设备及非暂态计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明实施例的技术方案以及本发明实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明实施例的实施例进行描述。

实施例一

本发明实施例提供了一种语音唤醒方法，应用于具有麦克风的电子设备，如图1所示，该方法包括：

步骤S101、向第一语音识别模型中依次输入从语音信号中提取到的音频特征。

对于本发明实施例，电子设备通过麦克风实时获取环境中的声音信号，并将获取到的声音信号进行数模转换以及降噪等处理后，将处理后的声音信号按照特定格式编码，并将编码后的音频数据输入到语音唤醒的软件模块。在本发明实施例中，语音唤醒的软件模块对于实时输入的流式音频数据，按照一定的时间间隔划分为一帧，并提取相应的音频特征。

例如，特定格式的采样率可以为16bit或者16kHz；上述一定的时间间隔可以为10ms、15ms以及20ms。

对于本发明实施例，从音频数据中提取到的音频特征可以包括以下至少一项：梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)特征信息；梅尔标度滤波器组(Mel-scale Filter Bank，F-Bank)特征信息；常数Q值倒谱系数(Constant QCepstral Coefficients，CQCC)特征信息；感知线性预测系数(Perceptual LinearPredictive，PLP)特征信息；线性预测倒谱系数(Linear Prediction CepstrumCoefficient，LPCC)特征信息。

对于本发明实施例，依次向第一语音识别模型中输入从语音信号中提取的音频特征。

步骤S102、当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征。

其中，第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，第二音频特征为第一音频特征之后第二预设帧数的音频特征。

其中，步骤S102可以包括步骤S1021(图中未标注)以及步骤S1022(图中未标注)，其中，

步骤S1021、当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，确定待输入至第二语音识别模型中的第一音频特征为恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征。

其中，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值。

对于本发明实施例，当通过第一语音识别模型检测音频特征的置信度，且检测到音频特征的置信度达到第一置信度阈值，且未达到第一唤醒阈值时，表征恰好检测达到第一置信度阈值之前第一预设帧数的音频特征需要通过第二语音识别模型进行再次检测，以确定是否执行语音唤醒操作，因此恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征作为待输入至第二语音识别模型中的第一音频特征。

对于本发明实施例，第一预设帧数可以由用户设置，也可以由电子设备设置，或者由电子设备生产厂商设置。在本发明实施例中不做限定。

对于本发明实施例，第一预设帧数可以基于预设唤醒词的字节长度设置的。

例如，第一预设帧数可以为150帧、120帧或者180帧。

对于本发明实施例，若恰好检测到达到第一置信度阈值之前音频特征的帧数小于第一预设帧数，则将恰好检测到达到第一置信度阈值之前所有帧数的音频特征作为待输入至第二语音识别模型中的第一音频特征。

步骤S1022、向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入确定出的待输入至第二语音识别模型中的第一音频特征。

其中，第二音频特征为第一音频特征之后第二预设帧数的音频特征。

对于本发明实施例，向第一语音识别模型依次输入第二音频特征，同时向第二语音识别模型依次输入确定出的待输入至第二语音识别模型中的第一音频特征。在本发明实施例中，通过向第一语音识别模型依次输入第二音频特征，同时向第二语音识别模型依次输入确定出的待输入至第二语音识别模型中的第一音频特征，即第一语音识别模型以及第二语音识别模型同时对音频特征进行置信度检测，而不是将先通过第一语音识别模型检测完所有的语音特征之后，再将所有的语音特征依次输入至第二语音识别模型中进行二次校验，从而可以降低语音唤醒的延迟，进而也可以提升用户体验。

对于本发明实施例，第二预设帧数可以由用户设置，也可以由电子设备设置，或者由电子设备生产厂商设置。在本发明实施例中不做限定。

对于本发明实施例，第二预设帧数可以基于预设唤醒词的字节长度设置的。

例如，第二预设帧数可以为50帧、80帧或者20帧。

对于本发明实施例，第一语音识别模型与第二语音识别模型均可为神经网络。

步骤S103、当满足第一预设条件时，确定执行唤醒操作。

其中，第一预设条件包括以下至少一项：

第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值；

第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。

对于本发明实施例，当通过第一语音识别模型检测第二音频特征，且检测到置信度达到第一唤醒阈值时，确定执行唤醒操作，若此时第二语音识别模型正在检测该第一音频特征，则指示第二语音识别模型停止检测该第一音频特征；当通过第二语音识别模型检测第一音频特征，且检测到置信度达到第二唤醒阈值时，确定执行唤醒操作，若此时第一语音识别模型正在检测第二音频特征，则指示第一语音识别模型停止检测该第二音频特征。

对于本发明实施例，当通过第一语音识别模型检测完成，并且检测到置信度并未达到唤醒阈值，此时第二语音识别模型正在检测第一音频特征，且当前也并未检测到唤醒阈值，则将第一音频特征发送至第二语音识别模型，若第二语音模型在检测第一音频特征的过程中检测到置信度达到唤醒阈值，则不再检测发送过来的第二音频特征。

对于本发明实施例，第一唤醒阈值为在第一语音识别模型检测音频特征的过程中确定执行语音唤醒操作对应的音频特征置信度最小值，第二唤醒阈值为在第二语音识别模型检测音频特征的过程中确定可以执行语音唤醒操作定的音频特征置信度最小值。

例如，第一唤醒阈值可以为0.9，第二唤醒阈值可以为0.8，或者第一唤醒阈值与第二唤醒阈值均可以为0.8。

对于本发明实施例，第一唤醒阈值与第二唤醒阈值可以相同，也可以不相同。在本发明实施例中不做限定。

本发明实施例提供了一种语音唤醒方法，本发明实施例通过向第一语音识别模型中依次输入从语音信号中提取到的音频特征，当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，第二音频特征为第一音频特征之后第二预设帧数的音频特征，并且当满足第一预设条件时，确定执行唤醒操作，其中，第一预设条件包括：第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值，和/或，第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。即本发明实施例中可以通过第一语音识别模型和/或第二语音识别模型，检测音频特征的置信度，以确定用户语音中是否包含预设唤醒词，进而确定是否执行唤醒操作，从而可以实现检测用户语音中是否包含特定语音唤醒词，以进行语音唤醒。

实施例二

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上还包括实施例二所示的操作，其中，

步骤S102之后还包括步骤Sa(图中未标注)以及步骤Sb(图中未标注)，其中，

步骤Sa、若满足第二预设条件，则将第二音频特征依次输入至第二语音识别模型。

其中，第二预设条件包括：第一语音识别模型在检测第二音频特征时，未检测到置信度达到第一唤醒阈值，且第二语音识别模型检测第一音频特征时，检测到置信度也未达到第二唤醒阈值。

步骤Sb、若第二语音识别模型在检测第二音频特征时，检测到置信度达到第二唤醒阈值，则确定执行语音唤醒操作。

对于本发明实施例，通过当第一语音识别模型在检测第二音频特征时，未检测到置信度达到第一唤醒阈值，且第二语音识别模型检测第一音频特征时，检测到置信度也未达到第二唤醒阈值，将第二音频特征依次输入至第二语音识别模型，并且在第二语音识别模型在检测第二音频特征时的置信度达到第二唤醒阈值时，能够执行语音唤醒操作，即通过音频特征在第一语音识别模型以及第二语音识别模型之后，确定是否执行唤醒操作，从而可以提高语音唤醒的准确度，进而可以提升用户体验。

对于本发明实施例，若满足第三预设条件，则将第二音频特征发送至第二语音识别模型；然后当第二语音识别模型检测完第一音频特征未检测到音频特征的置信度达到第二唤醒度阈值时，将第二音频特征依次输入至第二语音识别模型，以验证音频特征对应的置信度，当第二语音识别模型在检测第二音频特征时，检测到音频特征置信度达到第二唤醒度阈值，则确定执行唤醒操作；当第二语音识别模型在检测第二音频特征时，未检测到音频特征置信度达到第二唤醒度阈值，则确定不执行语音唤醒操作；进一步地，当第二语音识别模型检测第一音频特征的过程中检测到音频特征的置信度达到第二唤醒度阈值时，则确定执行语音唤醒操作，且第二语音识别模型不需要对第二音频特征进行检测。

其中，第三预设条件包括：第一语音识别模型在检测第二音频特征时，未检测到置信度达到第一唤醒阈值，且此时第二语音识别模型未检测到音频特征置信度达到第二唤醒阈值。

对于本发明实施例，若第二语音识别模型在检测第一音频特征时检测到置信度达到第二唤醒阈值时，虽然第二音频特征已经发送至第二语音唤醒阈值，但是第二语音识别模型也不计算该第二音频特征，从而可以降低电子设备的计算压力，降低语音唤醒延迟，进而可以提升用户体验。

实施例三

本发明实施例的另一种可能的实现方式，在实施例一或实施例二所示的基础上还包括实施例三所示的操作，其中，

步骤S101之后还包括步骤Sc(图中未标注)，其中，

步骤Sc、若第一语音识别模型在检测第一音频特征时，检测到音频特征的置信度达到第一唤醒阈值，则确定执行唤醒操作。

对于本发明实施例，由于从用户语音中提取到的音频特征会先依次输入至第一语音识别模型进行语音识别，若第一语音识别模型在检测第一音频特征时，检测到音频特征的置信度达到第一唤醒阈值，则直接执行唤醒操作，不需要启动第二语音识别模型。

对于本发明实施例，通过向第一语音识别模型中依次输入音频特征，若第一语音识别模型在检测第一音频特征时，检测到音频特征的置信度达到第一唤醒阈值，则直接执行唤醒操作，而不需要通过第二语音识别模型进行验证，从而可以降低语音唤醒的延迟，降低电子设备的计算压力，进而可以提升用户体验。

实施例四

本发明实施例的另一种可能的实现方式，在实施例一至实施例三所示的基础上还包括实施例四所示的操作，其中，

该方法还包括步骤Sd(图中未标注)，其中，

步骤Sd、若在预设时间内，通过第二语音识别模型未检测到音频特征的置信度达到第二唤醒阈值，则停止运行第二语音识别模型。

对于本发明实施例，若在预设时间内，通过第二语音识别模型进行二次校验，但是并未检测到音频特征的置信度达到第二置信度阈值，则停止运行第二语音识别模型，仅通过第一语音识别模型进行语音特征识别。

对于本发明实施例，预设时间可以由电子设备设置，也可以由用户配置，或者可以由语音识别模型生产厂家设置。在本发明实施例中不做限定。

例如，预设时间可以为5秒(s)、8s或者10s。

对于本发明实施例，由于第二语音识别模型的网络结构复杂，计算方式复杂，则通过第二语音识别模型对音频特征进行计算的计算压力较大，因此若在预设时间内，通过第二语音识别模型未检测到音频特征的置信度达到第二唤醒阈值，则停止运行第二语音识别模型，从而可以降低计算开销，降低语音唤醒的时延，进而可以提升用户体验。

实施例五

本发明实施例的另一种可能的实现方式，在实施例一至实施例四任一实施例的基础上还包括实施例五所示的操作，其中，

步骤S101之前还包括步骤Se(图中未标注)，其中，

步骤Se、训练第一语音识别模型以及第二语音识别模型。

具体地，步骤Se中训练第一语音识别模型，包括步骤Se1(图中未标注)，其中，

步骤Se1、基于多个第一训练样本，训练第一语音识别模型。

其中，第一训练样本包括：携带有第一标注信息的第一音频特征，第一标注信息用于表征第一音频特征是否为预设唤醒词对应的音频特征，第一音频特征为梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)。

对于本发明实施例，第一音频特征可以为MFCC，还可以为梅尔标度滤波器组(Mel-scale Filter Bank，F-Bank)、常数Q值倒谱系数(Constant Q Cepstral Coefficients，CQCC)、感知线性预测系数(Perceptual Linear Predictive，PLP)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)以及任意组合。

具体地，步骤Se中训练第二语音识别模型，包括步骤Se2(图中未标注)，其中，

步骤Se2、基于多个第二训练样本，训练第二语音识别模型。

其中，第二训练样本包括：携带有第二标注信息的第二音频特征，第二标注信息用于表征第二音频特征是否为预设唤醒词对应的音频特征，第二音频特征包括：梅尔频率倒谱系数以及音调。

对于本发明实施例，第二音频特征中的MFCC可以与第一音频特征中的MFCC相同，也可以不相同。本发明实施例中不做限定。

对于本发明实施例，第二音频特征包括音调，还可以包括：MFCC，F-Bank、CQCC、PLP、LPCC以及任意组合。

对于本发明实施例，通过不同的音频特征分别对第一语音识别模型以及第二语音识别模型进行训练，能够使得第一语音识别模型以及第二语音识别模型从不同的维度计算输入的音频特征的置信度，以确定是否执行唤醒操作，从而可以提高语音唤醒的准确度，进而可以提升用户体验。

实施例六

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上还包括实施例六所示的步骤，其中，

步骤S101之前还包括步骤Sf(图中未标注)-步骤Sg(图中未标注)，其中，

步骤Sf、基于预设唤醒词的字节数，确定待缓存音频特征的帧数或者待缓存语音信号的时间长度。

对于本发明实施例，预设唤醒词的字节数与待缓存音频特征的帧数(或者待缓存语音信号的时间长度)成正比例关系。

例如，预设唤醒词为“您好XX”，该预设唤醒词的字节数为8，确定待缓存音频特征的帧数可以为200帧，或者，待缓存语音信号的时间长度为110ms。

步骤Sg、缓存待缓存音频特征的帧数对应的音频特征，或者缓存时间长度的语音信号。

对于本发明实施例，电子设备可以在将音频特征输入至第一语音识别模型的同时缓存预设帧数的音频特征，或者同时缓存预设时间长度的语音信号；或者电子设备在将音频特征输入至第一语音识别模型之后，缓存预设帧数的音频特征，或者缓存预设时间长度的语音信号。在本发明实施例中不做限定。在本发明实施例中，预设帧数以及预设时间长度的大小是在步骤Sh中确定的。

对于本发明实施例，由于第一语音识别模型在检测语音特征时，检测到满足第一预设条件时，需要将恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征输入至第二语音识别模型进行二次验证，或者第二语音识别模型在检测第二语音特征时并未检测到唤醒阈值，且当前第二语音识别模型在检测第一语音特征也并未检测到唤醒阈值，也需要将第二语音识别模型输入至第二语音识别模型，因此需要缓存缓存待缓存音频特征的帧数对应的音频特征，或者缓存时间长度的语音信号。

对于本发明实施例，基于预设唤醒词的字节数，确定待缓存音频特征的帧数或者待缓存语音信号的时间长度，并缓存待缓存音频特征的帧数对应的音频特征，或者缓存时间长度的语音信号，即依据预设唤醒词的字节数，缓存音频特征或者语音信号，从而在实现验证语音唤醒的前提下，可以减少缓存压力，减少语音唤醒时延，提升用户体验。

实施例七

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上还包括实施例七所示的步骤，其中，

确定音频特征的置信度达到第一置信度阈值且未达到唤醒阈值，包括步骤Si(图中未标注)，其中，

步骤Si、当检测到第一语音识别模型输出的预设输出项，确定音频特征置信度达到第一置信度阈值且未达到第一唤醒阈值。

其中，预设输出项用于表征可以将音频特征输入至第二语音识别模型进行验证。

对于本发明实施例，该预设输出项为语音特征需要输入第二语音识别模型进行验证的置信度，即可以为语音特征需要输入至第二语音识别模型进行验证的概率；或者该预设输出项还可以为预设标识，例如，“0”或者“1”，用于标识当前是否将音频特征输入至第二语音识别模型进行验证。

对于本发明实施例，第一语音识别模型增加预设输出项，并可以通过预设输出项直接确定出是否需要将语音特征输入至第二语音识别模型进行二次验证，从而可以降低语音唤醒时延。

实施例八

本发明实施例提供的一种语音唤醒装置的结构示意图，如图2所示，本发明实施例的语音唤醒装置20可以包括：第一输入模块201、第二输入模块202、第一确定模块203，其中，

第一输入模块201，用于向第一语音识别模型中依次输入从语音信号中提取到的音频特征。

第二输入模块202，用于当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，所述第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，所述第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，所述第二音频特征为第一音频特征之后第二预设帧数的音频特征。

对于本发明实施例，第一输入模块201与第二输入模块202可以为同一个输入模块，也可以为不同的输入模块。在本发明实施例中不做限定。

第二确定模块203，用于当满足第一预设条件时，确定执行唤醒操作。

其中，第一预设条件包括以下至少一项：

本发明实施例提供了一种语音唤醒装置，本发明实施例通过向第一语音识别模型中依次输入从语音信号中提取到的音频特征，当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，第二音频特征为第一音频特征之后第二预设帧数的音频特征，并且当满足第一预设条件时，确定执行唤醒操作，其中，第一预设条件包括：第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值，和/或，第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。即本发明实施例中可以通过第一语音识别模型和/或第二语音识别模型，检测音频特征的置信度，以确定用户语音中是否包含预设唤醒词，进而确定是否执行唤醒操作，从而可以实现检测用户语音中是否包含特定语音唤醒词，以进行语音唤醒。

本发明实施例的语音唤醒装置可执行本发明实施例一提供的一种语音唤醒方法，其实现原理相类似，此处不再赘述。

实施例九

本发明实施例提供的另一种语音唤醒装置的结构示意图，如图3所示，本发明实施例的装置30可以包括：第一输入模块301、第二输入模块302、第一确定模块303，其中，

第一输入模块301，用于向第一语音识别模型中依次输入从语音信号中提取到的音频特征。

其中，图3中的第一输入模块301与图2中第一输入模块201的功能相同或者相似。

第二输入模块302，用于当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征。

其中，所述第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，所述第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，所述第二音频特征为第一音频特征之后第二预设帧数的音频特征。

其中，图3中的第二输入模块302与图2中第二输入模块202的功能相同或者相似。

第一确定模块303，用于当满足第一预设条件时，确定执行唤醒操作。

其中，第一预设条件包括以下至少一项：

其中，图3中的第一确定模块303与图2中第一确定模块203的功能相同或者相似。

进一步地，如图3所示，装置30还包括：第三输入模块304、第二确定模块305，其中，

第三输入模块304，用于当满足第二预设条件时，将第二音频特征依次输入至第二语音识别模型。

对于本发明实施例，第一输入模块301、第二输入模块302、第三输入模块304可以分别为不同的输入模块，也可以为均为相同的输入模块，也可以其中任意两个输入模块为相同的输入模块。在本发明实施例中不做限定。

第二确定模块305，用于当第二语音识别模型在检测第二音频特征时检测到置信度达到第二唤醒阈值时，确定执行语音唤醒操作。

进一步地，如图3所示，装置30还包括：第三确定模块306，其中，

第三确定模块306，用于当第一语音识别模型在检测第一音频特征时，检测到音频特征的置信度达到置信度阈值时，确定执行唤醒操作。

进一步地，如图3所示，装置30还包括：运行模块307，其中，

运行模块307，用于当在预设时间内通过第二语音识别模型未检测到音频特征的置信度达到第二置信度阈值时，停止运行第二语音识别模型。

进一步地，装置30还包括：训练模块308，其中，

训练模块308，用于训练第一语音识别模型以及第二语音识别模型。

具体地，如图3所示，训练模块308包括：第一训练单元3081以及第二训练单元3082，其中，

第一训练单元3081，用于基于多个第一训练样本，训练第一语音识别模型。

其中，第一训练样本包括：携带有第一标注信息的第一音频特征，第一标注信息用于表征第一音频特征是否为预设唤醒词对应的音频特征，第一音频特征为梅尔频率倒谱系数。

第二训练单元3082，用于基于多个第二训练样本，训练第二语音识别模型。

对于本发明实施例，第一训练单元3081与第二训练单元3082可以为相同的训练单元，也可以为不同的训练单元。在本发明实施例中不做限定。

进一步地，如图3所示，装置30还包括：第四确定模块309、缓存模块310，其中，

第四确定模块309，用于基于预设唤醒词的字节数，确定待缓存音频特征的帧数或者待缓存语音信号的时间长度。

缓存模块310，用于缓存待缓存音频特征的帧数对应的音频特征，或者缓存时间长度的语音信号。

进一步地，如图3所示，装置30还包括：第五确定模块311，其中，

第五确定模块311，用于当检测到第一语音识别模型输出的预设输出项，确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值。

对于本发明实施例，第一确定模块303、第二确定模块305、第三确定模块306、第四确定模块309、第五确定模块311可以为同一个确定模块，也可以分别为不同的确定模块，也可以其中部分模块为相同的确定模块，其它分别为不同的确定模块。在本发明实施例中不做限定。

本发明实施例的语音唤醒装置可执行本发明实施例一至实施例七任一实施例所示的语音唤醒方法，其实现原理相类似，此处不再赘述。

实施例十

本发明实施例提供了一种电子设备，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括通信接口4004。需要说明的是，实际应用中通信接口4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

其中，处理器4001应用于本发明实施例中，用于实现图2或图3所示的第一输入模块、第一确定模块、第二输入模块、第二确定模块的功能，图3所示的第三输入模块、第三确定模块、第四确定模块、运行模块、训练模块、第五确定模块、缓存模块、第六确定模块。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明实施例方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现图2或图3所示实施例提供的语音唤醒装置的动作。

本发明实施例提供了一种电子设备，本发明实施例通过向第一语音识别模型中依次输入从语音信号中提取到的音频特征，当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，第二音频特征为第一音频特征之后第二预设帧数的音频特征，并且当满足第一预设条件时，确定执行唤醒操作，其中，第一预设条件包括：第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值，和/或，第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。即本发明实施例中可以通过第一语音识别模型和/或第二语音识别模型，检测音频特征的置信度，以确定用户语音中是否包含预设唤醒词，进而确定是否执行唤醒操作，从而可以实现检测用户语音中是否包含特定语音唤醒词，以进行语音唤醒。

本发明实施例提供了一种电子设备适用于上述方法任一实施例。在此不再赘述。

实施例十一

本发明实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行实施例一至实施例七任一实施例所示的语音唤醒的方法。

本发明实施例提供了一种非暂态计算机可读存储介质，本发明实施例通过向第一语音识别模型中依次输入从语音信号中提取到的音频特征，当确定音频特征的置信度达到第一置信度阈值且未达到第一唤醒阈值时，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入第一音频特征，第一音频特征为第一语音识别模型恰好检测到达到第一置信度阈值之前第一预设帧数的音频特征，第一置信度阈值为需要输入至第二语音识别模型进行语音识别的音频特征置信度的最小值，第二音频特征为第一音频特征之后第二预设帧数的音频特征，并且当满足第一预设条件时，确定执行唤醒操作，其中，第一预设条件包括：第一语音识别模型检测第二音频特征时，检测到置信度达到第一唤醒阈值，和/或，第二语音识别模型检测第一音频特征时，检测到置信度达到第二唤醒阈值。即本发明实施例中可以通过第一语音识别模型和/或第二语音识别模型，检测音频特征的置信度，以确定用户语音中是否包含预设唤醒词，进而确定是否执行唤醒操作，从而可以实现检测用户语音中是否包含特定语音唤醒词，以进行语音唤醒。

本发明实施例提供了一种非暂态计算机可读存储介质适用于上述方法任一实施例。在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

当满足第一预设条件时，确定执行唤醒操作；

所述第一预设条件包括以下至少一项：

2.根据权利要求1所述的方法，其特征在于，向第一语音识别模型依次输入第二音频特征，且向第二语音识别模型依次输入确定出的待输入至第二语音识别模型中的第一音频特征，之后还包括：

若满足第二预设条件，则将第二音频特征依次输入至第二语音识别模型；

若第二语音识别模型在检测第二音频特征时，检测到音频特征置信度达到第二唤醒阈值，则确定执行语音唤醒操作；

所述第二预设条件包括：第一语音识别模型在检测第二音频特征时，未检测到音频特征置信度达到第一唤醒阈值，且第二语音识别模型检测第一音频特征时，检测到音频特征置信度也未达到第二唤醒阈值。

3.根据权利要求1或2所述的方法，其特征在于，向第一语音识别模型中依次输入从语音信号中提取到的音频特征，之后还包括：

若第一语音识别模型在检测第一音频特征时，检测到音频特征的置信度达到置信度阈值，则确定执行唤醒操作。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

若在预设时间内，通过第二语音识别模型未检测到音频特征置信度达到第二置信度阈值，则停止运行所述第二语音识别模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，向第一语音识别模型中依次输入从语音信号中提取到的音频特征，之前还包括：

训练所述第一语音识别模型以及所述第二语音识别模型；

其中，训练所述第一语音识别模型，包括：

基于多个第一训练样本，训练所述第一语音识别模型；

所述第一训练样本包括：携带有第一标注信息的第一音频特征，所述第一标注信息用于表征所述第一音频特征是否为预设唤醒词对应的音频特征，所述第一音频特征为梅尔频率倒谱系数；

其中，训练所述第二语音识别模型，包括：

基于多个第二训练样本，训练所述第二语音识别模型；

所述第二训练样本包括：携带有第二标注信息的第二音频特征，所述第二标注信息用于表征所述第二音频特征是否为预设唤醒词对应的音频特征，所述第二音频特征包括：梅尔频率倒谱系数以及音调。

6.根据权利要求1所述的方法，其特征在于，向第一语音识别模型中依次输入从语音信号中提取到的音频特征，之前还包括：

基于预设唤醒词的字节数，确定待缓存音频特征的帧数或者待缓存语音信号的时间长度；

缓存所述待缓存音频特征的帧数对应的音频特征，或者缓存所述时间长度的语音信号。

7.根据权利要求1所述的方法，其特征在于，确定音频特征的置信度达到第一置信度阈值且未达到唤醒阈值，包括：

当检测到所述第一语音识别模型输出的预设输出项，确定音频特征置信度达到第一置信度阈值且未达到第一唤醒阈值，所述预设输出项用于表征可以将音频特征输入至第二语音识别模型进行检测。

8.一种语音唤醒装置，其特征在于，包括：

所述第一预设条件包括以下至少一项：

9.一种电子设备，其特征在于，包括：

处理器、存储器、通信接口和总线；

其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求7所述的语音唤醒方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的语音唤醒的方法。