CN110910884B

CN110910884B - 一种唤醒检测方法、装置和介质

Info

Publication number: CN110910884B
Application number: CN201911230226.XA
Authority: CN
Inventors: 朱紫薇; 唐文琦; 刘忠亮; 解传栋
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-03-22
Anticipated expiration: 2039-12-04
Also published as: CN110910884A

Abstract

本发明实施例提供了一种唤醒检测方法、装置和介质，其中的方法具体包括：对音频进行语音激活检测，以得到所述音频中的语音流；对所述语音流的时长信息进行检测；若所述语音流的时长信息未到达预设时长信息，则依据第一模式，利用数据模型，对所述语音流进行唤醒词检测；若所述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流进行唤醒词检测。本发明实施例可以提高语音唤醒的准确率。

Description

一种唤醒检测方法、装置和介质

技术领域

本发明涉及电子设备技术领域，尤其涉及一种唤醒检测方法、一种唤醒检测装置、一种用于唤醒检测的装置和一种机器可读介质。

背景技术

随着电子技术的发展，很多电子设备引入了语音交互技术。为了节省语音交互的功耗，电子设备引入了语音唤醒技术。语音唤醒技术经由语音唤醒电子设备，以控制电子设备从非工作状态切换到工作状态，其中在工作状态下电子设备可以对用户的语音进行识别和反馈。

相关技术的语音唤醒方法，可以检测语音中是否包含唤醒词，若是，则唤醒电子设备。

发明人在实施本发明实施例的过程中发现，在噪声环境下语音唤醒的准确率较低，具体体现在唤醒词的识别率较低、或者误唤醒率较高。

发明内容

本发明实施例提供一种唤醒检测方法、唤醒检测装置、用于唤醒检测的装置、以及一种机器可读介质，可以提高语音唤醒的准确率。

为了解决上述问题，本发明实施例公开了一种唤醒检测方法，包括：

对音频进行语音激活检测，以得到所述音频中的语音流；

对所述语音流的时长信息进行检测；

若所述语音流的时长信息未到达预设时长信息，则依据第一模式，利用数据模型，对所述语音流进行唤醒词检测；

若所述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流进行唤醒词检测；

其中，所述数据模型包括：编码器和解码器，所述解码器依据所述编码器输出的状态信息，确定所述语音流在当前窗口中的语音帧对应的注意力信息，并依据所述注意力信息和所述状态信息，确定所述当前窗口对应所述唤醒词的概率；

所述第一模式对应的处理过程包括：在所述解码器输出所述状态信息后，对所述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定所述当前窗口中语音帧对应的状态信息；

所述第二模式对应的处理过程包括：对所述语音流进行移动加窗处理，将所述语音流在当前窗口中的语音帧输入所述数据模型，经由所述编码器确定所述当前窗口中的语音帧对应的状态信息。

另一方面，本发明实施例公开了一种唤醒检测装置，包括：

语音激活检测模块，用于对音频进行语音激活检测，以得到所述音频中的语音流；

判断模块，用于对所述语音流的时长信息进行检测；

第一处理模块，用于在所述语音流的时长信息未到达预设时长信息的情况下，依据第一模式，利用数据模型，对所述语音流进行唤醒词检测；

第二处理模块，用于在所述语音流的时长信息到达预设时长信息的情况下，依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流的时长信息进行检测；

其中，所述数据模型包括：编码器和解码器，所述解码器依据所述编码器输出的状态信息，确定所述语音流在当前窗口中的语音帧对应的注意力信息，并依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率；

所述第一模式对应的的处理过程包括：在所述解码器输出所述状态信息后，对所述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定所述当前窗口中语音帧对应的状态信息；

再一方面，本发明实施例公开了一种用于唤醒检测的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对音频进行语音激活检测，以得到所述音频中的语音流；

对所述语音流的时长信息进行检测；

又一方面，本发明实施例公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述一个或多个所述的唤醒检测方法。

本发明实施例包括以下优点：

本发明实施例依据语音流的时长信息是否到达预设时长信息，判断是否处于噪声环境，若未处于噪声环境，则采用第一模式。上述第一模式对应的的处理过程包括：在上述解码器输出上述状态信息后，对上述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息。由于第一模式依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息，故可以考虑长时间的记忆信息，故可以提高在安静环境下语音唤醒的准确率。

若处于噪声环境，则采用第二模式。上述第二模式对应的处理过程包括：对上述语音流进行移动加窗处理，将上述语音流在当前窗口中的语音帧输入上述数据模型，经由上述编码器确定上述当前窗口中的语音帧对应的状态信息。由于第二模式经由上述编码器确定上述当前窗口中的语音帧对应的状态信息，可以降低噪声对于语音唤醒的准确率的影响。并且，第二模式对应的的当前窗口可以作为第一模式对应的先前窗口，因此第二模式可以为第一模式提供记忆信息，故可以提高在噪声环境下语音唤醒的准确率，进而可以平衡在噪音环境和安静环境下语音唤醒的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种数据处理方法的示意图；

图2是本发明的一种唤醒检测方法实施例的步骤流程图；

图3是本发明实施例的一种第一模式的处理过程的示意图；

图4是本发明实施例的一种第二模式的处理过程的示意图；

图5是本发明的另一种唤醒检测装置实施例的结构框图；

图6是本发明的一种用于唤醒检测的装置900的框图；及

图7是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种唤醒检测方案，该方案能够在噪声环境下提高语音唤醒的准确率，且可以降低语音唤醒的功耗。

该方案具体包括：对音频进行VAD(语音激活检测，Voice Activity Detection)，以得到上述音频中的语音流；对上述语音流的时长信息进行检测；若上述语音流的时长信息未到达预设时长信息，则依据第一模式，利用数据模型，对所述上述语音流进行唤醒词检测；若上述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述上述语音流进行唤醒词检测，对上述语音流进行重新计时，并返回执行上述对上述语音流的时长信息进行检测。

其中，上述数据模型可以包括：编码器和解码器，上述解码器依据上述编码器输出的状态信息，确定上述语音流在当前窗口中的语音帧对应的注意力信息，并依据上述注意力信息和状态信息，确定上述当前窗口对应上述唤醒词的概率。

参照图1，示出了本发明实施例的一种数据处理方法的示意图，其中，可以对音频进行VAD，此处的音频可以为经由电子设备采集的音频。例如，在非工作状态下，电子设备可以采集得到上述音频。

VAD又称语音端点检测或语音边界检测，目的是从声音信号流里识别和消除长时间的静音期。本发明实施例中，VAD的结果可以包括：语音流或非语音流，其中，可以对语音流进行进一步的处理，而可以舍弃非语音流。

本发明实施例可以将语音流输入数据模型。数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型，数学模型是针对参照某种事物***的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合，通过这些方程定量地或定性地描述***各变量之间的相互关系或因果关系。除了用方程描述的数学模型外，还有用其他数学工具，如代数、几何、拓扑、数理逻辑等描述的模型。其中，数学模型描述的是***的行为和特征而不是***的实际结构。其中，可采用机器学习、深度学习方法等方法进行数学模型的训练，机器学习方法可包括：线性回归、决策树、随机森林等，深度学习方法可包括：卷积神经网络(ConvolutionalNeural Networks,CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)等。

数据模型可以包括：编码器和解码器。其中，编码器可以对语音流进行特征提取，以得到语音流对应的状态信息。上述状态信息对应的特征可以为语音特征，上述语音特征可以包括但不限于：fbank(滤波器组，filter bank)特征、MFCC(梅尔频率倒谱系数，MelFrequency Cepstrum Coefficient)特征等。

解码器可以带有注意力机制，其可以依据上述编码器输出的状态信息，确定上述语音流在当前窗口中的语音帧对应的注意力信息，并依据上述注意力信息和状态信息，确定上述当前窗口对应上述唤醒词的概率。其中，注意力信息可以表征当前窗口中语音帧的重要性，尤其地，可以表征当前窗口中语音帧对于检测结果的重要性。本发明实施例可以针对对检测结果更重要的语音帧给予更高的关注度，故可以提高检测结果的准确度。

可选地，解码器可以包括：注意力处理模块和线性处理模块，其中，注意力处理模块，可用于依据上述编码器输出的状态信息，确定上述语音流在当前窗口中的语音帧对应的注意力信息。线性处理模块，用于依据上述注意力信息和所述状态信息，确定上述当前窗口对应上述唤醒词的概率。可选地，线性处理模块，可以依据注意力信息进行归一化处理，以得到当前窗口对应上述唤醒词的概率。可以理解，本发明实施例对于线性处理模块的具体处理过程不加以限制。

发明人在实施本发明实施例的过程中发现，VAD会影响数学模型对历史信息的学习。尤其地，在噪声环境下，噪声容易影响记忆信息的传递，使得语音唤醒的准确率较低。

本发明实施例依据上述语音流的时长信息是否到达预设时长信息，判断是否处于噪声环境，若未处于噪声环境，则采用第一模式。上述第一模式对应的的处理过程包括：在上述解码器输出上述状态信息后，对上述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息。由于第一模式依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息，故可以考虑长时间的记忆信息，故可以提高语音在安静环境下的唤醒准确率。

若处于噪声环境，则采用第二模式。上述第二模式对应的处理过程包括：对上述语音流进行移动加窗处理，将上述语音流在当前窗口中的语音帧输入上述数据模型，经由上述编码器确定上述当前窗口中的语音帧对应的状态信息。由于第二模式经由上述编码器确定上述当前窗口中的语音帧对应的状态信息，可以降低噪声对于语音唤醒的准确率的影响。并且，第二模式对应的的当前窗口可以作为第一模式对应的先前窗口，因此第二模式可以为第一模式提供记忆信息，故可以提高语音在噪声环境下的唤醒准确率，故进而平衡语音在安静环境和噪声环境下的唤醒准确率。

本发明实施例可以应用于语音唤醒场景。在语音唤醒场景中，本发明实施例可以检测音频中是否包括唤醒词，若是，则唤醒电子设备。

本发明实施例提供的唤醒检测方法可应用于客户端和服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，经由该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。可选地，客户端可以对应任意的应用程序，如语音交互程序等。

方法实施例

参照图2，示出了本发明的一种唤醒检测方法实施例的步骤流程图，具体可以包括：

步骤201、对音频进行语音激活检测，以得到上述音频中的语音流；

步骤202、对上述语音流的时长信息进行检测；

步骤203、若上述语音流的时长信息未到达预设时长信息，则依据第一模式，利用数据模型，对所述上述语音流进行唤醒词检测；

步骤204、若上述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述上述语音流进行唤醒词检测，对上述语音流进行重新计时，并返回执行上述对上述语音流的时长信息进行检测；

其中，上述数据模型具体包括：编码器和解码器，上述解码器依据上述编码器输出的状态信息，确定上述语音流在当前窗口中的语音帧对应的注意力信息，并依据上述注意力信息和状态信息，确定上述当前窗口对应上述唤醒词的概率；

上述第一模式对应的的处理过程具体包括：在上述解码器输出上述状态信息后，对上述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息；

上述第二模式对应的处理过程具体包括：对上述语音流进行移动加窗处理，将上述语音流在当前窗口中的语音帧输入上述数据模型，经由上述编码器确定上述当前窗口中的语音帧对应的状态信息。

图1所示方法实施例一可由客户端或服务端执行，当然本发明实施例对于方法实施例一对应的具体执行主体不加以限制。

步骤201中，可以采集电子设备对应的音频，并对音频进行VAD，VAD的结果可以包括：语音流或非语音流，本发明实施例可以针对语音流进行后续的处理。

步骤202中，对上述语音流的时长信息进行检测，可以判断上述语音流的时长信息是否到达预设时长信息，进而判断是否处于噪声环境。本发明实施例可以对语音流进行计时，在语音流对应的时长信息到达预设时长信息，可以认为VAD检测得到的语音流是连续的，故可以认为处于噪声环境。

本领域技术人员可以根据实际应用需求，确定预设时长信息。

可选地，所述预设时长信息为依据所述唤醒词对应的信息得到。唤醒词可用于表征用于唤醒电子设备的的语音口令，唤醒词可由***或用户设定，本发明实施例对于具体的唤醒词不加以限制。

例如，可以根据唤醒词所包含字符的数量、以及、一个字符对应语音帧的数量，确定上述预设时长信息。例如，一个字符对应语音帧的数量为20～30帧，则在唤醒词包含字符的数量为5的情况下，上述预设时长信息可以对应100～150个语音帧，可以理解，本发明实施例对于具体的时长信息不加以限制。

步骤202得到的判断结果可以包括：是或否。若判断结果为否，则执行步骤203，若判断结果为是，则执行步骤204。

步骤203中，可以依据第一模式，利用数据模型，对所述上述语音流进行唤醒词检测，上述唤醒词检测用于检测语音流中是否包括唤醒词。由于第一模式依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息，故可以考虑长时间的记忆信息，故可以提高语音在安静环境下的唤醒准确率。

本发明实施例中，可选的是，可以收集用于训练数据模型的语料，语料可以包括：正向语料和负向语料。可选地，可以对正向语料和负向预先进行对齐。可选地，可以对对齐后的正向语料中唤醒词所占时间信息取平均值，依据平均值得到窗口的长度。

在对语料进行训练的过程中，可以依据窗口的长度，从正向语料中截取得到对应的正向语音，以及，从负向语料中截取得到对应的负向语音。可以对正向语音和负向语音进行学习，以得到正向语音和负向语音对应语音特征的分布，由此可以使数学模型具备唤醒检测的能力。

可选地，正向语料与负向语料之间的比例范围可以为1:20～1:40，该比例范围可以提高正向语音和负向语音对应语音特征的分布的合理性。当然，本发明实施例对于正向语料与负向语料之间的比例范围不加以限制。

参照图3，示出了本发明实施例的一种第一模式的处理过程的示意图，其中，经过VAD处理后的语音流被输入编码器，经由编码器对语音流进行处理，以得到语音流中语音帧对应的状态信息。

接着，可以对编码器输出的状态信息进行移动加窗，窗口的长度可以为T，窗移可由本领域技术人员根据实际应用需求确定。例如，在窗口的长度为100帧的情况下，窗移可以为10帧。

本发明实施例中，可选的是，所述窗口的长度可以为依据正向语料中唤醒词对应的时间信息的均值得到。语料可用于训练数学模型。可以对语料进行对齐，并统计语料中唤醒词所占的时间信息，并依据时间信息的平均值得到窗口的长度，以使窗口覆盖对应的唤醒词。可以理解，窗口的长度可以等于时间信息的平均值，或者，窗口的长度可以大于时间信息的平均值。当然，本发明实施例对于窗口的长度不加以限制。

移动加窗可以得到不断更新的窗口，本发明实施例的当前窗口可以指正在处理的窗口，先前窗口可以指位于当前窗口之前的窗口，先前窗口可以包括：上一窗口等。

在本发明的一种示例中，假设窗口的长度为100帧、窗移为10帧，则第1个窗口对应1～100帧，第2个窗口对应11～110帧，第3个窗口对应21～120帧…等等。

移动加窗后的状态信息可以包括：h_s+1、h_s+2…、h_s+T-1、h_s+T等。其中，s表征在对语音流进行本次计时的过程中，当前窗口之前的数据帧的数量，s可以为数值。例如，第1个窗口对应的s为0，第2个窗口对应的s为10，第3个窗口对应的s为20等。

第一模式对应的注意力处理过程可以包括：依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息，并依据上述当前窗口中语音帧对应的状态信息，确定注意力信息。图3中，a_t表示第t个时刻对应的注意力信息，t可以为自然数。h_s+1、h_s+2…、h_s+T-1、h_s+T分别对应的注意力信息可以记为：a₁、a₂、a₃、…a_T-1、a_T。

本发明实施例中，可选的是，所述当前窗口中的语音帧可以包括：第一语音帧；

所述第一模式对应的的处理过程可以包括：依据先前窗口中第一语音帧的状态信息，确定所述当前窗口中第一语音帧对应的状态信息。

第一语音帧可以表征先前窗口和当前窗口共有的语音帧。例如，第1个窗口和第二窗口共有的语音帧为：11～100帧，则可以依据第一窗口中11～100帧对应的状态信息，确定第二窗口中11～100帧对应的状态信息，由于可以节省第一语音帧对应状态信息的运算量，进而可以节省功耗。

本发明实施例中，可选的是，所述当前窗口中的语音帧还可以包括：第二语音帧；所述第一模式对应的的处理过程还包括：经由所述编码器确定所述第二语音流在当前窗口中的语音帧对应的状态信息。

以第2个窗口为例，第二语音帧可以为101～110帧，可以经由编码器计算第二语音帧对应的状态信息。

本发明实施例中，可选的是，可以依据注意力信息，确定当前窗口对应的上下文向量c，上下文向量c可以为依据不同时刻的状态信息和注意力信息得到，可以理解，本发明实施例对于上下文向量c的具体确定过程不加以限制。

线性处理可用于对上下文向量c进行线性处理，以得到当前窗口对应唤醒词的概率p(y)。线性处理可以包括：归一化处理等，可以理解，本发明实施例对于具体的线性处理不加以限制。

在采用第一模式的情况下，由于可以依据先前窗口中第一语音帧的状态信息，确定所述当前窗口中第一语音帧对应的状态信息，故可以节省第一语音帧对应状态信息的运算量，进而可以节省功耗。

步骤204中，上述第二模式对应的处理过程包括：对上述语音流进行移动加窗处理，将上述语音流在当前窗口中的语音帧输入上述数据模型，经由上述编码器确定上述当前窗口中的语音帧对应的状态信息。由于第二模式经由上述编码器确定上述当前窗口中的语音帧对应的状态信息，可以降低噪声对于语音唤醒的准确率的影响。并且，第二模式对应的的当前窗口可以作为第一模式对应的先前窗口，因此第二模式可以为第一模式提供记忆信息，故可以提高语音在噪声下的唤醒准确率，故进而平衡语音在安静和噪声条件下的唤醒准确率。

参照图4，示出了本发明实施例的一种第二模式的处理过程的示意图，其中，可以对经过VAD处理后的语音流进行移动加窗，窗口的长度可以为T。

当前窗口的语音帧可被输入编码器，经由编码器对当前窗口的语音帧进行处理，以得到当前窗口中语音帧对应的状态信息，如h₁、h₂…、h_T-1、h_T等。

接着，在第二模式的情况下，当前窗口中首个语音帧对应的状态信息h₁可以为预设值，预设值可以为0等。下一个语音帧对应的状态信息可以为依据当前语音帧对应的状态信息得到，例如，依据h₁得到h₂，依据h₂得到h₃，…、依据h_T-1得到h_T等，由此可以经由编码器得到当前窗口中语音帧对应的状态信息。

第一模式和第二模式的ht，可以由ht-1和xt得到；其中，xt表征语音帧的特征，如fbank特征。

第一模式和第二模式的的一个区别在于：h0的不同。

h0可用于表征一个窗口的初始状态信息，h0可用于确定一个窗口中第一个语音帧的状态信息。第一模式的h0可由上一窗口得到，例如上一窗口的语音帧为1～100帧，当前窗口的语音帧为11～110帧，则当前窗口的h0可以为10帧，当前窗口的h0可由上一窗口得到。

第二模式的h0可以为预设值，如预设值可以为0。

接着，可以依据上述当前窗口中语音帧对应的状态信息，确定注意力信息。图4中，a_t表示第t个时刻对应的注意力信息，t可以为自然数。h₁、h₂…、h_T-1、h_T分别对应的注意力信息可以记为：a₁、a₂、a₃、…a_T-1、a_T。

步骤204中，在上述语音流的时长信息到达预设时长信息的情况下，可以对语音流进行重新计时，也即可以从第0帧语音帧开始进行语音帧的计时，故可以执行一次第二模式的处理，在执行完成一次第二模式的处理后，步骤203的判断结果将为否，也即将触发步骤203，一次第二模式的处理得到的当前窗口将作为步骤203中第一模式的先前窗口，由于经由第二模式可以为第一模式提供记忆信息(也即，为第一模式提供h0的信息，例如，第二模式的窗口为窗口i，则第一模式的窗口为窗口(i+1)，窗口(i+1)的h0可以由窗口i提供)，故可以提高语音唤醒的准确率。

本发明实施例中，针对VAD得到的语音流进行第i次计时，i可以为大于0的自然数，在第i次计时的初期，语音流的时长较短，判断结果为否，故可以执行步骤203，以在节省功耗的情况下提高在安静环境下的语音唤醒的准确率。随着第i次计时过程中语音流的时长的增加，判断结果将更新为是，此种情况下，表征处于噪声环境下，故可以执行步骤204，而步骤204可以执行一次第二模式的处理，以此提升在噪声环境下语音唤醒的准确率，并针对语音流进行下一次计时。一次第二模式的处理可以为下一次计时过程中的第一模式提供记忆信息，故可以提高语音唤醒的准确率。

本发明实施例中，步骤203和步骤204得到的检测结果可以包括：是或否。可选地，可以依据当前窗口对应唤醒词的概率，确定检测结果。例如，若概率超过阈值，则检测结果为是；或者，若概率不超过阈值，则检测结果为否。

可选地，在检测结果为是的情况下，可以唤醒电子设备，并结束本发明实施例的唤醒检测流程。可选地，在检测结果为否的情况下，可以继续本发明实施例的唤醒检测流程，也即，可以返回步骤201。

综上，本发明实施例的唤醒检测方法，依据语音流的时长信息是否到达预设时长信息，判断是否处于噪声环境，若未处于噪声环境，则采用第一模式。上述第一模式对应的的处理过程包括：在上述解码器输出上述状态信息后，对上述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息。由于第一模式依据先前窗口中语音帧的状态信息，确定上述当前窗口中语音帧对应的状态信息，故可以考虑长时间的记忆信息，故可以提高在安静环境下的语音唤醒的准确率。

若处于噪声环境，则采用第二模式。上述第二模式对应的处理过程包括：对上述语音流进行移动加窗处理，将上述语音流在当前窗口中的语音帧输入上述数据模型，经由上述编码器确定上述当前窗口中的语音帧对应的状态信息。由于第二模式经由上述编码器确定上述当前窗口中的语音帧对应的状态信息，可以降低噪声对于语音唤醒的准确率的影响。并且，第二模式对应的的当前窗口可以作为第一模式对应的先前窗口，因此第二模式可以为第一模式提供记忆信息，故可以提高语音在噪声下的唤醒准确率，故进而平衡语音在安静和噪声条件下的唤醒准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图5，示出了本发明的一种唤醒检测装置实施例的结构框图，具体可以包括：

语音激活检测模块501，用于对音频进行语音激活检测，以得到所述音频中的语音流；

判断模块502，用于对所述语音流的时长信息进行检测；

第一处理模块503，用于在所述语音流的时长信息未到达预设时长信息的情况下，依据第一模式，利用数据模型，对所述语音流进行唤醒词检测；

第二处理模块504，用于在所述语音流的时长信息到达预设时长信息的情况下，依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流的时长信息进行检测；

其中，所述数据模型可以包括：编码器和解码器，所述解码器依据所述编码器输出的状态信息，确定所述语音流在当前窗口中的语音帧对应的注意力信息，并依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率；

所述第一模式对应的的处理过程可以包括：在所述解码器输出所述状态信息后，对所述语音流进行移动加窗处理，依据先前窗口中语音帧的状态信息，确定所述当前窗口中语音帧对应的状态信息；

所述第二模式对应的处理过程可以包括：对所述语音流进行移动加窗处理，将所述语音流在当前窗口中的语音帧输入所述数据模型，经由所述编码器确定所述当前窗口中的语音帧对应的状态信息。

可选地，所述当前窗口中的语音帧可以包括：第一语音帧；

可选地，所述当前窗口中的语音帧还可以包括：第二语音帧；

所述第一模式对应的的处理过程还可以包括：经由所述编码器确定所述第二语音流在当前窗口中的语音帧对应的状态信息。

可选地，所述预设时长信息为依据所述唤醒词对应的信息得到。

可选地，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，可以包括：

依据所述注意力信息和状态信息，确定所述当前窗口对应的上下文向量；

依据所述上下文向量，确定所述当前窗口对应所述唤醒词的概率。

可选地，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

可选地，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种用于唤醒检测的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对音频进行语音激活检测，以得到所述音频中的语音流；对所述语音流的时长信息进行检测；若所述语音流的时长信息未到达预设时长信息，则依据第一模式，利用数据模型，对所述语音流进行唤醒词检测；若所述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流进行唤醒词检测。

图6是根据一示例性实施例示出的一种用于唤醒检测的装置900作为终端时的结构框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种唤醒检测方法，所述方法包括：对音频进行语音激活检测，以得到所述音频中的语音流；对所述语音流的时长信息进行检测；若所述语音流的时长信息未到达预设时长信息，则依据第一模式，利用数据模型，对所述语音流进行唤醒词检测；若所述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流进行唤醒词检测。

本发明实施例公开了A1、一种唤醒检测方法，包括：

对音频进行语音激活检测，以得到所述音频中的语音流；

对所述语音流的时长信息进行检测；

A2、根据A1所述的方法，所述当前窗口中的语音帧包括：第一语音帧；

所述第一模式对应的的处理过程包括：依据先前窗口中第一语音帧的状态信息，确定所述当前窗口中第一语音帧对应的状态信息。

A3、根据A2所述的方法，所述当前窗口中的语音帧还包括：第二语音帧；

所述第一模式对应的的处理过程还包括：经由所述编码器确定所述第二语音流在当前窗口中的语音帧对应的状态信息。

A4、根据A1所述的方法，所述预设时长信息为依据所述唤醒词对应的信息得到。

A5、根据A1所述的方法，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，包括：

A6、根据A1至A5中任一所述的方法，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

A7、根据A1至A5中任一所述的方法，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

本发明实施例公开了B8、一种唤醒检测装置，所述装置包括：

判断模块，用于对所述语音流的时长信息进行检测；

B9、根据B8所述的装置，所述当前窗口中的语音帧包括：第一语音帧；

B10、根据B9所述的装置，所述当前窗口中的语音帧还包括：第二语音帧；

B11、根据B8所述的装置，所述预设时长信息为依据所述唤醒词对应的信息得到。

B12、根据B8所述的装置，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，包括：

B13、根据B8至B12中任一所述的装置，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

B14、根据B8至B12中任一所述的装置，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

本发明实施例公开了C15、一种用于唤醒检测的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对音频进行语音激活检测，以得到所述音频中的语音流；

对所述语音流的时长信息进行检测；

若所述语音流的时长信息到达预设时长信息，则依据第二模式，利用数据模型，对所述语音流进行唤醒词检测，对所述语音流进行重新计时，并返回执行所述对所述语音流的时长信息进行检测；

C16、根据C15所述的装置，所述当前窗口中的语音帧包括：第一语音帧；

C17、根据C16所述的装置，所述当前窗口中的语音帧还包括：第二语音帧；

C18、根据C15所述的装置，所述预设时长信息为依据所述唤醒词对应的信息得到。

C19、根据C15所述的装置，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，包括：

C20、根据C15至C19中任一所述的装置，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

C21、根据C15至C19中任一所述的装置，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

本发明实施例公开了D22、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的唤醒检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种唤醒检测方法、一种唤醒检测装置和一种用于唤醒检测的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种唤醒检测方法，其特征在于，所述方法包括：

对音频进行语音激活检测，以得到所述音频中的语音流；

对所述语音流的时长信息进行检测；

2.根据权利要求1所述的方法，其特征在于，所述当前窗口中的语音帧包括：第一语音帧；

所述第一模式对应的处理过程包括：依据先前窗口中第一语音帧的状态信息，确定所述当前窗口中第一语音帧对应的状态信息。

3.根据权利要求2所述的方法，其特征在于，所述当前窗口中的语音帧还包括：第二语音帧；

所述第一模式对应的处理过程还包括：经由所述编码器确定第二语音流在当前窗口中的语音帧对应的状态信息。

4.根据权利要求1所述的方法，其特征在于，所述预设时长信息为依据所述唤醒词对应的信息得到。

5.根据权利要求1所述的方法，其特征在于，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，包括：

6.根据权利要求1至5中任一所述的方法，其特征在于，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

7.根据权利要求1至5中任一所述的方法，其特征在于，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

8.一种唤醒检测装置，其特征在于，所述装置包括：

判断模块，用于对所述语音流的时长信息进行检测；

9.根据权利要求8所述的装置，其特征在于，所述当前窗口中的语音帧包括：第一语音帧；

10.根据权利要求9所述的装置，其特征在于，所述当前窗口中的语音帧还包括：第二语音帧；

11.根据权利要求8所述的装置，其特征在于，所述预设时长信息为依据所述唤醒词对应的信息得到。

12.根据权利要求8所述的装置，其特征在于，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，包括：

13.根据权利要求8至12中任一所述的装置，其特征在于，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

14.根据权利要求8至12中任一所述的装置，其特征在于，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

15.一种用于唤醒检测的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对音频进行语音激活检测，以得到所述音频中的语音流；

对所述语音流的时长信息进行检测；

16.根据权利要求15所述的装置，其特征在于，所述当前窗口中的语音帧包括：第一语音帧；

17.根据权利要求16所述的装置，其特征在于，所述当前窗口中的语音帧还包括：第二语音帧；

18.根据权利要求15所述的装置，其特征在于，所述预设时长信息为依据所述唤醒词对应的信息得到。

19.根据权利要求15所述的装置，其特征在于，所述依据所述注意力信息和状态信息，确定所述当前窗口对应所述唤醒词的概率，包括：

20.根据权利要求15至19中任一所述的装置，其特征在于，所述窗口的长度为依据正向语料中唤醒词对应的时间信息的均值得到。

21.根据权利要求15至19中任一所述的装置，其特征在于，所述数据模型对应正向语料与负向语料之间的比例范围为1:20～1:40。

22.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的唤醒检测方法。