CN110619871B

CN110619871B - 语音唤醒检测方法、装置、设备以及存储介质

Info

Publication number: CN110619871B
Application number: CN201810637168.1A
Authority: CN
Inventors: 陈梦喆; 雷鸣; 高杰; 张仕良; 刘勇; 姚海涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2023-06-30
Anticipated expiration: 2038-06-20
Also published as: CN110619871A

Abstract

本公开提出了一种语音唤醒检测方法、装置、设备以及存储介质。将多帧音频数据中目标帧附近预定范围内的音频数据帧，与目标帧一并输入至声学模型组件，声学模型组件为前馈序列记忆神经网络模型组件，声学模型组件的输出为目标帧以及预定范围内的音频数据帧中的至少一帧音频数据的状态识别结果；将多帧音频数据中位于目标帧之后且未对其进行处理的单帧音频数据，作为下一个目标帧，并迭代地使用声学模型组件对之后多个目标帧进行处理；以及将多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别多帧音频数据是否为唤醒指令。由此，在降低设备端资源的占用的同时，还可以保证良好的唤醒性能，满足唤醒所需的实时性的要求。

Description

语音唤醒检测方法、装置、设备以及存储介质

技术领域

本公开涉及语音技术领域，特别是涉及一种语音唤醒检测方法、装置、设备以及存储介质。

背景技术

语音唤醒是指在用户说出特定的语音指令(即唤醒词)时，设备从休眠状态切换到工作状态。唤醒技术的用途在于，用户对于设备的操作可以完全用语音进行，脱离双手的帮助；同时，利用唤醒这样的机制，设备不需要时时处于工作状态，大大节省能耗。目前，语音唤醒技术广泛地应用于各类语音控制的产品中，比如机器人、手机、可穿戴设备、智能家居、车载等。

一般来说，这类产品都需要支持在有网络和无网络两种环境中工作，而唤醒作为交互的第一步，必定要求在无网络的情况下也能正常工作，这就需要利用设备端的存储和计算资源实现。而设备端的计算资源通常十分有限，无论是CPU核数目、内存大小还是核心频率都远小于我们普通使用的电脑，更无法比拟云端服务器。在离线情况下，这点有限的资源除了分配给唤醒以外，还要承担信号处理、语义理解等工作，因此唤醒作为高频使用的部分需要尽可能减小资源的占用。

并且，在保证较小资源的占用的前提下，唤醒的性能也是重中之重。由于唤醒词几乎没有上下文信息，因此对是否唤醒的判断完全依赖于声学模型。为了追求更优的性能，也就是更高的召回率和更低的误唤醒率，在声学建模上，往往会采用规模更大、数据表达能力更强的模型结构；同时，唤醒技术对于实时率以及时延有着很高的要求，这决定了产品对于用户发出唤醒词指令后的反馈速度，而声学模型的计算量以及其结构直接影响着这两个指标。可以看出，以上两者是存在一定矛盾的。因此，在语音唤醒技术中，在不显著增加资源占用的前提下，如何保证良好的唤醒性能，又满足实时性，是目前面临的主要问题。

发明内容

本公开的一个目的在于提出一种能够在不显著增加资源占用的前提下，保证良好的唤醒性能的语音唤醒检测方案。

根据本公开的第一个方面，提供了一种语音唤醒检测方法，包括：将多帧音频数据中目标帧附近预定范围内的音频数据帧，与目标帧一并输入至声学模型组件，声学模型组件为前馈序列记忆神经网络模型组件，声学模型组件的输出为所述目标帧以及所述预定范围内的音频数据帧中的至少一帧音频数据的状态识别结果；将所述多帧音频数据中位于所述目标帧之后且未对其进行处理的单帧音频数据，作为下一个目标帧，并迭代地使用声学模型组件对之后多个目标帧进行处理；以及将所述多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别所述多帧音频数据是否为唤醒指令。

可选地，预定范围内的音频数据帧包括：多帧音频数据中位于目标帧之前第一预定范围内的音频数据帧；和/或多帧音频数据中位于目标帧之后第二预定范围内的音频数据帧。

可选地，语音唤醒检测方法还包括：实时检测用户的语音输入；以及对检测到的语音输入进行分帧处理，以得到所述多帧音频数据。

可选地，将所述多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对的步骤包括：从预先设定的多个路径模型中查找与所述分析结果相匹配的路径模型，以识别所述多帧音频数据是否唤醒指令，其中，不同的路径模型对应不同的识别结果。

可选地，路径模型包括：唤醒指令模型；补白模型；以及静音模型。

可选地，声学模型包括：输入层；隐藏层结构；以及多个输出层，多个输出层用于分别对输入中不同帧的音频数据的分析结果进行预测。

可选地，隐藏层结构包括多个隐藏层，其中，至少两个相邻隐藏层之间设有记忆模块，记忆模块用于存储对判断当前的目标帧有用的历史信息和未来信息。

可选地，记忆模块的输出用于作为下一个隐藏层的输入，记忆模块的输出包括当前隐藏层的输出、预定回看阶数的隐藏层的输出以及预定前看阶数的隐藏层的输出。

可选地，

其中，

表示第l+1个隐层的输入，其通过激活函数f的非线性变换得到，U^l表示权重，/>

表示记忆模块的输出，/>

表示偏置，

表示第l个隐层的输出，/>

表示第l个隐层的输入，W^l表示权重，b^l表示偏置，t表示当前时刻，s₁和s₂分别表示历史时刻和未来时刻的编码步幅因子，N₁和N₂分别表示回看阶数和前看阶数，/>

和/>

是记忆模块的编码系数。/>

可以视为预定回看阶数的隐藏层的输出，表示当前时刻t之前以s₁为编码步幅因子在不同回看阶数下的隐藏层的输出与对应编码系数的逐位相乘后所得结果，/>

可以视为预定前看阶数的隐藏层的输出，表示当前时刻t之后以s₂为编码步幅因子在不同前看阶数下的隐藏层的输出与对应编码系数的逐位相乘后所得结果。

根据本公开的第二个方面，还提供了一种语音唤醒检测装置，包括：状态识别模块，用于将多帧音频数据中目标帧附近预定范围内的音频数据帧，与所述目标帧一并输入至声学模型组件，所述声学模型组件为前馈序列记忆神经网络模型组件，所述声学模型组件的输出为所述目标帧以及所述预定范围内的音频数据帧中的至少一帧音频数据的状态识别结果，其中，所述状态识别模块将所述多帧音频数据中位于所述目标帧之后且未对其进行预测的单帧音频数据，作为下一个待分析的目标帧，并迭代地使用所述声学模型组件对之后多个目标帧进行处理；和唤醒识别模块，用于将所述多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别所述多帧音频数据是否为唤醒指令。

可选地，语音唤醒检测装置还包括：检测模块，用于实时检测用户的语音输入；以及分帧模块，用于对检测到的语音输入进行分帧处理，以得到多帧音频数据。

可选地，唤醒识别模块从预先设定的多个路径模型中查找与多个帧的音频数据的状态识别结果相匹配的路径模型，以识别所述多帧音频数据是否为唤醒指令，其中，不同的路径模型对应不同的识别结果。

可选地，

其中，

表示记忆模块的输出，/>

表示偏置，

表示第l个隐层的输出，/>

表示第l个隐层的输入，W^l表示权重，b^l表示偏置，t表示当前时刻，s₁和s₂分别表示历史时刻和未来时刻的编码步幅因子，N₁和N₂分别表示回看阶数和前看阶数。/>

和/>

是记忆模块的编码系数。/>

根据本公开的第三个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面述及的方法。

根据本公开的第四个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面述及的方法。

本公开通过将多帧预测的方式与FSMN结合起来进行唤醒检测，使得需要计算的帧数可以成倍减少，从而可以大大降低设备端资源的占用，并且在较小资源占用的同时，还可以保证良好的唤醒性能，满足唤醒所需的实时性的要求。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出了一种针对多帧音频数据的分析方式的示例图。

图2是示出了根据本公开一实施例的语音唤醒检测方法的示意性流程图。

图3A、图3B是示出了根据本公开一实施例的针对多帧音频数据的分析方式的示例图。

图4是示出了根据本公开一实施例的声学模型的结构的示意图。

图5是示出了引入的FSMN结构的示意图。

图6是示出了根据本公开一实施例的声学模型的结构示意图。

图7是示出了根据本公开一实施例的语音唤醒***的结构框架图。

图8是示出了根据本公开一实施例的语音唤醒检测装置的结构的示意性方框图。

图9示出了根据本发明一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

【方案概述】

在使用声学模型进行语音唤醒检测时，一般是将多帧音频数据中当前帧作为声学模型的输入，来得到当前帧的输出。为了提高输出结果的准确性，针对当前待处理的输入帧，可以拼接输入帧前后一定长度的音频数据作为声学模型的输入，以使得输入包含输入帧上下文的关联信息。由此，在使用声学模型对当前帧进行处理(也即预测)时，输入是包含当前帧在内的当前帧前后一定范围的音频数据，而输出仅是对当前帧的预测结果。

在采用这种“多帧输入单帧输出”的方式进行语音唤醒检测时，相邻两次输入会存在一定长度的重复音频，即相邻两次输入的特征会存在一定的重叠，也即相邻两次输入的特征存在一定的相似性。由于声学模型是针对当前帧进行预测，因此这种特征重叠其实是预测过程中的一种资源浪费，重叠的特征越多，资源浪费现象愈加明显。

如图1所示，刻度0至刻度9代表切分后的连续的多帧音频数据。在本公开中，刻度0至刻度1这段音频数据可以视为第1帧音频数据，刻度1至刻度2这段音频数据可以视为第2帧音频数据，以此类推。假设针对当前待预测的输入帧，拼接输入帧之后3帧长度的音频数据作为声学模型的输入。在对第1帧音频数据进行预测时，可以将第1-第4帧的音频数据作为输入；在对第2帧音频数据进行预测时，可以将第2-第5帧的音频数据作为输入；在对第3帧音频数据进行预测时，可以将第3-第6帧的音频数据作为输入。

可见，第1次输入和第2次输入中存在重复的音频数据(第2帧-第4帧)，第2次输入和第3次输入中存在重复的音频数据(第3帧-第5帧)，并且第1次输入和第3次输入中也存在重复的音频数据(第3帧、第4帧)。

声学模型在对第1次输入进行处理，以得到第1帧音频数据的预测结果后，接着对第2次输入进行处理，以对第2帧音频数据进行预测时，当前输入中第2帧音频数据至第4帧音频数据为对第1次输入进行处理时处理过的数据。并且，声学模型在继续对第3次输入进行处理，以对第3帧音频数据进行预测时，当前输入中第3帧至第5帧为模型对第2次输入进行处理时处理过的数据，并且当前输入中第3帧和第4帧为模型对第1次输入进行处理时处理过的数据。可见，这种相邻输入之中的重复特征(或者说相似特征)，在一定程度上造成了计算资源的浪费。

有鉴于此，本公开提出，可以采用多帧预测(Multi-Frame Prediction，MFP)的方法，对声学模型的输出进行改造，将“一对一的预测模式”改为“一对多的预测模式”。具体来说，针对当前待预测的输入帧，由于输入是包含输入帧及其上下文的关联信息，因此可以将声学模型改造为，对输入帧及输入中所包含的其它一帧或多帧进行预测。由此，需要计算的帧数可以成倍减少，从而可以大大降低设备端资源的占用。

进一步地，如背景技术部分所述，在保证较小资源的占用的前提下，唤醒的性能也是重中之重。由于唤醒词几乎没有上下文信息，因此对是否唤醒的判断完全依赖于声学模型。为了追求更优的性能，也就是更高的召回率和更低的误唤醒率，在声学建模上，往往会采用规模更大、数据表达能力更强的模型结构；同时，唤醒技术对于实时率以及时延有着很高的要求，这决定了产品对于用户发出唤醒词指令后的反馈速度，而声学模型的计算量以及其结构直接影响着这两个指标。可以看出，以上两者是存在一定矛盾的。因此，在语音唤醒技术中，在不显著增加资源占用的前提下，如何保证良好的唤醒性能，又满足实时性，是目前面临的主要问题。

为了获得更优的分析性能，目前声学建模部分最多采用的是深度神经网络(DeepNeural Network，DNN)，DNN相对其它神经网络结构，在计算量上有明显优势，而其缺点在于无法利用长时信息，故性能的提升有限。

为了弥补这一缺点，可以采用基于长短时记忆单元的递归神经神经网络(LongShort-Term Memory Recurrent Neural Network，LSTM-RNN)，利用递归网络的循环链接以及LSTM单元对历史信息的存储能力，可以提升模型性能。但是，LSTM单元的结构以及循环的机制都需要大量的计算资源，这对于资源受限的设备端产品(如移动端产品)很不利。

本公开发明人注意到，前馈序列记忆神经网络(Feedforward Sequential MemoryNetworks，FSMN)，是在DNN的基础上引入记忆模块，增加少量的计算量，即可获得很大的性能提升。以一个四层隐层，每层512节点的模型为例，在输入输出数目都一样的情况下，对于每帧数据，FSMN的计算量比DNN只增加了1％，而LSTM的计算量则是FSMN的5倍；而选取计算量相同的FSMN和LSTM模型时，FSMN模型的性能远优于同等计算量的LSTM模型。因此，在本公开中，声学模型可以采用FSMN模型。如此，在减少资源占用的同时，还可以实现唤醒性能的提升。

下面就本公开涉及的各方面做进一步说明。

【多帧预测】

下面结合图2就本公开的语音唤醒检测方法的实现机理进行说明。图2是示出了根据本公开一实施例的语音唤醒检测方法的示意性流程图。

参见图2，在步骤S210，将多帧音频数据中目标帧附近预定范围内的音频数据帧，与目标帧一并输入至声学模型组件。

目标帧可以视为多帧音频数据中当前待处理的帧，目标帧附近预定范围内的音频数据帧可以是目标帧之前和/或之后一定时长范围内的音频数据帧。例如，可以是多帧音频数据中位于目标帧之前第一预定范围内的音频数据帧，也可以是多帧音频数据中位于目标帧之后第二预定范围内的音频数据帧。优选地，可以同时包括第一预定范围内的音频数据帧和第二预定范围内的音频数据帧，以使得输入可以同时包含目标帧上下文的关联信息。

一般来说，第一预定范围和第二预定范围设置过小，会使得输入所包含的目标帧的上下文信息有限，降低声学模型组件对目标帧进行处理得到的状态识别结果的准确性；而第一预定范围和第二预定范围设置过大，则会造成计算资源的浪费。因此，可以通过试验确定第一预定范围和第二预定范围的具体数值。在本公开中，第一预定范围和第二预定范围可以至少包括单帧时长，优选地可以是整数倍帧长。换言之，目标帧附近预定范围内的音频数据帧可以是整数帧，也可以不是，对此本公开不做限定。作为优选实施例，音频数据帧可以包括目标帧之前和/或之后的一帧或数帧音频数据。

由于输入是包括当前待分析的目标帧及其附近预定范围内的音频数据帧，如可以包括目标帧前后一定帧长的音频数据。因此，可以对声学模型进行改造，使得声学模型的输出为目标帧以及预定范围内的音频数据中的至少一帧音频数据的状态识别结果(也即预测结果)。在本公开中，声学模型组件可以视为能够实现声学模型的处理功能的软件和/或硬件资源的集合体，因此，声学模型的输出也即声学模型组件的输出。关于状态识别结果以及声学模型组件的结构将在下文详细说明，此处暂不描述。

需要说明的是，为了提高声学模型组件的输出结果的准确性，本公开述及的“至少一帧音频数据”可以是指预定范围内的音频数据中所包含的所有完整帧音频数据中的任意一帧或多帧。例如，在预定范围为目标帧之后两帧的音频数据的情况下，输入可以视为是包括目标帧在内的三帧音频数据。对于目标帧而言，后两帧音频数据可以视为目标帧的下文信息，对于中间帧音频数据来说，目标帧和最后一帧音频数据可以视为该帧的上下文信息，而对于目标帧最后的一帧音频数据来说，目标帧和中间帧音频数据可以视为该帧的上文信息。因此，声学模型组件可以被改造为，分别对目标帧、中间帧以及最后帧音频数据进行预测，以分别得到目标帧、中间帧以及最后帧的分析结果。当然，声学模型组件也可以被改造为，分别对目标帧、中间帧进行预测，以分别得到目标帧、中间帧的分析结果。

在步骤S220，将多帧音频数据中位于目标帧之后且未对其进行处理的单帧音频数据，作为下一个目标帧，并迭代地使用声学模型组件对之后多个目标帧进行处理。

由此，原本需要将多帧音频数据一帧帧地输入声学模型组件，以得到每帧的预测结果。而基于本公开的音频分析方案，在使用声学模型组件对多帧音频数据的状态进行识别时，可以以预定间隔(一帧或数帧)隔帧输入，从而可以使得计算量减到之前的1/N，进而可以大大降低设备端产品的计算资源占用。其中，N可以是大于或等于2的整数，关于N的具体数值可以根据实际情况设定，对此本公开不做限定。

如图3A、图3B所示，刻度0至刻度10代表连续的多帧音频数据。在本公开中，刻度0至刻度1这段音频数据可以视为第1帧音频数据，刻度1至刻度2这段音频数据可以视为第2帧音频数据，以此类推。假设针对当前待预测的输入帧，拼接输入帧之后3帧长度的音频数据帧作为声学模型组件的输入。在对第1帧音频数据进行预测时，可以将第1-4帧的音频数据作为输入。与图1不同的是，对于第1次输入，声学模型组件可以对第1帧及其后一帧或多帧的状态进行预测。由于第1次输入包括第1至第4帧的音频数据，因此，理论上，声学模型组件可以被改造为，分别对第1帧、第2帧、第3帧以及第4帧的状态进行预测，以分别得到第1帧、第2帧、第3帧以及第4帧的状态识别结果。但是考虑到预测的准确性，声学模型组件可以优选地对输入中具有上下文的帧数据的状态进行预测，例如声学模型组件可以分别对第1帧、第2帧、第3帧音频数据的状态进行预测。

如图3A所示，作为示例，对于第1次输入，声学模型组件可以对第1帧及其后一帧(也即第2帧)的状态进行预测，以分别得到第1帧和第2帧的状态识别结果。由此，声学模型组件在对第1次输入进行处理完成后，可以将未经分析的第3帧音频数据作为当前待预测的目标帧，然后拼接第3帧之后的3帧长度的音频数据，作为第2次输入，输入声学模型组件，声学模型组件可以对第3帧及其后一帧(也即第4帧)进行预测，以分别得到第3帧和第4帧的预测结果。由此，可以实现隔帧(相隔一帧)预测，从而使得计算量减到之前的1/2。

如图3B所示，作为示例，对于第1次输入，声学模型组件可以对第1帧及其后两帧(也即第2帧、第3帧)进行预测，以分别得到第1帧、第2帧以及第3帧的预测结果(即状态识别结果)。由此，声学模型在对第1次输入进行处理完成后，可以将未经处理的第4帧音频数据作为当前待预测的目标帧，然后拼接第4帧之后的3帧长度的音频数据，作为第2次输入，输入声学模型组件，声学模型组件可以对第4帧及其后两帧(也即第5帧、第6帧)的状态进行预测，以分别得到第4帧、第5帧以及第6帧的预测结果。由此，可以实现隔帧(相隔两帧)预测，从而使得计算量减到之前的1/3。

在步骤S230，将多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别多帧音频数据是否为唤醒指令。

本公开述及的多帧音频数据可以是通过对检测到的语音输入进行分帧处理得到的。例如，可以实时检测用户的语音输入，然后对检测到的语音输入进行分帧处理，以得到多帧音频数据。

针对每次输入，声学模型组件可以用于对输入中目标帧及预定范围内的音频数帧中的至少一帧音频数据的状态进行预测，例如，声学模型组件可以用于计算目标帧及预定范围内的音频数帧中的至少一帧音频数据在各个状态下的得分(也即概率)，得分最高的状态可以作为相应帧的状态识别结果。

因此，基于每帧音频数据的状态识别结果可以确定该帧音频数据的状态，根据若干个连续帧的音频数据的状态，可以识别出音素，而多个音素可以组合成字词。因此，根据对多帧音频数据中多个帧的状态识别结果，可以识别多帧音频数据是否包含唤醒指令。例如，可以将多个帧的状态识别结果与预先设定的唤醒词进行比对，在多个帧的音频数据的状态识别结果与唤醒词一致的情况下，可以判定多帧音频数据包含唤醒指令。在判定多帧音频数据包含唤醒指令的情况下，就可以执行后续的唤醒操作，对此不再赘述。

作为示例，可以预先设定多个路径模型，不同的路径模型可以对应不同的唤醒识别结果。可以基于多帧音频数据中多个帧的音频数据的状态识别结果，从预先设定的这多个路径模型中查找与状态识别结果相匹配的路径模型，以识别所述多帧音频数据是否唤醒指令。路径模型可以包括唤醒指令模型(也可以称为“关键词模型”，Keyword Model)、补白模型(FillerModel)以及静音模型(Silence Model)。其中，唤醒指令模型可以是多个，不同的唤醒指令模型可以对应不同的唤醒指令(也即唤醒词)，例如可以包括分别对应于“打开”、“播放”、“我想看”等多个唤醒指令的唤醒指令模型。补白模型(Filler Model)可以作为填充，可以用于表征中非唤醒指令部分的音频模型。静音模型(Silence Model)可以是指没有语音输入的音频模型。

【声学模型】

在本公开中，为了提高声学模型组件的分析性能，声学模型组件可以是FSMN模型组件。并且，本公开还对声学模型组件的输出做了改造，以使得声学模型组件能够分别对输入中多个帧进行预测。

图4是示出了根据本公开一实施例的声学模型组件的网络结构的示意图。

如图4所示，声学模型组件的网络结构可以包括输入层(Input Layer)、隐藏层结构(Hidden Layer)以及多个输出层(Output Layer)。其中，多个输出层用于分别对输入中多个不同帧的音频数据的分析结果进行预测。

隐藏层结构可以包括多层隐藏层，多个输出层可以均全连接于最后一层隐层。在训练时，原本每一帧准备的是一个目标值，而对于本公开的声学模型则需要提供当前帧与下N帧的目标值。在实际使用时，每一帧输入会产生多帧输出，所以只需要隔若干帧进行输入，计算量减少至原来的N分之一，节省下来的计算资源对于资源紧缺的设备端产品是非常宝贵的。

在本公开中，可以将多帧音频数据中目标帧附近预定范围内的音频数据帧，与目标帧拼接起来作为输入，直接输入输入层，由输入层对输入的数据进行特征抽取，然后输入隐藏层结构。另外，也可以首先将多帧音频数据中目标帧附近预定范围内的音频数据帧与目标帧拼接起来，然后对拼接后的音频数据进行特征抽取，然后将抽取到的特征输入输入层，由输入层将其输入隐藏层结构。

隐藏层结构可以采用FSMN结构。FSMN相较于普通的DNN层的核心区别在于在相邻隐藏层之间设置了一加入了记忆模块，记忆模块用于存储对判断当前的目标帧有用的历史信息和未来信息。其中，记忆模块的输出用于作为下一个隐藏层的输入，记忆模块的输出可以包括当前隐藏层的输出、预定回看阶数的隐藏层的输出以及预定前看阶数的隐藏层的输出。

图5是示出了引入的FSMN结构的示意图。

如图5所示，FSMN相较于普通的DNN层的核心区别在于加入了记忆模块B，B中保存着部分过去和未来的信息，由B经过信息处理再传输给下一层隐层，这使得网络具有长时信息的处理能力。为了减少计算量，前一个隐层可以先输出给模块A，A的维度设置小于前一隐层，这相当于将前一隐层到B的参数矩阵拆成了两部分，合理的设置A可以在减少计算量的同时不损失性能。FSMN层的计算表达如下所示。

其中，

表示记忆模块的输出，/>

表示偏置，

表示第l个隐层的输出，/>

和/>

是记忆模块的编码系数。

根据上述公式可以看出，记忆模块的输出为当前隐藏层的输出、预定回看阶数的隐藏层的输出以及预定前看阶数的隐藏层的输出这三部分之和。其中，

可以视为预定回看阶数的隐藏层的输出，表示当前时刻t之前以s₁为编码步幅因子在不同回看阶数下的隐藏层的输出与对应编码系数的逐位相乘后所得结果。/>

FSMN相较于DNN的计算量区别来自于公式(2)。通过具体计算表明，在相似网络结构(层数和每层的节点相同或相似)下，每秒浮点运算次数，FSMN与DNN近似，而相似网络结构的情况下，LSTM的计算量超过DNN的计算量的两倍。可见，FSMN引入的计算量远小于等结构的LSTM所引入的计算量，因此该模型本身能够有效地控制实时率，同时，其具有DNN不具备的长时信息建模能力，并且其性能也优于LSTM。

图6是示出了根据本公开一实施例的声学模型组件的网络结构示意图。

如图6所示，声学模型组件的网络结构可以包括输入层、由DNN层和FSMN层构成的隐藏层结构以及多个输出层。其中，DNN层结构为本领域技术人员所公知，此处不再赘述。关于输入层、FSMN层、多个输出层的描述，可以参见上文说明，此处亦不再赘述。

如图7所示，本公开的语音唤醒***主要包括检测模块710、声学预测模块720以及关键词检出模块730。

检测模块710可以实时检测用户的语音输入，并可以对检测到的语音输入进行分帧处理，以得到多帧音频数据。

声学预测模块720可以对多帧音频数据中每帧音频数据的状态识别结果进行预测。其中，在预测过程中，声学预测模块720可以将多帧音频数据中当前待分析的目标帧附近预定范围内的音频数据，与目标帧拼接起来作为输入，输入预先训练好的声学模型组件，声学模型组件可以分别对目标帧以及预定范围内的音频数据中的至少一帧音频数据的状态识别结果进行预测。然后可以将多帧音频数据中位于目标帧之后且未对其进行预测的单帧音频数据，作为下一个待分析的目标帧，由此，声学预测模块720可以迭代地使用声学模型组件对之后多个目标帧进行处理。关于声学模型组件的网络结构可以参见上文相关描述，此处不再赘述。

根据多帧音频数据中多个帧的音频数据的状态识别结果，关键词检出模块730可以从多个路径模型中查找与状态识别结果相匹配的路径模型。其中，多个路径模型可以分为关键词模型、补白模型以及静音模型。当查找到状态识别结果与关键词模型相匹配的情况下，可以认定用户发出了唤醒指令，然后可以控制设备开启，以实现设备的语音唤醒。

【语音唤醒检测装置】

本公开的语音唤醒检测方法还可以实现为一种语音唤醒检测装置。

图8是示出了根据本公开一实施例的语音唤醒检测装置的结构的示意性方框图。其中，语音唤醒检测装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图8所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音唤醒检测装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文结合图2至图6的描述，这里不再赘述。

参见图8，语音唤醒检测装置800包括状态识别模块810和唤醒识别模块820。状态识别模块810用于将多帧音频数据中目标帧附近预定范围内的音频数据帧，与目标帧拼接起来作为输入，输入预先训练好的声学模型组件，声学模型组件为前馈序列记忆神经网络模型(FSMN)组件，声学模型组件的输出为目标帧以及预定范围内的音频数据帧中的至少一帧音频数据的状态识别结果。其中，状态识别模块810可以将多帧音频数据中位于目标帧之后且未对其进行预测的单帧音频数据，作为下一个的目标帧，并迭代地使用声学模型组件对之后多个目标帧进行处理。

唤醒识别模块820可以基于所述多帧音频数据中多个帧的音频数据的状态识别结果，识别多帧音频数据是否唤醒指令。例如，唤醒识别模块820可以将多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别多帧音频数据是否为唤醒指令。作为示例，唤醒识别模块820可以从多个路径模型中查找与多个帧的音频数据的状态识别结果相匹配的路径模型，以识别多帧音频数据是否唤醒指令，不同的路径模型对应不同的识别结果。其中，路径模型可以包括唤醒指令模型、补白模型以及静音模型。

在本公开中，预定范围内的音频数据帧可以包括：所述多帧音频数据中位于所述目标帧之前第一预定范围内的音频数据帧；和/或所述多帧音频数据中位于所述目标帧之后第二预定范围内的音频数据帧。

如图8所示，语音唤醒检测装置800还可以可选地包括图中虚线框所示的检测模块830和分帧模块840。检测模块830用于实时检测用户的语音输入，分帧模块840用于对检测到的语音输入进行分帧处理，以得到多帧音频数据。

如图4所示，在本实施例中，声学模型组件的网络结构可以包括：输入层；隐藏层结构；以及多个输出层，多个输出层用于分别对输入中不同帧的音频数据的分析结果进行预测。

隐藏层结构可以包括多个隐藏层，其中，至少两个相邻隐藏层之间设有记忆模块，所述记忆模块用于存储对判断当前的目标帧有用的历史信息和未来信息。所述记忆模块的输出用于作为下一个隐藏层的输入，所述记忆模块的输出包括当前隐藏层的输出、预定回看阶数的隐藏层的输出以及预定前看阶数的隐藏层的输出。

隐藏层的计算表达如下所示。

其中，

表示记忆模块的输出，/>

表示偏置，

表示第l个隐层的输出，/>

和/>

是记忆模块的编码系数。/>

【计算设备】

图9示出了根据本发明一实施例可用于实现上述音频分析及语音唤醒检测方法的数据处理的计算设备的结构示意图。

参见图9，计算设备900包括存储器910和处理器920。

处理器920可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器920可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器920可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器910可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器910可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器910可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器910上存储有可处理代码，当可处理代码被处理器920处理时，可以使处理器920执行上文述及的音频分析及语音唤醒检测方法。

上文中已经参考附图详细描述了根据本发明的音频分析及语音唤醒检测方法、装置及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音唤醒检测方法，其特征在于，包括：

将多帧音频数据中目标帧附近预定范围内的音频数据帧，与所述目标帧一并输入至声学模型组件，所述声学模型组件为前馈序列记忆神经网络模型组件，所述声学模型组件的输出为所述目标帧的状态识别结果以及所述预定范围内的音频数帧中的至少一帧音频数据的状态识别结果，所述至少一帧音频数据包括位于所述目标帧之后的一帧或多帧；

将所述多帧音频数据中位于所述目标帧之后且第一个未对其进行处理的单帧音频数据，作为下一个目标帧，并迭代地使用所述声学模型组件对之后多个目标帧进行处理；以及

将所述多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别所述多帧音频数据是否为唤醒指令。

2.根据权利要求1所述的语音唤醒检测方法，其特征在于，所述预定范围内的音频数据帧包括：

所述多帧音频数据中位于所述目标帧之前第一预定范围内的音频数据帧；和/或

所述多帧音频数据中位于所述目标帧之后第二预定范围内的音频数据帧。

3.根据权利要求1所述的语音唤醒检测方法，其特征在于，还包括：

实时检测用户的语音输入；以及

对检测到的语音输入进行分帧处理，以得到所述多帧音频数据。

4.根据权利要求1所述的语音唤醒检测方法，其特征在于，所述将所述多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对的步骤包括：

从预先设定的多个路径模型中查找与所述多个帧的音频数据的状态识别结果相匹配的路径模型，以识别所述多帧音频数据是否为唤醒指令，其中，不同的路径模型对应不同的识别结果。

5.根据权利要求4所述的语音唤醒检测方法，其特征在于，所述路径模型包括：

唤醒指令模型；

补白模型；以及

静音模型。

6.根据权利要求1所述的语音唤醒检测方法，其特征在于，所述声学模型组件包括：

输入层；

隐藏层结构；以及

多个输出层，所述多个输出层用于分别对输入中不同帧的音频数据的分析结果进行预测。

7.根据权利要求6所述的语音唤醒检测方法，其特征在于，

所述隐藏层结构包括多个隐藏层，其中，至少两个相邻隐藏层之间设有记忆模块，所述记忆模块用于存储对判断当前的目标帧有用的历史信息和未来信息。

8.根据权利要求7所述的语音唤醒检测方法，其特征在于，

所述记忆模块的输出用于作为下一个隐藏层的输入，

所述记忆模块的输出包括当前隐藏层的输出、预定回看阶数的隐藏层的输出以及预定前看阶数的隐藏层的输出。

9.根据权利要求8所述的语音唤醒检测方法，其特征在于，

其中，

表示第l+1个隐层的输入，其通过激活函数f的非线性变换得到，U^l表示权重，

表示记忆模块的输出，/>

表示偏置，

表示第l个隐层的输出，/>

和/>

是记忆模块的编码系数。

10.一种语音唤醒检测装置，其特征在于，包括：

状态识别模块，用于将多帧音频数据中目标帧附近预定范围内的音频数据帧，与所述目标帧一并输入至声学模型组件，所述声学模型组件为前馈序列记忆神经网络模型组件，所述声学模型组件的输出为所述目标帧的状态识别结果以及所述预定范围内的音频数据帧中的至少一帧音频数据的状态识别结果，其中，所述至少一帧音频数据包括位于所述目标帧之后的一帧或多帧，所述状态识别模块将所述多帧音频数据中位于所述目标帧之后且第一个未对其进行预测的单帧音频数据，作为下一个待分析的目标帧，并迭代地使用所述声学模型组件对之后多个目标帧进行处理；和

唤醒识别模块，用于将所述多帧音频数据中多个帧的音频数据的状态识别结果与预设唤醒词进行比对，以识别所述多帧音频数据是否为唤醒指令。

11.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-9中任何一项所述的方法。

12.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的方法。