CN111933111A

CN111933111A - 语音唤醒方法、装置、电子设备和存储介质

Info

Publication number: CN111933111A
Application number: CN202010809091.9A
Authority: CN
Inventors: 吕安超; 李家魁; 陈都; ***
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-13

Abstract

本申请提出一种语音唤醒方法、装置、电子设备和存储介质。其中该语音唤醒方法包括：通过多路语音通道接收语音信号，提取每路语音通道所采集的语音数据的第一音频特征向量；根据每路语音通道所采集的语音数据的第一音频特征向量，获取语音信号的融合音频特征向量；根据预先训练的神经网络对融合音频特征向量进行处理，获取与语音信号对应的标签序列；其中，标签序列为语音信号对应的语音单元或文本形成的序列；根据标签序列，识别语音信号中是否包含预设的唤醒指令。本申请实施例结合了各自语音通道的音频特征信息，在很大程度上利用了所有语音通道音频的特征信息，可以提高唤醒词识别的准确率。

Description

语音唤醒方法、装置、电子设备和存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音唤醒方法、装置、电子设备和计算机可读存储介质。

背景技术

唤醒技术是从一段语音信号流里检测出预先定义的唤醒词或者关键词，并不需要对所有的语音进行文字的识别。这类技术是人类与智能设备进行交互的基础，可以引用语手机、智能家居、车载控制***、智能音箱和机器人等场景。唤醒技术的优劣直接影响人们对这些场景下产品的体验，为此，探索更多的方法以实现唤醒技术的进步是必要的。

发明内容

本申请旨在至少在一定程度上解决上述的技术问题之一。

为此，本申请的第一个目的在于提出一种语音唤醒方法。

本申请的第二个目的在于提出一种语音唤醒装置。

本申请的第三个目的在于提出一种电子设备。

本申请的第四个目的在于提出一种计算机可读存储介质。

本申请的第五个目的在于提出一种计算机程序产品。

为达上述目的，本申请第一方面提出了一种语音唤醒方法，包括：

通过多路语音通道接收语音信号，提取每路所述语音通道所采集的语音数据的第一音频特征向量；

根据每路所述语音通道所采集的语音数据的第一音频特征向量，获取所述语音信号的融合音频特征向量；

根据预先训练的神经网络对所述融合音频特征向量进行处理，获取与所述语音信号对应的标签序列；其中，所述标签序列为所述语音信号对应的语音单元或文本形成的序列；

根据所述标签序列，识别所述语音信号中是否包含预设的唤醒指令。

在本申请一些实施例中，所述提取每路所述语音通道所采集的语音数据的第一音频特征向量，包括：

分别提取每路所述语音通道所采集的语音数据的声学特征；

对每路所述语音通道所采集的语音数据的声学特征，进行可分离卷积处理，获取每路所述语音通道所采集的语音数据的第一音频特征向量。

在本申请一些实施例中，所述提取每路所述语音通道所采集的语音数据的声学特征，包括：针对每路语音数据执行如下处理：

对所述语音数据进行分帧处理，获取所述语音数据包含的多个语音帧；

根据预设的增强系数对每个语音帧进行高频增强处理，获取所述语音帧对应的增强语音数据；

根据预设的窗函数分别对每个语音帧对应的增强语音数据进行加窗处理，获得每个语音帧对应的加窗增强语音数据；

提取所述每个语音帧对应的加窗增强语音数据的音频特征，并将所述每个语音帧对应的加窗增强语音数据的音频特征确定为所述语音数据的声学特征。

在本申请一些实施例中，所述声学特征，包括：

fbank特征、Speech Waveform特征、MFCC特征中的一种。

在本申请一些实施例中，所述根据每路所述语音通道所采集的语音数据的第一音频特征向量获取所述语音信号的融合音频特征向量，包括：

将每路所述语音通道所采集的语音数据的第一音频特征向量进行拼接处理，获取所述语音信号的融合音频特征向量；或者

根据每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值，确定所述融合音频特征向量中对应位置的融合特征值。

在本申请一些实施例中，将每路语音通道所采集的语音数据的第一音频特征向量进行拼接处理，获取语音信号的融合音频特征向量，包括：

基于语音帧在每路语音数据中的时序，将每路所述语音通道所采集的语音数据的第一音频特征向量，按照对应语音帧进行拼接处理，获取所述语音信号的融合音频特征向量。

在本申请一些实施例中，所述根据每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值，确定所述融合音频特征向量中对应位置的融合特征值，包括：

将每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值相加，获取所述融合音频特征向量中对应位置的融合特征值；或者

将每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值进行加权后相加，获取所述融合音频特征向量中对应位置的融合特征值；或者

根据预设函数，将每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值进行函数运算后相加，获取所述融合音频特征向量中对应位置的融合特征值。

在本申请一些实施例中，在根据预先训练的神经网络对所述融合音频特征向量进行处理之前，所述方法还包括：

根据第一全连接神经网络对所述融合音频特征向量进行处理；其中，经过所述第一全连接神经网络处理后的融合音频特征向量的维度与所述第一音频特征向量的维度一致。

在本申请一些实施例中，所述根据预先训练的神经网络对所述融合音频特征向量进行处理，获取与所述语音信号对应的标签序列，包括：

对所述融合音频特征向量进行空洞卷积，获取第二音频特征向量；

根据残差网络对所述第二音频特征向量进行卷积处理，获取第三音频特征向量；

对所述第三音频特征向量进行处理，获取与所述语音信号对应的标签序列。

在本申请一些实施例中，所述对所述第三音频特征向量进行处理，获取与所述语音信号对应的标签序列，包括：

根据第二全连接神经网络对所述第三音频特征向量进行全连接处理；

对经过全连接处理后得到的第三音频特征向量进行处理，获取与所述语音信号对应的标签序列。

为达上述目的，本申请第二方面提出了一种语音唤醒装置，包括：

接收模块，用于通过多路语音通道接收语音信号；

特征提取模块，用于提取每路所述语音通道所采集的语音数据的第一音频特征向量；

特征融合模块，用于根据每路所述语音通道所采集的语音数据的第一音频特征向量，获取所述语音信号的融合音频特征向量；

获取模块，用于根据预先训练的神经网络对所述融合音频特征向量进行处理，获取与所述语音信号对应的标签序列；其中，所述标签序列为所述语音信号对应的语音单元或文本形成的序列；

识别模块，用于根据所述标签序列，识别所述语音信号中是否包含预设的唤醒指令。

在本申请的一些实施例中，所述特征提取模块包括：

提取单元，用于分别提取每路语音通道所采集的语音数据的声学特征；

可分离卷积处理单元，用于对每路所述语音通道所采集的语音数据的声学特征，进行可分离卷积处理，获取每路所述语音通道所采集的语音数据的第一音频特征向量。

在本申请的一些实施例中，提取单元针对每路语音数据执行如下处理：

在本申请的一些实施例中，所述声学特征，包括：

fbank特征、Speech Waveform特征、MFCC特征中的一种。

在本申请的一些实施例中，所述特征融合模块具体用于：

在本申请的一些实施例中，所述装置还包括：

全连接处理模块，用于在根据预先训练的神经网络对所述融合音频特征向量进行处理之前，根据第一全连接神经网络对所述融合音频特征向量进行处理；其中，经过所述第一全连接神经网络处理后的融合音频特征向量的维度与所述第一音频特征向量的维度一致。

在本申请的一些实施例中，所述获取模块包括：

空洞卷积处理单元，用于对所述融合音频特征向量进行空洞卷积，获取第二音频特征向量；

残差网络处理单元，用于根据残差网络对所述第二音频特征向量进行卷积处理，获取第三音频特征向量；

标签序列获取单元，用于对所述第三音频特征向量进行处理，获取与所述语音信号对应的标签序列。

在本申请的一些实施例中，所述标签序列获取单元具体用于：

为达上述目的，本申请第三方面提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面实施例所述的语音唤醒方法。

为达上述目的，本申请第四方面提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面实施例所述的语音唤醒方法。

根据本申请实施例，通过多路语音通道接收用户输入的语音信号，提取每路语音通道所采集的语音数据的第一音频特征向量，之后，可根据每路语音通道所采集的语音数据的第一音频特征向量，获取语音信号的融合音频特征向量，然后，根据预先训练的神经网络对融合音频特征向量进行处理，获取与语音信号对应的标签序列，并根据标签序列，识别语音信号中是否包含预设的唤醒指令。由此，通过多路语音通道接收用户输入的语音信号，进而针对每路语音通道的音频分别进行特征向量提取，之后，将每路语音通道的音频特征向量进行融合，再对融合特征向量进行标签的预测，从而得到用户输入的语音信号对应的标签序列，该标签序列可为语音信号对应的语音单元或文本形成的序列，在语音识别的过程中，结合了各自语音通道的音频特征信息，在很大程度上利用了所有语音通道音频的特征信息，可以提高唤醒词识别的准确率，从而可以提高唤醒率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1根据本申请一个实施例的语音唤醒方法的流程图。

图2是根据本申请实施例的音频特征提取以及标签预测过程的示例图；

图3根据本申请实施例的语音唤醒方法的流程图。

图4根据本申请另一个实施例的语音唤醒方法的流程图。

图5是根据本申请一个实施例的语音唤醒装置的结构示意图。

图6是根据本申请一个具体实施例的语音唤醒装置的结构示意图。

图7是根据本申请另一个具体实施例的语音唤醒装置的结构示意图。

图8是根据本申请又一个具体实施例的语音唤醒装置的结构示意图。

图9是根据本申请一个实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

需要说明的是，当前主流的唤醒技术主要有基于高斯混合模型-隐马尔科夫模型(GMM-HMM)和基于神经网络的端到端的方法等，主要包括信号采集、信号增强、特征向量提取、模型打分及策略判断，到最终决定是否唤醒。举例而言，在音箱采集语音信号的时候，考虑到用户方位的任意性，一般设置多个可以收集信号的麦克风，比如，双麦、四麦和六麦等。在使用收集到的信号时，大多数唤醒技术通常使用其中的一个麦克风的信号、或者根据多个麦克风的部分信息利用前端信号处理技术去增强或者生成一路信号，再继续进行后续的特征向量提取等过程。然而，在多麦阵列的智能设备上进行唤醒时，通常情况下，各个麦克风采集的信号没有得到充分的利用，它们各自的特征向量信息对整个唤醒性能的提升都有很大的作用，而目标多数情况下只能用到它们的方位信息和部分的特征信息，从而影响唤醒识别结果的准确性。

为了能够解决现有技术中仅利用了多个麦克风的方位信息和部分特征的技术问题，本申请提出了一种语音唤醒方法、装置、电子设备和存储介质。具体地，下面参考附图描述本申请实施例的语音唤醒方法、装置、电子设备和计算机可读存储介质。

图1是根据本申请一个实施例的语音唤醒方法的流程图。需要说明的是，本申请实施例的语音唤醒方法可应用于本申请实施例的语音唤醒装置。该语音唤醒装置可被配置于电子设备上。其中，该电子设备可包括但限于具有语音识别和语音交互***的智能音箱、移动终端、智能机器人、智能家居设备、车载多媒体设备等。

如图1所示，该语音唤醒方法可以包括：

步骤100，通过多路语音通道接收语音信号，提取每路语音通道所采集的语音数据的第一音频特征向量。

在本申请实施例中，上述多路语音通道可理解为多麦阵列中各麦克风通道。例如，假设本申请实施例的语音唤醒方法应用于智能音箱，该智能音箱具有多麦阵列，比如该多麦阵列可包括两个及以上麦克风，如两个、四个、六个或八个麦克风等。可通过该多麦阵列中所包含的各麦克风采集周围的语音信号，其中，每个麦克风可理解为一路语音通道。通过多麦阵列中各个麦克风在采集到周围的语音信号之后，，通过多麦阵列中各麦克风所对应的多路语音通道接收用户所输入的语音信号。

也就是说，智能音箱可通过多路语音通道来接收用户输入的语音信号，即智能音箱通过多个麦克风所对应的各自通道采集用户所输入的语音信号。智能音箱在获得多个麦克风所采集的语音信号之后，不对该多个麦克风各自所采集的语音信号进行合并或增强以生成一路信号处理，再对该一路信号进行特征提取，而是直接利用该多个麦克风各自语音通道所采集的语音信号进行后续的特征提取。例如，假设智能音箱具有两个麦克风，即麦克风1和麦克风2，每个麦克风对应一路语音通道，则当用户讲话时，麦克风1和麦克风2分别采集用户的讲话，麦克风1和麦克风2分别对采集的语音信号进行降噪或增强处理之后，分别通过各自的语音通道发送给智能音箱，从而使得智能音箱获得麦克风1接收到的用户输入的语音信号，以及麦克风2接收到的用户输入的语音信号。

在通过多路语音通道接收到用户输入的语音信号时，可对每路语音通道所接收的语音信号进行特征向量提取，得到每路语音通道所采集的语音数据的音频特征向量(为了便于描述，记为第一音频特征向量)。例如，当用户正在讲话时，麦克风1和麦克风2同时对用户的语音进行采集，假设麦克风1接收到的语音数据为A1，麦克风2接收到的语音数据A2，其中，该语音数据A1与语音数据A2可以相同(即麦克风1与麦克风2的性能相同)，也可以不同(即麦克风1和麦克风2的性能可能不同，或者麦克风1和麦克风2距离用户的位置不同而导致同时采集用户语音时存在差异)。在获得麦克风1采集的语音数据A1和麦克风2采集的语音数据A2之后，可对麦克风1采集的语音数据A1和麦克风2采集的语音数据A2分别进行特征向量提取，得到麦克风1所采集的语音数据A1的第一音频特征向量，以及麦克风2所采集的语音数据A2的第一音频特征向量。

需要说明的是，为了有效避免多通道对唤醒造成一定的干扰，在本申请的实施例中，可通过前端语音信号采集阶段来避免多通道的干扰，比如，通过多路语音通道的硬件要求以及位置方位设计等，避免该多通道对唤醒造成的干扰。

为了提升特征的有效性，可选地，在本申请一些实施例中，所述提取每路语音通道所采集的语音数据的第一音频特征向量的具体实现过程可如下：分别提取每路语音通道所采集的语音数据的声学特征；对每路语音通道所采集的语音数据的声学特征，进行可分离卷积处理，获取每路语音通道所采集的语音数据的第一音频特征向量。

可选地，在提取到每路语音通道的声学特征之后，针对每路语音通道的声学特征，可将每路语音通道的声学特征作为输入，结合卷积网络结构对声学特征进行卷积操作，即该卷积网络结构可从各声学特征中进一步提取特征向量，该卷积网络的输出即为每路语音通道的第一音频特征向量。为了能够减少卷积网络结构的参数量，在本申请实施例中，上述卷积网络结构可为深度可分离卷积网络结构。

需要说明的是，为了能够提高语音识别效果，在得到每路语音通道的声学特征之后，可对该声学特征进一步进行特征向量的提取，以获得重要深层次特征向量。例如，可将每路语音通道的声学特征作为深度可分离卷积网络结构的输入，该深度可分离卷积网络结构利用自身的卷积核对每个声学特征进行分频带卷积操作，即对每个声学特征进一步进行特征向量提取，提取更多有用特征向量。获取深度可分离卷积网络结构的输出特征向量，该输出特征向量即为声学特征所对应的第一语音特征向量，这样，将每路语音通道的声学特征输入到深度可分离卷积网络结构中进行分频带卷积操作，即可获得每路语音通道的第一音频特征向量。

在本申请一些实施例中，该声学特征可包括但不限于fbank(一种音频特征向量)特征、Speech Waveform(语音波形特征向量)特征、MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)特征等中的一种。需要说明的是，唤醒技术其实是一种语音识别过程，而语音识别时，首先需要将语音转为特征，其中，该特征可包括但不限于fbank特征、MFCC特征和Speech Waveform特征等中的一种。其中，这些特征中fbank所包含的信息量相对较多，所以该声学特征优选可为fbank特征。

需要说明的是，声学特征的类型不同，则提取该声学特征所使用的方式也会不同，即从语音信号中分别提取fbank特征、MFCC特征和Speech Waveform特征，所采用的提取工具会不相同。举例而言，以声学特征为fbank特征为例，假设需提取每路语音通道的fbank特征，由于每路语音通道的语音信号为时域信号，则需要将每路语音通道的时域信号转换成频域信号。例如，傅里叶变换可以将信号从时域转换到频域。其中，傅里叶变换可以分为连续傅里叶变换和离散傅里叶变换，因为语音信号为数字音频，所以本申请实施例可采用离散傅里叶变换将语音信号从时域转换到频域，得到每路语音通道的频域信号，其中，该频域信号中每个频带范围的能量大小不一，不同因素的能量谱不一样，因此此时需要计算每路频域信号的能量谱，之后利用计算得到的能量谱计算出每路语音通道的fbank特征。

可以理解，fbank特征已经很贴近人耳的响应特征，但是fbank特征相邻的特征高度相关(即相邻滤波器组有重叠)，因此，为了能够提取更加能够代表语音信号的音频特征，该声学特征可为MFCC特征。其中，该MFCC特征的提取是在fbank特征的基础上再进行离散余弦变换。可见，MFCC特征和fbank特征具有一定区别，fbank特征相关性较高，MFCC特征具有更好的判别度，因此可以根据实际需求选择该声学特征的类型，本申请对此不作具体限定。

步骤102，根据每路语音通道所采集的语音数据的第一音频特征向量，获取语音信号的融合音频特征向量。

在本申请实施例中，在得到每路语音通道所采集的语音数据的第一音频特征向量之后，可将每路语音通道的第一音频特征向量进行融合，以得到针对用户输入的语音信号的融合音频特征向量。也就是说，在获得每路语音通道所采集的语音数据之后，针对每路语音通道所采集的语音数据，分别进行特征向量提取，从而得到每路语音通道所采集的语音数据的第一音频特征向量，之后，再利用特征向量融合技术，将每路语音通道所采集的语音数据的第一音频特征向量进行融合，得到针对用户讲话时对应的语音信号的融合音频特征向量。

值得注意的是，上述融合音频特征向量的获取方式有多种，即可采用多种融合技术，对每路语音通道所采集的语音数据的第一音频特征向量进行融合，以得到语音信号的融合音频特征向量。

作为一种可能实现方式的示例，可将每路语音通道所采集的语音数据的第一音频特征向量进行拼接处理，获取语音信号的融合音频特征向量。例如，可基于语音帧在每路语音数据中的时序，将每路语音通道所采集的语音数据的第一音频特征向量，按照对应语音帧进行拼接处理，获取语音信号的融合音频特征向量。也就是说，由于每路语音数据包含多个语音帧，所以，基于语音帧在每路语音数据中的时序，将每路语音通道所采集的语音数据的第一音频特征向量，按照对应语音帧进行拼接处理，即可获得该语音信号的融合音频特征向量。可以理解，多路语音通道的第一音频特征向量中对应语音帧进行拼接处理，会使得该对应语音帧的特征向量维度增加，而该语音帧的时长并不会发生变化。其中，该拼接处理可理解为将各特征向量进行前后拼接在一起。例如，假设智能音箱有a路语音通道和b路语音通道，a路和b路语音通道的第一音频特征向量为A1A2A3，其中，A1、A2、A3表示该a路的第一音频特征向量具有3个语音帧特征向量，b路语音通道的第一音频特征向量为B1B2B3，其中，B1、B2、B3表示该b路的第一音频特征向量具有3个语音帧特征向量，在本示例中，可将这2路语音通道的第一音频特征向量按照对应语音帧进行拼接处理，即拼接后得到的特征向量为A1B1A2B2A3B3，或B1A1B2A2B3A3，即将各路的对应语音帧特征向量进行前后拼接，所有语音帧拼接后得到的特征向量即为该语音信号的融合音频特征向量。

作为一种可能实现方式的示例，可根据每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值，确定融合音频特征向量中对应位置的融合特征值。例如，可将每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值相加，获取融合音频特征向量中对应位置的融合特征值，即将各路语音数据的第一音频特征向量中该位置的特征值的和确定为融合音频特征向量中该位置的融合特征值。又如，将每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值进行加权后相加，获取融合音频特征向量中对应位置的融合特征值，即将各路语音数据的第一音频特征向量中该位置的特征值先进行加权处理后再求和，并将求和得到的值确定为融合音频特征向量中该位置的融合特征值。再如，根据预设函数，将每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值进行函数运算后相加，获取融合音频特征向量中对应位置的融合特征值，即先根据预设函数对各路语音数据的第一音频特征向量中该位置的特征值进行函数处理后再求和，并将求和得到的值确定为融合音频特征向量中该位置的融合特征值。可以理解，多路语音通道的第一音频特征向量中相同位置的特征值进行相加或加权相加等处理后，该第一音频特征向量的维度不会发生变化。

步骤104，根据预先训练的神经网络对融合音频特征向量进行处理，获取与语音信号对应的标签序列。

在本申请的实施例中，标签序列可为语音信号对应的语音单元或文本形成的序列。该语音单元可理解为表征语音的自然属性的音素或音节等。

可选地，在得到针对语音信号的融合音频特征向量之后，可利用预先训练好的神经网络对该融合音频特征向量进行进一步特征向量的提取，并利用Softmax分类器对提取的特征向量进行标签的预测，得到每个特征向量所对应的标签，从而得到与该语音信号对应的标签序列。其中，该Softmax分类器已经训练学习特征向量与标签的对应关系。

步骤106，根据标签序列，识别语音信号中是否包含预设的唤醒指令。

可以理解，由于标签序列的组成元素的不同，则识别语音信号中是否包含唤醒指令的方式也会不同。例如，当标签序列为语音信号对应的文本形成的序列时，可直接根据该由文本形成的序列识别该语音信号中是否包含预设的唤醒指令，若识别该语音信号中包含预设的唤醒指令，则可根据该语音信号对设备进行唤醒操作，比如该设备为智能音箱，则可对智能音箱进行唤醒操作。若判定该语音信号不包含预设的唤醒指令，则对智能音箱不进行唤醒操作。

又如，当标签序列为语音信号对应的语音单元形成的序列时，可先该标签序列之中的语音单元进行组合处理，已得到与语音信号对应的多个语音单元，检测语音信号对应的多个语音单元之中是否包含预设的唤醒指令所对应的语音单元，当语音信号对应的多个语音单元之中包含预设的唤醒指令所对应的语音单元时，可判定该语音信号中包含该唤醒指令，此时可根据该语音信号对设备进行唤醒操作，比如该设备为智能音箱，则可对智能音箱进行唤醒操作。

举例而言，如图2所示，假设本申请实施例的语音唤醒方法应用于智能音箱，该智能音箱具有多麦阵列，比如该多麦阵列可包括四个麦克风，即麦克风MIC1、麦克风MIC2、麦克风MIC3和麦克风MIC4，当用户讲话时，麦克风MIC1、麦克风MIC2、麦克风MIC3和麦克风MIC4同时进行信号采集，采集的音频信号依次为信号A、信号B、信号C和信号D。提取该4路语音通道音频信号的声学特征，即声学特征A1、声学特征B1、声学特征C1和声学特征D1。之后，分别对声学特征A1、声学特征B1、声学特征C1和声学特征D1进行可分离卷积处理，得到麦克风MIC1、麦克风MIC2、麦克风MIC3和麦克风MIC4的第一音频特征向量，即音频特征向量A2、音频特征向量B2、音频特征向量C2和音频特征向量D2。然后，可将音频特征向量A2、音频特征向量B2、音频特征向量C2和音频特征向量D2进行融合，以得到用户讲话时音频信号的融合特征向量F。之后，可将该融合特征向量F输入至预先训练的神经网络进行标签预测，从而得到用户讲话时音频信号对应的标签序列。然后，根据标签序列识别用户讲话的音频信号中是否包含预设的唤醒指令，若包含，则对设备进行唤醒操作。

根据本申请实施例的语音唤醒方法，通过多路语音通道接收用户输入的语音信号，提取每路语音通道所采集的语音数据的第一音频特征向量，之后，可根据每路语音通道所采集的语音数据的第一音频特征向量，获取语音信号的融合音频特征向量，然后，根据预先训练的神经网络对融合音频特征向量进行处理，获取与语音信号对应的标签序列，并根据标签序列，识别语音信号中是否包含预设的唤醒指令。由此，通过多路语音通道接收用户输入的语音信号，进而针对每路语音通道的音频分别进行特征向量提取，之后，将每路语音通道的音频特征向量进行融合，再对融合特征向量进行标签的预测，从而得到用户输入的语音信号对应的标签序列，该标签序列可为语音信号对应的语音单元或文本形成的序列，在语音识别的过程中，结合了各自语音通道的音频特征信息，在很大程度上利用了所有语音通道音频的特征信息，可以提高唤醒词识别的准确率，从而可以提高唤醒率。

需要说明的是，在得到每路语音通道接收的语音信号之后，在对每路语音通路所采集的语音数据进行声学特征提取时，需先对各路语音通道所采集的语音数据进行预处理，其中，该预处理可包括分帧、预增强和加窗处理等，在预处理之后，再对各路语音通道所采集的语音数据进行声学特征的提取。具体而言，在本申请的一些实施例中，如图3所示，提取每路语音通道所采集的语音数据的声学特征，包括：针对每路语音数据执行如下处理：

步骤300，对所述语音数据进行分帧处理，获取所述语音数据包含的多个语音帧。

可选地，针对每路语音通道的语音数据，可将不定长的语音数据切分成固定长度的小段，即进行分帧操作。例如，一般取10-30毫秒为一帧，为了避免窗边界对信号的遗漏，因此对帧做偏移时，要有帧迭(即帧与帧之间需要重叠一部分)。一般取帧长的一半作为帧移，也就是说每次位移一帧的二分之一后再取下一帧，这样可以避免帧与帧之间的特性变化太大。通常的选择是25毫秒每帧，帧迭为10毫秒。

需要说明的是，对每路语音通道的语音数据进行分帧的目的是因为语音信号时快速变化的，而傅里叶变换适用于分析平稳的信号。在语音识别中，一般将帧长取10-30毫秒，这样一帧内既有足够多的周期，又不会变化太剧烈。每帧信号通常要与一个平滑的窗函数相乘，使帧两端平滑地衰减到零，这样可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱。帧与帧之间的时间差通常取为10毫秒，这样帧与帧之间会有重叠，否则，由于帧与帧连接处的信号会因为加窗而被弱化，这部分的信息就会丢失。可以理解，傅里叶变换是逐帧进行的，为的是取得每一帧的频谱，一般只保留幅度谱，丢弃相位谱。

步骤302，根据预设的增强系数对每个语音帧进行高频增强处理，获取所述语音帧对应的增强语音数据。

可选地，针对每路语音通道的语音数据，在得到每个语音数据的多帧原始语音数据之后，可利用预设的增强系数对每个语音进行高频增强处理，获取每个语音对应的增强语音数据。可以理解，高频增强处理是以帧为单位进行，目的在于加强高频。其中，在本申请实施例中，上述增强系数的取值范围可为[0,1)，即大于或等于0且小于1，其中，该增强系数通常可为0.97。

步骤304，根据预设的窗函数分别对每个语音帧对应的增强语音数据进行加窗处理，获得每个语音帧对应的加窗增强语音数据。

可以理解，语音在时间的维度上是不停变动的，没有固定的特性无法做处理，所以需将每个语音帧代入窗函数，窗外的值设定为0，其目的是消除各个语音帧两端可能会造成的信号不连续性。在本申请实施例中，上述窗函数可包括但限于方窗或汉明窗等。可根据窗函数对每个语音帧增强语音数据进行加窗处理。加窗过程其实就是为了使帧与帧之间平滑过渡，保持连续性以及保持语音信号的短时平稳性，降低由于不连续而产生的吉布斯现象。

可选地，在对每个语音帧增强语音数据进行加窗处理之后，还可对加窗处理后的每个语音帧增强语音数据进行端点检测，以从每个语音帧数据中截取实际有效的语音信号，从而可以提高语音识别准确率，并通过过滤掉无效的语音信号，避免对无效语音信号继续进行特征向量提取等操作，从而可以降低计算量。

步骤306，提取所述每个语音帧对应的加窗增强语音数据的音频特征，并将所述每个语音帧对应的加窗增强语音数据的音频特征确定为所述语音数据的声学特征。

可选地，在对每个语音帧增强语音数据进行加窗处理之后，可从加窗处理后的每个语音帧增强语音数据中进行特征向量提取，从而可以得到每路语音通道的声学特征。

由此可见，在得到每路语音通道接收的语音数据之后，在对每路语音通路的语音数据进行音频特征向量提取时，需先对各路语音通道的语音数据进行预处理，其中，该预处理可包括分帧、预增强和加窗处理等，在预处理之后，再对各路语音通道的语音数据进行音频特征向量的提取，从而可以有效提取出能够反映语音数据特征向量和变化规律的参数。

需要说明的是，在获得语音信号的融合音频特征向量之后，可将该融合音频特征向量输入至预选训练好的神经网络中进行标签的预测，从而得到该语音信号对应的标签序列，进而基于该标签序列来判断该语音信号是否包含唤醒指令。其中，该神经网络可包括空洞卷积层、残差网络和输出层函数。

在本申请的一些实施例中，如图4所示，该语音唤醒方法可以包括：

步骤401，通过多路语音通道接收语音信号，提取每路所述语音通道所采集的语音数据的第一音频特征向量。

步骤402，根据每路所述语音通道所采集的语音数据的第一音频特征向量，获取所述语音信号的融合音频特征向量。

步骤403，对融合音频特征向量进行空洞卷积，获取第二音频特征向量。

可选地，在获得语音信号的融合音频特征向量之后，可对该融合音频特征向量进行空洞卷积，以得到与该融合音频特征向量对应的音频特征向量，即第二音频特征向量。其中，在本申请的实施例中，该空洞卷积可为一维卷积。可以理解，对融合音频特征向量进行空洞卷积的目的是为了加大感受野，从而能够得到包含较大范围的音频特征向量信息。

为了加深网络，增强模型学习能力，可选地，本申请的一些实施例中，在对融合音频特征向量进行空洞卷积之前，也就是在根据预先训练的神经网络对融合音频特征向量进行处理之前，可先根据第一全连接神经网络对融合音频特征向量进行处理，其中，经过第一全连接神经网络处理后的融合音频特征向量的维度与第一音频特征向量的维度一致。例如，在得到语音信号的融合音频特征向量之后，可先将该融合音频特征向量输入一层第一全连接神经网络，以得到更加有用的特征。增加一层全连接神经网络的目的是为了加深网络、增强模型学习能力的同时，也能够保证融合音频特征向量经过第一全连接神经网络处理后的特征维度保持与第一音频特征向量的维度一致。

可以理解，由于融合音频特征向量的获取方式的不同，使得获得的融合音频特征向量的特征维度也不相同，比如，通过利用拼接处理的方式获得的融合音频特征向量，其特征维度是大于第一音频特征向量的特征维度，假设具有N路通道，每路通道的第一音频特征向量的特征维度为M，则通过利用拼接处理的方式获得的融合音频特征向量的特征维度为M*N；又如，通过利用第一音频特征向量中相同位置的特征值进行相加的方式，获得的融合音频特征向量，其特征维度与第一音频特征向量的特征维度一致。而由于神经网络中的特征维度与第一音频特征向量的特征维度一致，因此为了能够保证对融合音频特征向量的处理，在将融合音频特征向量输入值神经网络之前，可先第一全连接神经网络对融合音频特征向量进行处理，其中，经过第一全连接神经网络处理后的融合音频特征向量的维度与第一音频特征向量的维度一致，这样，不仅能够保证融合音频特征向量经过第一全连接神经网络处理后的特征维度保持与第一音频特征向量的维度一致，还可以加深网络，增强模型学习能力。

步骤404，根据残差网络对第二音频特征向量进行卷积处理，获取第三音频特征向量。

可选地，在对融合音频特征向量进行空洞卷积以获得对应的第二音频特征向量之后，可将该第二音频特征向量输入至残差网络，使得残差网络对该第二音频特征向量进行卷积处理，即对第二音频特征向量进一步进行特征向量提取，从而可以获得包含较大范围的音频特征向量信息。

在本申请的实施例中，该残差网络可包括空洞卷积，该残差网络的数据输入可分两路，一路是用tanh做激活函数，一路是用sigmoid做激活函数。例如，该残差网络对第二音频特征向量进行卷积处理的过程可如下：将第二音频特征向量再进行一次空洞卷积，其中，可将第二音频特征向量分为两路代入，一路是用tanh做激活函数，一路是用sigmoid做激活函数，最后又将两路合并，合并完成后，在经过一个一维的空洞卷积进行卷积处理，得到对应的第三音频特征向量。

步骤405，对第三音频特征向量进行处理，获取与语音信号对应的标签序列。

其中，在本申请的实施例中，所述标签序列为所述语音信号对应的语音单元或文本形成的序列。

可选地，利用预设的Softmax函数对该第三音频特征向量进行标签的预测，从而获得与语音信号对应的标签序列。

为了进一步加深网络，增强模型学习能力，可选地，在本申请一些实施例中，可根据第二全连接神经网络对所述第三音频特征向量进行全连接处理，并对经过全连接处理后得到的第三音频特征向量进行处理，获取与所述语音信号对应的标签序列。也就是说，在根据残差网络对第二音频特征向量进行卷积处理，获取第三音频特征向量之后，可将第三音频特征向量输入到第二全连接神经网络进行全连接处理，并利用Softmax函数对经过全连接处理后得到的第三音频特征向量进行标签的预测，从而获得与语音信号对应的标签序列。

步骤406，根据所述标签序列，识别所述语音信号中是否包含预设的唤醒指令。

根据本申请实施例的语音唤醒方法，在获得语音信号的融合音频特征向量之后，可对融合音频特征向量进行空洞卷积，获取第二音频特征向量，并利用残差网络对第二音频特征向量进行卷积处理以获得对应的第三音频特征向量，之后，可对第三音频特征向量进行标签的预测，从而获得语音信号对应的标签序列，由此，通过空洞卷积和残差网络对融合特征向量进行处理，从而能够得到包含较大范围的音频特征信息，进而可以进一步提高唤醒词识别的准确率，提高唤醒率。

图5是根据本申请一个实施例的语音唤醒装置的结构示意图。如图5所示，该语音唤醒装置500可以包括：接收模块510、特征提取模块520、特征融合模块530、获取模块540和识别模块550。

具体地，接收模块510用于通过多路语音通道接收语音信号。

特征提取模块520用于提取每路语音通道所采集的语音数据的第一音频特征向量。作为一种示例，如图6所示，该特征提取模块520包括：提取单元521和可分离卷积处理单元522。其中，提取单元521用于分别提取每路语音通道所采集的语音数据的声学特征；可分离卷积处理单元522用于对每路语音通道所采集的语音数据的声学特征，进行可分离卷积处理，获取每路语音通道所采集的语音数据的第一音频特征向量。

在本申请一些实施例中，提取单元521针对每路语音数据执行如下处理：对语音数据进行分帧处理，获取语音数据包含的多个语音帧；根据预设的增强系数对每个语音帧进行高频增强处理，获取语音帧对应的增强语音数据；根据预设的窗函数分别对每个语音帧对应的增强语音数据进行加窗处理，获得每个语音帧对应的加窗增强语音数据；提取每个语音帧对应的加窗增强语音数据的音频特征，并将每个语音帧对应的加窗增强语音数据的音频特征确定为语音数据的声学特征。

其中，在本申请的一些实施例中，声学特征可包括但不限于fbank特征、SpeechWaveform特征、MFCC特征中等的一种。

特征融合模块530用于根据每路语音通道所采集的语音数据的第一音频特征向量，获取语音信号的融合音频特征向量。作为一种示例，特征融合模块530具体用于：将每路语音通道所采集的语音数据的第一音频特征向量进行拼接处理，获取语音信号的融合音频特征向量；或者，根据每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值，确定融合音频特征向量中对应位置的融合特征值。

在本申请一些实施例中，特征融合模块530将每路语音通道所采集的语音数据的第一音频特征向量进行拼接处理，获取语音信号的融合音频特征向量的具体实现过程可如下：基于语音帧在每路语音数据中的时序，将每路语音通道所采集的语音数据的第一音频特征向量，按照对应语音帧进行拼接处理，获取语音信号的融合音频特征向量。

在本申请一些实施例中，特征融合模块530根据每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值，确定融合音频特征向量中对应位置的融合特征值的具体实现过程可如下：将每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值相加，获取融合音频特征向量中对应位置的融合特征值；或者，将每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值进行加权后相加，获取融合音频特征向量中对应位置的融合特征值；或者，根据预设函数，将每路语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值进行函数运算后相加，获取融合音频特征向量中对应位置的融合特征值。

获取模块540用于根据预先训练的神经网络对融合音频特征向量进行处理，获取与语音信号对应的标签序列；其中，标签序列为语音信号对应的语音单元或文本形成的序列。

识别模块550用于根据标签序列，识别语音信号中是否包含预设的唤醒指令。

为了加深网络，增强模型学习能力，可选地，在本申请的一些实施例中，如图7所示，该语音唤醒装置500还可包括：全连接处理模块560。其中，全连接处理模块560用于在标签序列获取模块540根据预先训练的神经网络对融合音频特征向量进行处理之前，根据第一全连接神经网络对融合音频特征向量进行处理；其中，经过第一全连接神经网络处理后的融合音频特征向量的维度与第一音频特征向量的维度一致。

在本申请的一些实施例中，如图8所示，该获取模块540可包括：空洞卷积处理单元541、残差网络处理单元542和标签序列获取单元543。其中，空洞卷积处理单元541用于对融合音频特征向量进行空洞卷积，获取第二音频特征向量；残差网络处理单元542用于根据残差网络对第二音频特征向量进行卷积处理，获取第三音频特征向量；标签序列获取单元543用于对第三音频特征向量进行处理，获取与语音信号对应的标签序列。

为了加深网络，增强模型学习能力，可选地，在本申请一些实施例中，标签序列获取单元543具体用于：根据第二全连接神经网络对第三音频特征向量进行全连接处理；对经过全连接处理后得到的第三音频特征向量进行处理，获取与语音信号对应的标签序列。

根据本申请实施例的语音唤醒装置，通过多路语音通道接收用户输入的语音信号，提取每路语音通道所采集的语音数据的第一音频特征向量，之后，可根据每路语音通道所采集的语音数据的第一音频特征向量，获取语音信号的融合音频特征向量，然后，根据预先训练的神经网络对融合音频特征向量进行处理，获取与语音信号对应的标签序列，并根据标签序列，识别语音信号中是否包含预设的唤醒指令。由此，通过多路语音通道接收用户输入的语音信号，进而针对每路语音通道的音频分别进行特征向量提取，之后，将每路语音通道的音频特征向量进行融合，再对融合特征向量进行标签的预测，从而得到用户输入的语音信号对应的标签序列，该标签序列可为语音信号对应的语音单元或文本形成的序列，在语音识别的过程中，结合了各自语音通道的音频特征信息，在很大程度上利用了所有语音通道音频的特征信息，可以提高唤醒词识别的准确率，从而可以提高唤醒率。

图9是本申请一个实施例的电子设备的结构示意图。该电子设备包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行程序时实现上述实施例中提供的语音唤醒方法。

在一种可能的实现方式中，计算机设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器1002，用于执行程序时实现上述实施例的语音唤醒方法。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征向量在于，该程序被处理器执行时实现如上的语音唤醒方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行上述实施例示出的语音唤醒方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音唤醒方法，其特征在于，包括：

2.如权利要求1所述的语音唤醒方法，其特征在于，所述提取每路所述语音通道所采集的语音数据的第一音频特征向量，包括：

分别提取每路所述语音通道所采集的语音数据的声学特征；

3.如权利要求2所述的设备唤醒方法，其特征在于，所述提取每路所述语音通道所采集的语音数据的声学特征，包括：针对每路语音数据执行如下处理：

4.如权利要求1所述的语音唤醒方法，其特征在于，所述根据每路所述语音通道所采集的语音数据的第一音频特征向量获取所述语音信号的融合音频特征向量，包括：

5.如权利要求4所述的语音唤醒方法，其特征在于，所述将每路所述语音通道所采集的语音数据的第一音频特征向量进行拼接处理，获取所述语音信号的融合音频特征向量，包括：

6.如权利要求4所述的语音唤醒方法，其特征在于，所述根据每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值，确定所述融合音频特征向量中对应位置的融合特征值，包括：

将每路所述语音通道所采集的语音数据的第一音频特征向量中相同位置的特征值相加，获取所述融合音频特征向量中对应位置的融合特征值；

或者

7.如权利要求5所述的语音唤醒方法，其特征在于，在根据预先训练的神经网络对所述融合音频特征向量进行处理之前，所述方法还包括：

8.一种语音唤醒装置，其特征在于，包括：

接收模块，用于通过多路语音通道接收语音信号；

9.一种电子设备，其特征在于，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的语音唤醒方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音唤醒方法。