CN111354341A

CN111354341A - 语音唤醒方法及装置、处理器、音箱和电视机

Info

Publication number: CN111354341A
Application number: CN201811475797.5A
Authority: CN
Inventors: 陈梦喆; 薛少飞; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2020-06-30

Abstract

本发明公开了一种语音唤醒方法及装置、处理器、音箱和电视机。其中，该方法包括：采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；获取特征提取后的多路音频信号；采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。本发明解决了相关技术中信号处理模型与唤醒模型分别优化训练从而导致两者目标准则不一致的技术问题。

Description

语音唤醒方法及装置、处理器、音箱和电视机

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音唤醒方法及装置、处理器、音箱和电视机。

背景技术

语音唤醒是指用户说出特定的语音指令时，设备从休眠状态切换到工作状态，给出指定响应。该技术广泛地应用于各类语音控制的产品中，如机器人、手机、可穿戴设备、智能家居、车载等。由于涉及到的场景常常是远场环境，处理信号具有信噪比低，有回声等特点，因此语音唤醒的输入语音常常会先经过前端信号处理，以去除噪声，回声等不利于后端解析具体语言内容的部分。

为了获得更鲁棒的唤醒性能，相关技术中对于语音唤醒的输入语音常常会先经过传统前端信号处理，比如回声消除(Acoustic Echo Canceller，简称AEC)，自动增益控制(Automatic Gain Control，简称为AGC)，波束形成算法(Beam forming algorithm)以及盲源分离等降噪方式，将多通道信号转换成单通道信号，再提取特征后输入唤醒模块，其目的在于获得更干净的语音，以降低唤醒模型对语音的解析难度。

但是，相关技术中的信号处理与语音唤醒的结合常常有以下几方面缺点：1)信号处理模式一般为在一定准则指导下，估计滤波器最优参数，其准则和优化目标会与唤醒模型的目标准则不一致，二者分别优化训练，无法获得联合训练的优势；2)在数据不断的累积过程中，信号处理的模式无法利用大量数据带来的红利；3)信号处理效果与资源量的需求呈正比，若要获得较好的效果，其计算量以及时延甚至会大于唤醒模型，并且随着语音通道数的增加，处理时长呈指数级上升。信号处理和语音唤醒一般在设备端完成，这对资源的利用要求严苛，寻求尽可能计算量小和时延小的方案；4)场景及硬件的适应性弱，当使用场景变化、硬件发生变化时，算法、参数都需要重新调整。

针对相关技术中的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音唤醒方法及装置、处理器、音箱和电视机，以至少解决相关技术中信号处理模型与唤醒模型分别优化训练从而导致两者目标准则不一致的技术问题。

根据本发明实施例的一个方面，提供了一种语音唤醒方法，包括：采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；获取特征提取后的多路音频信号；采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。

根据本发明实施例的另一个方面，提供了一种语音唤醒装置，包括：训练模块，用于采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；获取模块，用于获取特征提取后的多路音频信号；处理模块，用于采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；识别模块，用于采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。

根据本发明实施例的又一个方面，一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的语音唤醒方法。

根据本发明实施例的再一个方面，提供了一种音箱，包括：采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；获取特征提取后的多路音频信号；采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。

根据本发明实施例的再一个方面，提供了一种电视，包括：采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；获取特征提取后的多路音频信号；采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。

在本发明实施例中，通过采用语音数据集训训练得到的声学模型中的第一组成部分对多路音频信号进行信号前端处理，以及该声学模型中的第二组成部分对处理结果进行识别，以唤醒当前设备。也就是说，该声学模型包括了用于对音频信号进行信号前端处理的第一组成部分，和用于对唤醒进行处理的第二组成部分，使得信号前端处理和唤醒处理以相同的准则进行优化，从而解决了相关技术中信号处理模型与唤醒模型分别优化训练从而导致两者目标准则不一致的技术问题，达到了提高语音唤醒识别率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现语音唤醒方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的语音唤醒方法的流程图；

图3是根据本发明实施例的神经网络模型的可选示意图一；

图4是根据本发明实施例的神经网络模型的可选示意图二；

图5是根据本发明实施例的语音唤醒装置的结构示意图；

图6是根据本发明实施例的语音唤醒装置的可选结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

神经网络(Neural Network，简称为NN)：一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，相当于神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。

声学模型(Acoustic Model，简称为AM)：语音识别***中最为重要的部分之一，目前主流***多采用隐马尔科夫模型与神经网络进行混合建模。

回声消除(Acoustic Echo Canceller，简称AEC)：采用回波抵消方法，也就是通过自适应方法估计回波信号的大小，然后在接收信号中减去此估计值以抵消回波，回波抵消功能通常在硬件上完成。

自动增益控制(Automatic Gain Control，简称为AGC)：使放大电路的增益自动地随信号强度而调整的自动控制方法。

波束形成算法(Beam forming algorithm)：根据基于的对象不同可以分为基于方向估计的自适应算法，基于训练信号或者参考信号的方法和基于信号结构的波束形成方法。

前馈序列记忆神经网络(Feed Forward Sequential Memory Network，简称为FSMN)：一种非递归的网络结构。

实施例1

根据本发明实施例，还提供了一种语音唤醒方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音唤醒方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图1中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的语音唤醒方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的语音唤醒方法。图2是根据本发明实施例的语音唤醒方法的流程图，如图2所示，该方法的步骤包括：

步骤S202，采用语音数据集训练得到声学模型，其中，该声学模型包括：第一组成部分和第二组成部分；

步骤S204，获取特征提取后的多路音频信号；

步骤S206，采用第一组成部分对多路音频信号进行信号前端处理，得到处理结果；

步骤S208，采用第二组成部分对处理结果进行识别，以唤醒当前设备。

由上述步骤S202至步骤S208，通过采用语音数据集训训练得到的声学模型中的第一组成部分对多路音频信号进行信号前端处理，以及该神经网络中的第二组成部分对处理结果进行识别，以唤醒当前设备。也就是说，该声学模型包括了用于对音频信号进行信号前端处理的第一组成部分，和用于对唤醒进行处理的第二组成部分，使得信号前端处理和唤醒处理以相同的准则进行优化，从而解决了相关技术中信号处理模型与唤醒模型分别优化训练从而导致两者目标准则不一致的技术问题，达到了提高语音唤醒识别率的效果。

需要说明的是，本实施例中涉及到的声学模型优选为神经网络模型，下述在具体实施方式中也是以神经网络模型为例进行解释说明的。

在本实施例的可选实施方式中，对于本实施例步骤S202涉及到的采用语音数据集训练得到声学模型的方式，可以通过如下方式来实现：

步骤S202-11,采用语音数据集分别对第一组成部分和第二组成部分进行单独训练；

其中，该步骤S202-11在本实施例的可选实施方式中可以包括以下方式：

方式(1)：将语音数据集中混杂有干扰信号的待识别语音信号设置为第一组成部分的输入层神经元；通过与输入层联接的至少一个隐藏层的迭代处理，输出处理后语音信号；根据处理后语音信号与纯净的待识别语音信号之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第一预设条件，其中，网络参数包括：第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

需要说明的是，基于上述步骤S206和步骤S208可知，第一组成部分可以对音频信号进行信号前端处理的，而第二组成部分可以对唤醒进行处理。因此，本实施例中涉及到的混杂有干扰信号的待识别语音信号可以是如下应用场景采集到的，如：1)通过麦克风阵列采集多通道信号，并将该多通道信号同时加入到声学模型的输入层；2)存在不同类型信号的情况，即除了外部信号，同时采集到内部信号时(比如唤醒设备本身在播放声音，同时使用者在进行唤醒操作)；3)分布式唤醒场景，即复杂环境中分布多个设备，人在某一位置作唤醒操作时，这些设备都采集到语音，而说话人声音距离哪台设备最近难以准确确定的情况。当然上述应用场景仅仅是本领域中比较常用的应用场景中，本申请中的技术方案也可以应用到其他场景中，也就是说，上述仅仅是举例说明，并不构成对本申请的限定。

下面以通过麦克风阵列采集多通道信号作为混杂有干扰信号的待识别语音信号为例对上述方式(1)进行描述。

因此，上述方式(1)中的混杂有干扰信号的待识别语音信号则是通过麦克风阵列采集到多通道信号。如果本实施例中采集到的通道信号为N个的话，图3是根据本发明实施例的神经网络模型的可选示意图一，如图3所示，以声学模型为神经网络模型为例，神经网络模型的输入为麦克风阵列采集到的N个通道信号经过特征提取后依然保持N个通道信号输入到神经网络模型中。基于该神经网络训练的方式是：首先是将多通道信号该输入到输入层神经元，并将输入层的输出输入到至少一个隐藏层进行迭代处理，进而通过输出层输出。对于该神经网络的3层，在一次训练过程中可以是：若用X表示网络的输入向量(即多通道信号的输入向量)，W1～W3表示网络各层的连接权量，F1～F3表示神经网络3层的激活函数。那么神经网络的第一层(输入层)神经元的输出为：O1＝F1(XW1)；第二层(隐藏层)的输出为：O2＝F2(F1(XW1)W2)；输出层的输出为:O3＝F3(F2(F1(XW1)W2)W3)。通过对上述神经网络三层训练过程进行迭代处理，由多通道信号得到处理后的语音信号。进而将处理后的语音信号与纯净的待识别语音信号之间的误差调整第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。该网络取值和网络阈值在上述具体应用场景中的连接权量和激活函数。通过该方式，最后可以得到满足第一预设条件的待识别的语音信号。

通过该方式(1)将前端信号处理作为神经网络处理的一部分，其可以利用不断增加的数据来获得更好的训练；而且在计算量上，可以对神经网络结构进行控制得到合适计算量以及时延，而通道数的增加可以只是增加网络的输入层神经元的节点数，而不会使得计算量随通道数呈指数增长。

方式(2)：将语音数据集中混杂有干扰信号的待识别语音信号设置为第二组成部分的输入层神经元；通过与输入层联接的至少一个隐藏层的迭代处理，输出待识别语音信号中每个音素对应的状态概率；根据由状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，网络参数包括：第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

下面以通过麦克风阵列采集多通道信号作为混杂有干扰信号的待识别语音信号为例对上述方式(2)进行描述。

因此，上述方式(2)中的混杂有干扰信号的待识别语音信号则是通过麦克风阵列采集到多通道信号。因此，以神经网络模型为例，对神经网络模型进行训练的方式，首先是将多通道信号该输入到输入层神经元；并将输入层的输出输入到至少一个隐藏层进行迭代处理，进而通过输出层输出待识别语音信号中每个音素对应的状态概率。对于该神经网络的3层，在一次训练过程中可以是：若用X表示网络的输入向量(即多通道信号的输入向量)，W1～W3表示网络各层的连接权量，F1～F3表示神经网络3层的激活函数。那么神经网络的第一层(输入层)神经元的输出为：O1＝F1(XW1)；第二层(隐藏层)的输出为：O2＝F2(F1(XW1)W2)；输出层的输出为:O3＝F3(F2(F1(XW1)W2)W3)。通过对上述神经网络三层训练过程进行迭代处理，得到待识别语音信号中每个音素对应的状态概率。进而由待识别语音信号中每个音素对应的状态概率确定的语音信号与发音模板之间的误差调整第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。该网络取值和网络阈值在上述具体应用场景中的连接权量和激活函数。通过该方式，最后可以得到满足第二预设条件的待识别语音信号。

需要说明的是，如果上述方式(1)和方式(2)应用场景为智能家电，且采集到的多个通道信号为2通道原始信号和2通道参考信号(参考信号录制电视本身发出的声音)，图4是根据本发明实施例的神经网络模型的可选示意图二，如图4所示，神经网络模型的输入为采集到的4通道信号，“NN Front-end”部分模拟AEC功能，AEC得到的信号与参考信号合并再输入“AM”部分。也就是说，训练时先单独训练“NN Front-end”和“AM”两个网络，再将两个串联起来联合训练。需要说明的是，该联合训练即是下述步骤S202-12中涉及到的对第一组成部分和第二组成部分进行联合训练。

步骤S202-12,采用语音数据集对第一组成部分和第二组成部分进行联合训练。

其中，对于上述步骤S202-12在本实施例中可以通过如下方式来实现：将语音数据集中混杂有干扰信号的待识别语音信号设置为第一组成部分的输入层神经元；通过与输入层联接的至少一个隐藏层的迭代处理，输出待识别语音信号中每个音素对应的状态概率；根据由状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，网络参数包括：第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

可见，采用语音数据集对第一组成部分和第二组成部分进行联合训练是将步骤S202-11中的方式(1)和方式(2)进行结合。此外，该联合训练中的网络参数包括了第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

需要说明的是，上述图2中的方法步骤在具体应用场景中可以应用在音箱、电视或车机等其他硬件设备上。

在上述方法步骤应用到音箱上的情况下，该音箱也会执行下述方法步骤：采用语音数据集训练得到声学模型，其中，声学模型包括：第一组成部分和第二组成部分；获取特征提取后的多路音频信号；采用第一组成部分对多路音频信号进行信号前端处理，得到处理结果；采用第二组成部分对处理结果进行识别，以唤醒当前设备。

对于上述图2中的对于上述方法步骤进一步限定的特征，该音箱也是会执行的，在此不再赘述。对于电视和车机也是一样的，均是可以执行上述图2中的方法步骤的。

实施例2

根据本发明实施例，还提供了一种用于实施上述语音唤醒方法的装置，如图5所示，该装置包括：训练模块52，用于采用语音数据集训练得到声学模型，其中，声学模型包括：第一组成部分和第二组成部分；获取模块54，与训练模块52耦合连接，用于获取特征提取后的多路音频信号；处理模块56，与获取模块54耦合连接，用于采用第一组成部分对多路音频信号进行信号前端处理，得到处理结果；识别模块58，与处理模块56耦合连接，用于采用第二组成部分对处理结果进行识别，以唤醒当前设备。

基于上述本实施例中的语音唤醒装置，通过采用语音数据集训训练得到的神经网络模型中的第一组成部分对多路音频信号进行信号前端处理，以及该神经网络中的第二组成部分对处理结果进行识别，以唤醒当前设备。也就是说，该神经网络模型包括了用于对音频信号进行信号前端处理的第一组成部分，和用于对唤醒进行处理的第二组成部分，使得信号前端处理和唤醒处理以相同的准则进行优化，从而解决了相关技术中信号处理模型与唤醒模型分别优化训练从而导致两者目标准则不一致的技术问题，达到了提高语音唤醒识别率的效果。

图6是根据本发明实施例的语音唤醒装置的可选结构示意图，如图6所示，训练模块52包括：第一训练单元62，用于采用语音数据集分别对第一组成部分和第二组成部分进行单独训练；第二训练单元64，用于采用语音数据集对第一组成部分和第二组成部分进行联合训练。

其中，该第一训练单元62还可以进一步包括：第一设置子单元，用于将语音数据集中混杂有干扰信号的待识别语音信号设置为第一组成部分的输入层神经元；第一迭代子单元，用于通过与输入层联接的至少一个隐藏层的迭代处理，输出处理后语音信号；第一处理子单元，用于根据处理后语音信号与纯净的待识别语音信号之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第一预设条件，其中，网络参数包括：第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

需要说明的是，基于上述处理模块56和识别模块58可知，第一组成部分可以对音频信号进行信号前端处理的，而第二组成部分可以对唤醒进行处理。因此，本实施例中涉及到的混杂有干扰信号的待识别语音信号可以是如下应用场景采集到的，如：1)通过麦克风阵列采集多通道信号，并将该多通道信号同时加入到声学模型的输入层；2)存在不同类型信号的情况，即除了外部信号，同时采集到内部信号时(比如唤醒设备本身在播放声音，同时使用者在进行唤醒操作)；3)分布式唤醒场景，即复杂环境中分布多个设备，人在某一位置作唤醒操作时，这些设备都采集到语音，而说话人声音距离哪台设备最近难以准确确定的情况。当然上述应用场景仅仅是本领域中比较常用的应用场景中，本申请中的技术方案也可以应用到其他场景中，也就是说，上述仅仅是举例说明，并不构成对本申请的限定。

下面以通过麦克风阵列采集多通道信号作为混杂有干扰信号的待识别语音信号为例对第一训练单元62中的子单元进行描述。

因此，上述混杂有干扰信号的待识别语音信号则是通过麦克风阵列采集到多通道信号。如果本实施例中采集到的通道信号为N个的话，如图3所示，以声学模型为神经网模型为例，该神经网络模型的输入为麦克风阵列采集到的N个通道信号经过特征提取后依然保持N个通道信号输入到神经网络模型中。基于该神经网络训练的方式是：首先是第一设置子单元将多通道信号该输入到输入层神经元，并将输入层的输出由第一迭代子单元输入到至少一个隐藏层进行迭代处理，进而通过输出层输出。对于该神经网络的3层，在一次训练过程中可以是：若用X表示网络的输入向量(即多通道信号的输入向量)，W1～W3表示网络各层的连接权量，F1～F3表示神经网络3层的激活函数。那么神经网络的第一层(输入层)神经元的输出为：O1＝F1(XW1)；第二层(隐藏层)的输出为：O2＝F2(F1(XW1)W2)；输出层的输出为:O3＝F3(F2(F1(XW1)W2)W3)。通过对上述神经网络三层训练过程进行迭代处理，由多通道信号得到处理后的语音信号。进而由第一处理子单元将处理后的语音信号与纯净的待识别语音信号之间的误差调整第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。该网络取值和网络阈值在上述具体应用场景中的连接权量和激活函数。通过该方式，最后可以得到满足第一预设条件的待识别的语音信号。

通过该第一训练单元62将前端信号处理作为声学模型处理的一部分，其可以利用不断增加的数据来获得更好的训练；而且在计算量上，可以对声学模型结构进行控制得到合适计算量以及时延，而通道数的增加可以只是增加网络的输入层神经元的节点数，而不会使得计算量随通道数呈指数增长。

可选地，本实施例中的第一训练单元62还可以包括：第二设置子单元，用于将语音数据集中混杂有干扰信号的待识别语音信号设置为第二组成部分的输入层神经元；第二迭代子单元，用于通过与输入层联接的至少一个隐藏层的迭代处理，输出待识别语音信号中每个音素对应的状态概率；第二处理子单元，用于根据由状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，网络参数包括：第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

因此，上述混杂有干扰信号的待识别语音信号则是通过麦克风阵列采集到多通道信号。因此，通过声学模型进行训练的方式，首先是由第二设置子单元将多通道信号该输入到输入层神经元；并由第二迭代子单元将输入层的输出输入到至少一个隐藏层进行迭代处理，进而通过输出层输出待识别语音信号中每个音素对应的状态概率。以声学模型为神经网络模型为例，对于该神经网络的3层，在一次训练过程中可以是：若用X表示网络的输入向量(即多通道信号的输入向量)，W1～W3表示网络各层的连接权量，F1～F3表示神经网络3层的激活函数。那么神经网络的第一层(输入层)神经元的输出为：O1＝F1(XW1)；第二层(隐藏层)的输出为：O2＝F2(F1(XW1)W2)；输出层的输出为:O3＝F3(F2(F1(XW1)W2)W3)。通过对上述神经网络三层训练过程进行迭代处理，得到待识别语音信号中每个音素对应的状态概率。进而由第二处理子单元将待识别语音信号中每个音素对应的状态概率确定的语音信号与发音模板之间的误差调整第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。该网络取值和网络阈值在上述具体应用场景中的连接权量和激活函数。通过该方式，最后可以得到满足第二预设条件的待识别语音信号。

需要说明的是，如果上述第一训练单元应用场景为智能家电的话，且采集到的多个通道信号为2通道原始信号和2通道参考信号(参考信号录制电视本身发出的声音)，如图4所示，神经网络模型的输入为采集到的4通道信号，“NN Front-end”部分模拟AEC功能，AEC得到的信号与参考信号合并再输入“AM”部分。也就是说，训练时先单独训练“NN Front-end”和“AM”两个网络，再将两个串联起来联合训练。需要说明的是，该联合训练即是下述第二训练单元中涉及到的对第一组成部分和第二组成部分进行联合训练。

可选地，本实施例中的第二训练单元64可以包括：第三设置子单元，用于将语音数据集中混杂有干扰信号的待识别语音信号设置为第一组成部分的输入层神经元；第三迭代子单元，用于通过与输入层联接的至少一个隐藏层的迭代处理，输出待识别语音信号中每个音素对应的状态概率；第三处理单元，用于根据由状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，网络参数包括：第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

可见，采用语音数据集对第一组成部分和第二组成部分进行联合训练是将第一训练单元中的两种单独训练的方式进行结合。此外，该联合训练中的网络参数包括了第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

此处需要说明的是，上述训练模块52、获取模块54、处理模块56和识别模块58对应于实施例1中的步骤S202至步骤S208，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例3

本发明的实施例可以提供一种处理器，该处理器可以应用于该计算机终端中，其中，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，如图1所示，该计算机终端A可以包括：一个或多个处理器、存储器、以及接口。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的***漏洞攻击的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：采用语音数据集训练得到声学模型，其中，声学模型包括：第一组成部分和第二组成部分；获取特征提取后的多路音频信号；采用第一组成部分对多路音频信号进行信号前端处理，得到处理结果；采用第二组成部分对处理结果进行识别，以唤醒当前设备。

可选的，上述处理器还可以执行如下步骤的程序代码：采用语音数据集分别对第一组成部分和第二组成部分进行单独训练；采用语音数据集对第一组成部分和第二组成部分进行联合训练。

可选的，上述处理器还可以执行如下步骤的程序代码：将语音数据集中混杂有干扰信号的待识别语音信号设置为第一组成部分的输入层神经元；通过与输入层联接的至少一个隐藏层的迭代处理，输出处理后语音信号；根据处理后语音信号与纯净的待识别语音信号之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第一预设条件，其中，网络参数包括：第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

可选的，上述处理器还可以执行如下步骤的程序代码：将语音数据集中混杂有干扰信号的待识别语音信号设置为第二组成部分的输入层神经元；通过与输入层联接的至少一个隐藏层的迭代处理，输出待识别语音信号中每个音素对应的状态概率；根据由状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，网络参数包括：第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

可选的，上述处理器还可以执行如下步骤的程序代码：将语音数据集中混杂有干扰信号的待识别语音信号设置为第一组成部分的输入层神经元；通过与输入层联接的至少一个隐藏层的迭代处理，输出待识别语音信号中每个音素对应的状态概率；根据由状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，网络参数包括：第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

采用本发明实施例，提供了一种语音唤醒的方案，通过采用语音数据集训训练得到的神经网络模型中的第一组成部分对多路音频信号进行信号前端处理，以及该神经网络中的第二组成部分对处理结果进行识别，以唤醒当前设备。也就是说，该神经网络模型包括了用于对音频信号进行信号前端处理的第一组成部分，和用于对唤醒进行处理的第二组成部分，使得信号前端处理和唤醒处理以相同的准则进行优化，从而解决了相关技术中信号处理模型与唤醒模型分别优化训练从而导致两者目标准则不一致的技术问题，达到了提高语音唤醒识别率的效果。

本领域普通技术人员可以理解，图1所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图1其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图1所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；

获取特征提取后的多路音频信号；

采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；

采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。

2.根据权利要求1所述的方法，其特征在于，采用所述语音数据集训练得到所述声学模型包括：

采用所述语音数据集分别对所述第一组成部分和所述第二组成部分进行单独训练；

采用所述语音数据集对所述第一组成部分和所述第二组成部分进行联合训练。

3.根据权利要求2所述的方法，其特征在于，采用所述语音数据集对所述第一组成部分进行单独训练包括：

将所述语音数据集中混杂有干扰信号的待识别语音信号设置为所述第一组成部分的输入层神经元；

通过与所述输入层联接的至少一个隐藏层的迭代处理，输出处理后语音信号；

根据所述处理后语音信号与纯净的待识别语音信号之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有所述干扰信号的待识别语音信号进行训练，直至误差满足第一预设条件，其中，所述网络参数包括：所述第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

4.根据权利要求2所述的方法，其特征在于，采用所述语音数据集对所述第二组成部分进行单独训练包括：

将所述语音数据集中混杂有干扰信号的待识别语音信号设置为所述第二组成部分的输入层神经元；

通过与所述输入层联接的至少一个隐藏层的迭代处理，输出所述待识别语音信号中每个音素对应的状态概率；

根据由所述状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有所述干扰信号的待识别语音信号进行训练，直至误差满足第二预设条件，其中，所述网络参数包括：所述第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

5.根据权利要求2所述的方法，其特征在于，采用所述语音数据集对所述第一组成部分和所述第二组成部分进行联合训练包括：

根据由所述状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有所述干扰信号的待识别语音信号进行训练，直至所述误差满足第二预设条件，其中，所述网络参数包括：所述第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及所述第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

6.根据权利要求1所述的方法，其特征在于，所述声学模型包括：神经网络模型。

7.一种语音唤醒装置，其特征在于，包括：

训练模块，用于采用语音数据集训练得到声学模型，其中，所述声学模型包括：第一组成部分和第二组成部分；

获取模块，用于获取特征提取后的多路音频信号；

处理模块，用于采用所述第一组成部分对所述多路音频信号进行信号前端处理，得到处理结果；

识别模块，用于采用所述第二组成部分对所述处理结果进行识别，以唤醒当前设备。

8.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

第一训练单元，用于采用所述语音数据集分别对所述第一组成部分和所述第二组成部分进行单独训练；

第二训练单元，用于采用所述语音数据集对所述第一组成部分和所述第二组成部分进行联合训练。

9.根据权利要求8所述的装置，其特征在于，所述第一训练单元包括：

第一设置子单元，用于将所述语音数据集中混杂有干扰信号的待识别语音信号设置为所述第一组成部分的输入层神经元；

第一迭代子单元，用于通过与所述输入层联接的至少一个隐藏层的迭代处理，输出处理后语音信号；

第一处理子单元，用于根据所述处理后语音信号与纯净的待识别语音信号之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有所述干扰信号的待识别语音信号进行训练，直至所述误差满足第一预设条件，其中，所述网络参数包括：所述第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

10.根据权利要求8所述的装置，其特征在于，所述第一训练子单元包括：

第二设置子单元，用于将所述语音数据集中混杂有干扰信号的待识别语音信号设置为所述第二组成部分的输入层神经元；

第二迭代子单元，用于通过与所述输入层联接的至少一个隐藏层的迭代处理，输出所述待识别语音信号中每个音素对应的状态概率；

第二处理子单元，用于根据由所述状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有所述干扰信号的待识别语音信号进行训练，直至所述误差满足第二预设条件，其中，所述网络参数包括：所述第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

11.根据权利要求8所述的装置，其特征在于，第二训练单元包括：

第三设置子单元，用于将所述语音数据集中混杂有干扰信号的待识别语音信号设置为所述第一组成部分的输入层神经元；

第三迭代子单元，用于通过与所述输入层联接的至少一个隐藏层的迭代处理，输出所述待识别语音信号中每个音素对应的状态概率；

第三处理单元，用于根据由所述状态概率确定的发音与发音模板之间的误差调整网络参数，并采用调整后的网络参数重新对混杂有所述干扰信号的待识别语音信号进行训练，直至所述误差满足第二预设条件，其中，所述网络参数包括：所述第一组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值，以及所述第二组成部分中每相邻两层神经元之间联接的网络取值，神经元的网络阈值。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的方法。

13.一种音箱，其特征在于，包括：

获取特征提取后的多路音频信号；

14.一种电视，其特征在于，包括：

获取特征提取后的多路音频信号；