CN108735202A

CN108735202A - 用于小占用资源关键词检索的卷积递归神经网络

Info

Publication number: CN108735202A
Application number: CN201810204872.8A
Authority: CN
Inventors: 塞尔坎·O·安瑞克; 马库斯·基尔; 瑞万·蔡尔德; 乔尔·赫斯特尼斯; 安德鲁·吉比安斯凯; 克里斯托弗·丰纳; 赖恩·普兰格; 亚当·科茨
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-03-13
Filing date: 2018-03-13
Publication date: 2018-11-02
Anticipated expiration: 2038-03-13
Also published as: CN108735202B; US20180261213A1; US10540961B2

Abstract

本文中描述了用于创建和使用小占用资源关键词检索(KWS)***的卷积递归神经网络(CRNN)的***和方法。受到大型最新语音识别***的启发，在实施方式中，将利用时域和频域中数据的结构的卷积层的优势与递归层结合，从而利用整个经处理的帧的上下文。考虑到性能与模型尺寸权衡之比，对架构参数的效果进行实验以确定优选的模型实施方式。提供了各种训练策略来提高性能。在实施方式中，通过仅使用～230k个参数并得到可接受的低延迟性，CRNN模型实施方式在广泛的环境中展现出高准确性和稳健的性能。

Description

用于小占用资源关键词检索的卷积递归神经网络

相关申请的交叉引用

本申请根据35USC§119(e)要求美国临时专利申请第62/470,821号(案卷号28888-2109P)的优先权权益，该美国临时专利申请于2017年3月13日提交，发明名称为“用于小占用资源关键词检索的卷积递归神经网络(Convolutional Recurrent Neural Networksfor Small-Footprint Keyword Spotting)”，并且作为发明人列出了Sercan O.Arik、Markus Kliegl、Rewon Child、Joel Hestness、Andrew Gibiansky、Christopher Fougner、Ryan Prenger和Adam Coates。上述专利文献通过引用以其整体且出于所有目的并入本文。

技术领域

本公开总体上涉及能够提供得到改善的计算机性能、特征、对接和使用的用于计算机学习的***和方法。

背景技术

计算装置的普及和使用在过去几年中已急剧增加。例如，计算机、智能手机、平板装置、智能传感器等无处不在，并且每天被无数用户使用无数次。较低的成本、增加的计算能力、增加的功能和更紧凑的尺寸是促成这些计算装置广泛采用和使用的一些因素。

这些装置面临的持续挑战之一是改善对接。人机对接是非常重要的，因为这直接影响到装置的使用性。无论装置可能具有的有用特征的数量如何，如果用户难以与装置接口连接以访问或使用这些功能，则用户的体验可能受到负面影响。

触摸屏、触摸板、物理按钮以及诸如手写笔或鼠标的指示装置是常规用户接口中的一些。然而，每个接口均具有其自身的缺点和局限性，包括对专用硬件、某些环境的要求、以及不具有以直观或自然的方式与用户进行对接的能力。

一些装置提供语音接口。语音输入的主要目标是使与装置的接口连接更加简单且自然。虽然语音对接在过去几年中有所改善，但其仍然有很大的局限性。在许多情况下，当语音识别软件发生转录错误时，这可能会导致不正确的命令被执行。

因此，需要的是能够提供高准确性并因此具有令人满意的用户体验的高性能***和方法。

发明内容

本申请的一个方面提供了用于训练小占用资源关键词检索模型架构的计算机实现的方法，方法包括：接收一组音频样本，一组音频样本中的每个音频样本包括关键词，关键词已通过使用对齐方法进行对齐，对齐方法能够使用交叉熵损失函数；将一组音频样本转换成谱图；将谱图输入到一个或多个卷积层以生成卷积层输出，其中，一个或多个卷积层将多维滤波器应用于谱图；在至少一个递归层中使用卷积层输出以生成递归层输出；将递归层输出提供至一个或多个全连接层；对一个或多个全连接层的输出应用非线性函数，以获得与一组音频样本中的样本包括关键词的概率对应的概率分数；以及在交叉熵损失函数中使用概率分数以调整卷积层的一个或多个模型参数。

本申请的另一方面提供了用于使用小占用资源关键词检索模型来检测关键词的方法，方法包括：接收音频数据；将音频数据输入到已通过使用训练方法、使用交叉熵损失训练的卷积递归神经网络(CRNN)中以检测音频样本中的目标关键词，其中，训练方法包括：接收一组音频样本，一组音频样本中的每个音频样本包括目标关键词；将音频样本中的目标关键词对齐以能够使用交叉熵损失函数；将一组音频样本转换成谱图以获得特征；对卷积层使用特征以生成卷积层输出，其中，卷积层将多维滤波器应用于谱图；在至少一个递归层中使用卷积层输出以生成递归层输出；将递归层输出提供至一个或多个全连接层；对一个或多个全连接层的输出应用非线性函数，以获得与一组音频样本中的样本包括目标关键词的概率对应的概率分数；以及在交叉熵损失函数中使用概率分数来调整卷积层的模型参数。

本申请的又一方面提供了一种非暂时性计算机可读介质，包括一个或多个指令序列，一个或多个指令序列在由一个或多个微处理器执行时，使得以下步骤被执行，其中，步骤包括：接收一组音频样本，一组音频样本中的每个音频样本包括关键词，关键词已通过使用对齐方法进行对齐，对齐方法能够使用交叉熵损失函数；将一组音频样本转换成谱图；将谱图输入到卷积层以生成卷积层输出，其中，卷积层将多维滤波器应用于谱图；在至少一个递归层中使用卷积层输出以生成递归层输出；将递归层输出提供至一个或多个全连接层；对一个或多个全连接层的输出应用非线性函数，以获得与一组音频样本中的样本包括关键词的概率对应的概率分数；以及在交叉熵损失函数中使用概率分数以调整卷积层的一个或多个模型参数。

附图说明

将参照本发明实施方式，而本发明实施方式的示例可在附图中示出。这些附图旨在是说明性的，而不是限制性的。尽管在这些实施方式的上下文中总体描述了本发明，但应理解的是，这不旨在将本发明的范围限制于这些特定的实施方式。图中的项目可能不是按比例的。

图1描绘了根据本公开各种实施方式的用于关键词检索的端到端卷积递归神经网络架构。

图2描绘了根据图1的用于训练小占用资源关键词检索架构的过程。

图3描绘了用于对准关键词以使图2中的用于训练的过程能够进行的过程。

图4描绘了使用根据图1的小占用资源关键词检索架构的过程。

图5描绘了根据本公开各种实施方式的、针对具有5dB信噪比(SNR)的测试集的每小时0.5误警(FA)的错误拒绝率(FRR)与唯一训练关键词的数量之比。

图6描绘了根据本公开各种实施方式的、针对具有各种SNR值的测试集的FRR与每小时FA之比。

图7描绘了根据本公开各种实施方式的、针对具有不同的SNR值的远场测试集的每小时1误警(FA)的FRR与附加距离之比。

图8描绘了根据本公开实施方式的计算装置/信息处理***的简化框图。

具体实施方式

在下面的描述中，为了解释的目的，阐述了具体细节以提供对本发明的理解。然而，对于本领域技术人员显而易见的是，本发明可在没有这些细节的情况下被实践。此外，本领域技术人员将认识到，下面描述的本发明实施方式可有形计算机可读介质上以诸如过程、设备、***、装置或方法的各种方式来实现。

图中所示的部件或模块是对本发明示例性实施方式的说明，并且旨在避免混淆本发明。还应理解的是，在整个讨论中，部件可被描述为分离的功能单元，其可包括子单元，但是本领域技术人员将认识到各种部件或其部分可被划分成单独的部件或者可集成在一起，包括集成在单个***或部件内。应注意，本文中所讨论的功能或操作可被实现为部件。部件可以软件、硬件或其组合来实现。

此外，附图内的部件或***之间的连接不旨在限于直接连接。相反，这些部件之间的数据可由中间部件修改、重新格式化或者以其它方式改变。此外，附加或更少的连接可被使用。还应注意，措辞“联接”、“连接”或“通信地联接”应被理解为包括直接连接、经由一个或多个中间装置的间接连接以及无线连接。

在说明书中对“一个实施方式”、“优选实施方式”、“一实施方式”或“实施方式”的引用意味着结合该实施方式描述的特定特征、结构、特性或功能被包括在本发明的至少一个实施方式中并且可在多于一个实施方式中。此外，上述短语在说明书中各处的出现不一定都指相同的一个或多个实施方式。

某些术语在说明书中各处的使用仅用于说明，并不应被解释为限制。服务、功能或资源不限于单个服务、功能或资源；这些措辞的使用可指示可被分布或聚合的相关服务、功能或资源的分组。

措辞“包括(include)”、“包括(including)”、“包括(comprise)”和“包括(comprising)”应理解为开放性措辞，并且下面的任何列表是示例，且不意味着限于所列出的项目。本文中所使用的任何标题仅用于组织的目的，并且不应用于限制说明书或任何权利要求的范围。本专利文献中所提及的每个文献通过引用以其整体地并入本文。

此外，本领域技术人员应认识到：(1)可选择地执行某些步骤；(2)步骤可不限于本文中所提及的具体顺序；(3)某些步骤可以不同的顺序执行；以及(4)某些步骤可同时进行。

A.引言

受人类之间最常见的互动方式的启发，会话式人机交互在众多应用中越来越受欢迎。高性能的语音到文本转换和文本到语音转换构成了这种交互的两个重要方面，因为大多数计算算法是为文本输入和输出而开发的。会话交互的另一重要方面是关键词检索(KWS，keyword spotting)***(也称为唤醒词检测)，以基于由用户提供的语音输入来实现不同的计算状态之间的过渡。

KWS***旨在从连续的音频流中检测特定的关键词。由于它们的输出确定装置的不同状态，所以对实现令人满意的用户体验而言，针对非常低的误警(FA)率具有非常高的检测准确性是非常重要的。典型的应用存在于具有来自背景噪声、混响失真以及嵌入KWS***的装置的扬声器所产生的声学的干扰的环境中。有效的KWS***应在这种宽范围情况下表现出稳健的性能。此外，对于KWS***而言，计算复杂性和模型尺寸是重要的关注点，因为它们通常嵌入在具有有限存储器和计算资源的消费者装置中，如智能手机或智能家居传感器中。

已经存在有无数具有嵌入式KWS***的装置。KWS的传统方案是基于具有序列搜索算法的隐马尔可夫模型。随着深度学习的进步和可用数据量的增加，最新的KWS***已经被基于深度学习的方案所取代，而基于深度学习的方案已被证明具有卓越的性能和较低的复杂性。

许多基于深度学习的小占用资源(footprint)的KWS***均基于深度神经网络(DNN)，而深度神经网络(DNN)通常与压缩技术或多种类型的训练方案相结合。DNN的潜在的缺陷在于它们忽略了输入的结构和上下文，而输入的结构和上下文在时域或频域上可能具有很强的依赖性。为了通过共享权重来采用这种本地连接模式，已经针对KWS***探索了卷积神经网络(CNN)。CNN的潜在缺陷在于它们无法在没有宽滤波器或大深度的情况下在整个帧上对上下文进行建模。已经针对使用联结时序分类(CTC)损失的KWS***研究了递归神经网络(RNN)(不同于使用交叉熵损失的所有上述DNN和CNN模型)；然而，考虑到这些***的应用的雄心勃勃的目标，还没有获得低FA率处的高准确性。与DNN类似地，RNN的潜在限制在于建模是在输入特征上完成的，而无需学习连续时间与频率步骤之间的结构。先前，已提出了用CTC损失训练的卷积递归神经网络(CRNN)架构。然而，尽管模型尺寸很大，但是与RNN相似地，不能获得低FA率处的高准确性。

本文中呈现的是通过针对对于单个关键词应用的小占用资源的模型、具有交叉熵损失的卷积递归神经网络(CRNN)来开发产品品质的KWS***而产生的***和方法的实施方式。目标之一是将CNN和RNN的优势结合起来----在训练期间采用额外的策略来提高整体性能，同时保持小的占用资源大小。

B.小占用资源的关键词检索

1.端到端架构实施方式

在实施方式中，受成功的大型语音识别***启发的规范CRNN架构被视为起点。为了适应小占用资源的KWS的这些架构，模型大小优选应缩小2到3个数量级。在缩小模型大小的同时，分析不同参数对性能的影响。

图1描绘了根据本公开各种实施方式的用于关键词检索的端到端CRNN架构。在图1中也示出了相应的参数。在实施方式中，原始时域输入被转换成每信道能量归一化(PCEN，Per-Channel Energy-Normalized)梅尔谱图110，以用于简洁表示和有效训练。在实施方式中，可使用其它输入表示，诸如常规或梅尔谱图。在实施方式中，谱图特征(例如，二维(2-D)PCEN特征110)用作卷积层115的有效低维输入。

在实施方式中，PCEN输入表示可用作常规谱图或(log)梅尔谱图的替代来作为输入表示。在实施方式中，PCEN通过如下描述的动态压缩替换静态日志压缩：

其中，t和f表示时间和频率指数，而E(t,f)表示每个时间频率区段(bin)中的滤波器组能量。尽管对可使用的滤波器组的类型没有限制，但是基于快速傅里叶变换(FFT)的梅尔滤波器组可用于紧凑表示。M(t,f)是滤波器组能量E(t,f)的平滑版本，并且可使用一阶无限脉冲响应滤波器来计算：

M(t，f)＝(1-s)M(t-1，f)+sE(t，f)

其中，s是平滑系数，∈是用于防止以零为除数的相对小的常数。在实施方式中，术语用于实施前馈自动增益控制(AGC)的形式。AGC强度(或增益归一化强度)可通过参数α∈[0,1]来控制，其中，较大的α表示较强的增益归一化。应注意，由于平滑，M(t,f)可能主要携带E(t,f)的响度分布，其可随后被归一化。还应注意，该操作是有因果关系的，并且在实施方式中可针对每个信道独立地进行，从而使其适合于实时实现。AGC强调相对于最近谱历史的变化，并且适应于包括响度的沟道效应。在实施方式中，本文中假定以下值：α＝0.98，s＝0.025，δ＝2，r＝0.5，以及∈＝10^-6。

在实施方式中，2-D PCEN特征是卷积层115的输入。卷积层115可沿时间和频率维度两者来采用2-D滤波。在实施方式中，卷积层115的输出可馈送到双向递归层120，而双向递归层120可包括门限递归单元(GRU)或长短期存储器(LSTM)单元并且处理整个帧。如图1中所示，递归层120的输出被提供到全连接(FC)层125。最后，可将softmax解码130应用于两个神经元上，以获得相应的标量分数。在实施方式中，整流线性单元被用作所有层中的激活功能。

2.端到端训练实施方式

在语音识别中，具有递归层的大规模架构通常使用CTC损失的变体以对最可能的输出标签进行解码。除了由于目标的条件独立性假设而导致的CTC的建模限制之外，CTC损失往往具有高计算复杂性，并且通常只有当模型容量大到足以从大数据集有效地学习时才产生良好的性能。由于本文中实施方式的重点在于小占用资源的架构，所以在训练期间优化的损失函数是对于估计出的标签和目标二进制标签的交叉熵损失，从而指示帧是否对应于关键词。

与CTC不同，为了训练交叉熵损失，训练样本的精确对齐通常是重要的。在实施方式中，诸如深度语音2的实施方式的大规模语音识别模型可用于获得针对每个时刻的关键词字符c_k(1≤k≤K)的经估计的概率分布。深度语音2的实施方式在如下共同拥有的专利文献中进行了描述：于2015年11月25日提交的名称为“深度语音2：英语和普通话中的端到端语音识别(Deep Speech 2:End-to-End Speech Recognition in English andMandarin)”的第62/260,206号美国临时专利申请(案卷号28888-1990P)；于2016年11月21日提交的名称为“端到端语音识别(END-TO-END SPEECH RECOGNITION)”的第15/358,102号美国专利申请(案卷号28888-1990(BN151203USN1))；以及于2016年11月21日提交的名称为“经部署的端到端语音识别(DEPLOYED END-TO-END SPEECH RECOGNITION)”的第15/358,083号美国专利申请(案卷号28888-2078(BN151203USN1-1))。上述专利文献中的每个通过引用以其整体且出于所有目的并入本文。

由于CTC解码产生峰值分布，所以在实施方式中，输出随着时间流逝是平滑的，并且获得平滑的字符占用分数p(c_k,t)。在实施方式中，然后使用简单的启发式方法(如类似于以下所示的方法1)来获得关键词的开始和结束时间。额外的短填充可在裁剪关键词以覆盖边缘情况的同时被添加。所获得的对齐的准确性显著超出了人类感知的时间尺度。

方法、1-关键词样本的顺序对齐

在实施方式中，顺序对齐方法可输入与如深度语音2通过对语音转录模型的输出进行平滑(例如通过用高斯脉冲响应进行卷积)而获得的平滑字符占用分数p(c_k，t)相对应的关键词字符c_k(1≤k≤K)(例如，对于关键词“talktype”等，c₁＝′t′，c₂＝′a′，c₃＝′l′等)和衰减率α(0≤α≤1)。在实施方式中，对于N_iter迭代步骤，该方法重复地应用从右到左的解码和从左到右的解码以更新p^lr(c_k，t)和p^rl(c_k，t)，，而这可最初等同于p(c_k，t)。在实施方式中，从右到左的解码步骤可尝试降低在最可能的当前位置之后的位置处的字符的概率，而从左到右的解码步骤尝试降低在最可能的当前位置之前的字符的概率。换言之，这两个步骤均尝试确保关键词中的字符的最可能位置以有序的方式发生(例如，对于关键词“talktype”,“t”的最可能位置在“a”之前，并且“a”的最可能位置在“l”之前等)。

C.实验和结果

应注意，这些实验和结果是通过举例说明的方式提供的，并且是在特定的条件下使用特定的一个或多个实施方式来进行的；因此，这些实验及其结果都不应用于限制本公开的范围。

1.数据和训练

在实施方式中，针对关键词“TalkType”(其可以被发音为单个词或两个词)开发KWS***。可选择T＝1.5秒的帧长度，该帧长度长到足以捕获对齐后的几乎所有样本的“TalkType”。应理解，只要帧长度T和数据集被适当地选择，则本文中所讨论的技术可应用于任何其它关键词。

使用16kHz的采样率，每一帧可包含24k个原始时域样本。例如，对于10ms跨度和40个频率信道，可获得相应的PCEN梅尔谱图，从而产生40×151的输入维度。

在实施方式中，数据集可包括从多于5k个扬声器收集的约16k个不同的关键词样本。大约2k个样本用于开发和测试集中，并且大约12k个样本用于训练(大约是1：1：6的比例)。在实施方式中，通过应用加性噪声来增强训练样本，其中功率由在-5与15dB之间的信噪比(SNR)值确定。加性噪声可从代表性背景噪声和语音样本中采样，其中总长度超过300小时。在实施方式中，为了提供针对对齐误差的稳健性，例如可通过引入随机定时抖动来增强训练样本。

在实施方式中，可使用用于训练的ADAM优化算法(由D.Kingma和J.Ba在“亚当：随机优化方法(Adam:A Method For Stochastic Optimization)”，arXiv预印本arXiv：1412.6980，2014中提出，并且其可在https://arxiv.org/abs/1412.6980中获得，其全部内容通过引用并入本文)，其中批大小为64。最初选择初始学习速率(例如，0.001)并对该初始学习速率进行调整(例如，调整到0.0003)。在实施方式中，在跟踪收敛的同时，可监测期望的操作点的准确性-召回权衡。

在实施方式中，评估可考虑流式场景，以使得对于持续时间T的重叠帧进行推断。帧之间的移位(例如，100ms)应被选择为比谱图跨度更长并且比推断延迟更短(参见下面的C2节)。感兴趣的度量可为错误拒绝率(FRR)和每小时误警(FA)。在实施方式中，后者被固定为期望值，例如1FA/小时。在实施方式中，具有取决于SNR值的幅度的噪声可被添加到开发和测试集。应注意，如果收集到的样本有噪声，则根据SNR的定义作为信息承载信号与噪声信号的功率比，实际的SNR将会更低。与训练集的增强相似地，可从代表性背景噪声和语音样本中对负样本和噪声数据集进行采样。

2.模型架构的实施方式的影响

表1.CRNN架构的性能(参见描述参数的图1)。

如上所述，表1示出了对于具有5dB SNR的开发集的各种CRNN架构模型实施方式的性能。应注意，所有模型均被训练直到收敛，尽管这需要不同数量的时期。观察到的一般趋势是更大的模型尺寸通常会得到更好的性能。在实施方式中，增加卷积滤波器和/或递归隐藏单元的数量是在增加模型尺寸的同时提高性能的两种有效方案。在实施方式中，增加递归层的数量具有有限的影响，并且GRU在LSTM上是优选的，因为可以为较低的复杂性获得更好的性能。

在实施方式中，基于诸如推断延迟、存储器限制和功耗要求的资源约束来减小KWS模型的模型大小。在T.N.Sainath和C.Parada的“用于小占用资源关键词检索的卷积神经网络(convolutional neural networks for small-footprint keyword spotting)”，Proceedings of Interspeech，2015，第1478-1482页(下文称为“Sainath等人”)(其通过引用以其整体地并入本文)中，参数的数量可被限制为小于250k个，这比使用CTC损失的其它架构小6倍以上。对于本节的剩余部分，默认架构是以粗体显示的一组参数，其也对应于在考虑到数据集的模型大小与性能权衡之比的情况下相当优化的点。

也与基于Sainath等人的CNN架构比较了性能。考虑到输入维数和训练数据上的差异，模型超参数被重新优化以获得最佳性能，同时参数的数量上限设为250k个以进行公平的比较。对于具有5dB SNR的相同的开发集，最好的CNN架构模型实施方式实现了1FA/小时的4.31％FRR以及0.5FA/小时的5.73％FRR。这两个度量比具有229k个参数的所选择的CRNN模型的FRR值高～51％。有趣的是，对于较高的SNR值，性能差距较小，这在C.4节中详细阐述。

在实施方式中，由于在初始卷积层中的小模型尺寸和为8的较大时间跨度，所以在100ms跨度上在重叠的1.5秒窗口上运行的双向模型允许推断比实时更快地进行。当在现代消费者装置的处理器上实现(没有用于实现非线性运算的特殊功能)时，具有229k个参数的所选的基于CRNN的KWS模型实施方式的推断计算复杂性为～30M的浮点运算(FLOP)。由于非线性运算构成整个计算复杂性的很大一部分，因此在实施方式中，可以实现计算复杂性的潜在降低，而不需要像在图形处理单元中那样使用函数近似或将特殊功能单元添加到处理核。即使当在没有任何近似和特殊功能单元的现代智能电话上实施时，KWS模型架构的实施方式也实现比人类对听觉刺激的反应时间(其为～280ms)相比更快的推断时间。因此，可为具有会话语音交互的应用轻松地实现无缝实时运算。

图2示出了用于对包括端到端卷积递归神经网络的小占用资源的关键词检索模型架构进行训练以识别关键词的过程。过程200开始于接收(202)到各自包括关键词的一组音频样本时。在实施方式中，关键词已通过使用对齐过程被对齐，该对齐过程能够使用交叉熵损失函数。参照图2对对齐过程进行进一步描述。

在实施方式中，将该组音频样本转换(204)成谱图(例如，每信道能量归一化(PCEN)梅尔谱图)，以获得特征。

在实施方式中，可在一个或多个卷积层中使用(206)特征，以生成卷积层输出。在实施方式中，卷积层可将多维滤波器应用于谱图。在实施方式中，卷积层输出在至少一个递归层中使用(208)，以生成递归层输出。

在实施方式中，将递归层输出提供(210)到多个全连接层。

在实施方式中，在全连接层的输出上应用非线性函数(212)，以获得与该一组音频样本中的样本包括关键词的概率对应的概率分数。在实施方式中，可在交叉熵损失函数中使用概率分数来调整卷积层的模型参数。

图3描绘了用于对关键词进行对齐以使得图2中的用于训练的过程能够被进行的过程。图3中的过程300开始于将一组音频样本提供(302)到语音模型以获得原始CTC输出分数时。

在实施方式中，可修改原始CTC输出分数以获得(304)每个时刻的关键词字符在音频样本中的估计的字符占用概率。在实施方式中，估计的字符占用概率可以通过时间到字符数据的概率矩阵来表示，其中时间到字符数据例如在音频样本中将字符映射到声学信号。在实施方式中，根据关键词字符的预期顺序，例如通过将字符的预期顺序规定作为条件来调整原始CTC输出分数。在实施方式中，响应于满足条件，模型参数可通过修改概率分数来调整。应理解，条件(例如第一关键词字符在第二关键词字符之前)可同样是不发生的事件。

在实施方式中，估计的字符占用概率分布可用于例如通过将时间值与关键词中的特定字符的峰值估计概率相关联，来识别(306)关键词中的目标字符的开始时间或结束时间。

在实施方式中，基于关键词的开始时间和结束时间中的至少一个，可顺序地对齐(308)关键词样本以获得时间对齐的关键词。

在实施方式中，可将时间对齐的关键词中的至少一些使用(310)作为训练样本来训练小占用资源的关键词检索模型架构，以识别该组音频样本中的关键词。在实施方式中，该组音频样本可与一组脉冲响应组合以构建远场训练测试集。对于给定距离，例如，每个脉冲响应可与表示不同声学环境的音频信号相关联。在实施方式中，可以将失配信号(例如，噪声信号或随机抖动)添加到该组音频样本以增强存在失配信号时的检测性能，从而提供针对由嘈杂环境引起的对齐误差的稳健性。

应理解，对齐可包括从该一组音频样本中的关键词中裁剪不需要的声学数据以增加信号保真度。另外，可将填充件(padding)添加到裁剪的样本的开始和结束处。

图4描绘了使用根据图1的小占用资源的关键词检索架构的过程。图4中的过程400开始于接收(402)音频数据。

在实施方式中，可将音频数据输入(404)到已使用交叉熵损失进行训练的CRNN以检测音频样本中的目标关键词，例如通过使用根据图2的训练方法。在实施方式中，训练方法可使用硬负性挖掘(hard negative mining)以通过将不需要的样本识别和使用作为负样本来进一步训练模型以提高检测性能。在实施方式中，硬负性挖掘可包括将数据集应用于模型，以识别模型检测到误警的帧并将那些帧用作负样本。

3.训练数据量的影响

考虑到由架构尺寸所规定的表示能力限制，增加训练数据中的正样本的量在性能上具有有限的影响。图5描绘了根据本公开各种实施方式的针对具有5dB信噪比(SNR)的测试集的每小时0.5误警(FA)的错误拒绝率(FRR)与唯一训练关键词的数量之比。具体地，图5示出了0.5FA/小时的FRR(对于具有5dB SNR的测试集)与训练时使用的唯一“TalkType”样本的数量之比。性能饱和发生得比具有相似的数据类型、但具有大规模模型的应用更快。

除了增加正样本的量之外，在实施方式中，通过增加由硬挖掘获得的相关负对抗样本的多样性来提高性能。先前已证明了正规化形式的对抗训练的性能优势。为了生成对抗样本，常见方案特别是在计算机视觉应用中流行的方案是以添加基于梯度的扰动为基础来创建人造样本。相反，在实施方式中，真实对抗样本通过在非常大的公共视频数据集(不用于训练、开发或测试集中)上使用预收敛模型来收集。在实施方式中，通过将所收集的对抗样本使用作为负训练样本来进行训练，直到收敛。如图5中所示，对抗训练实现了测试集的FRR中的下降。

4.噪声稳健性

图6示出了根据本公开各种实施方式的针对具有各种信噪比(SNR)值的测试集的所选择的CRNN模型实施方式的FRR与FA每小时之比。对于较高的SNR，获得了较低的FRR，并且以较低的FA率开始稳定的性能。应注意，经增强的训练样本的SNR值(以dB为单位)是从平均值为5dB的分布中采样的，并且观察到性能中的恶化超过了该值。对于较低的SNR值的性能可通过以较低的SNR进行增强来提高，即使这可能以较高的SNR的性能下降为代价。

特别是对于较低的SNR值，观察到递归层的优势。CRNN架构与CNN架构(取自Sainath等人，如C.1节中所述)的性能差距随SNR的增加而减小。这可能是因为递归层能够更好地适应单独样本的噪声特征，因为每个层处理来自整个帧的信息。相比之下，CNN要求用于该信息传播水平的宽的滤波器和/或高的深度。

5.远场稳健性

数据集已包括以不同的距离值记录的样本，这对于大多数应用(如对于智能电话KWS***)应是有代表性的。然而，一些应用(如智能家居KWS***)在远场条件下可能要求高性能。

图7描绘了根据本公开各种实施方式的针对具有不同的信噪比(SNR)值的远场测试集的每小时1误警(FA)的错误拒绝率(FRR)与附加距离之比，其中，实线对应于具有基线性能的实施方式，而虚线对应于具有远场增强训练的实施方式。图7示出了因对于所选择的CRNN模型实施方式的附加距离而导致的性能恶化。远场测试集是通过在给定距离(考虑到到达程度的不同值等)处用与各种配置对应的脉冲响应对原始测试集进行增强来构建的。性能的显著恶化特别是与较高的噪声结合而观察到。为了提供针对这种恶化的稳健性，可使用通过远场增强训练样本进行的训练，其中，远场增强训练样本使用与测试集中的脉冲响应不同的各种脉冲响应。这种增强在较远距离的性能中实现显著较少的恶化。然而，这因训练/测试失配而导致产生对于原始数据集的糟糕的性能。

D.一些结论

CRNN的各种实施方式针对小占用资源的KWS***进行实验。表现出模型尺寸与性能之间的权衡，并且表明了在考虑到权衡的情况下参数的优选选择的实施方式。一些模型实施方式的容量限制具有各种含义。在实施方式中，性能增益仅通过增加正样本的数量、但使用负对抗样本来限制，同时训练提高了性能。另外，应仔细选择训练集以反映应用环境，如噪声或远场条件。总体而言，以0.5FA/小时(从用户角度来看这是可接受的值)，对于分别具有5dB、10dB和20dB SNR值的测试装置，经测试的模型实施方式实现了97.71％、98.71％和99.3％的准确性。

E.***实施方式

在实施方式中，本公开各方面可针对或实现在信息处理***/计算***上。出于本公开的目的，计算***可包括任何机构或机构的集合，该任何机构或机构的集合可操作成通过计算机计算、计算、确定、分类、加工、传输、接收、检索、发起、路由、切换、存储、显示、通信、清单、检测、记录、复制、处理或利用任何形式的信息、情报或数据以用于商业、科学、控制或其它目的。例如，计算***可以是个人计算机(例如，笔记本电脑)、平板电脑、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能感测器、服务器(例如，刀片服务器或机架服务器)、网络存储装置或任何其它合适的装置，并且可在大小、形状、性能、功能和价格上出现变化。计算***可包括随机存取存储器(RAM)、如中央处理单元(CPU)或硬件或软件控制逻辑、ROM和/或其它类型的存储器的一个或多个处理资源。计算***的附加部件可包括一个或多个磁盘驱动器、用于与外部装置通信的一个或多个网络端口以及各种输入和输出(I/O)装置(诸如键盘、鼠标、触摸屏和/或视频显示器)。计算***还可包括一个或多个总线，一个或多个总线可操作成在各种硬件部件之间传输通信。

图8描绘了根据本公开各种实施方式的计算装置/信息处理***(或计算***)的简化框图。应理解，针对***800所示的功能可操作成支持信息处理***的各种实施方式--尽管这应被理解为信息处理***可被不同地配置并且包括不同的部件。

如图8中所示，***800包括一个或多个中央处理单元(CPU)801，一个或多个中央处理单元(CPU)801提供计算资源并控制计算机。CPU 801可用微处理器等来实现，并且还可包括一个或多个图形处理单元(GPU)817和/或一个或多个浮点协处理器以用于数学计算。***800还可以包括***存储器802，***存储器802可为随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图8中所示，还可提供多个控制器和***装置。输入控制器803表示与各种输入装置804(诸如键盘、鼠标或触控笔)的接口。还可存在有扫描器控制器805，扫描器控制器805与扫描器806通信。***800还可包括存储控制器807，存储控制器807用于与一个或多个存储装置808接口连接，其中，一个或多个存储装置808中的每个包括诸如磁带或磁盘的存储介质或者可用于记录用于操作***、实用程序以及应用的指令的光学介质，其中，用于操作***、实用程序以及应用的指令可包括实现本发明各方面的程序的实施方式。存储装置808还可用于存储经处理的数据或待根据本发明来处理的数据。***800还可包括显示控制器809，用于向显示装置811提供接口连接，其中，显示装置811可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器或其它类型的显示器。计算***800还可包括打印机控制器812，打印机控制器812用于与打印机813通信。通信控制器814可与一个或多个通信装置815接口连接，其中，一个或多个通信装置815使得***800能够通过各种网络中的任一网络或通过包括红外信号的任何合适的电磁载波信号与远程装置连接，其中，各种网络包括因特网、云资源(例如，以太网云、以太网上的光纤信道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)。

在所示的***中，所有主要***部件均可连接到总线816，其中，总线816可表示多于一个物理总线。然而，各种***部件可以或可以不彼此物理地接近。例如，输入数据和/或输出数据可从一个物理位置远程传输到另一个物理位置。另外，实现本发明各方面的程序可通过网络从远程位置(例如，服务器)访问。这种数据和/或程序可通过各种机器可读介质中的任一介质来输送，各种机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存装置和ROM和RAM装置的专门配置成存储或专门配置成存储并执行程序代码的硬件装置。

本发明实施方式可通过一个或多个处理器或处理单元的指令来编码在一个或多个非暂时性计算机可读介质上，以使得步骤被执行。应注意，一个或多个非暂时性计算机可读介质应包括易失性和非易失性存储器。应注意，替代性实现方式是可能的，包括硬件实现或软件/硬件实现。硬件实现的功能可使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“装置”术语旨在涵盖软件和硬件实现。相似地，如本文中所使用的术语“计算机可读介质或多个介质”包括具有在其上实现的指令程序的软件和/或硬件或其组合。考虑到这些实现方式的替代品，应理解，附图和所附描述提供了本领域技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以进行所需的程序所需的功能信息。

应注意，本发明实施方式还可涉及具有非暂时性有形计算机可读介质的计算机产品，其中，非暂时性有形计算机可读介质的计算机产品具有用于在其上进行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本发明的目的而专门设计和构造的介质和计算机代码，或者它们可以是相关领域的技术人员已知或可用的类型。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存装置和ROM和RAM装置的专门配置成存储或专门配置成存储并执行程序代码的硬件装置。计算机代码的示例包括如由编译器产生的机器代码、以及包含由使用解释器的计算机执行的更高级代码的文件。本发明实施方式可全部或部分地实现为机器可执行指令，机器可执行指令可处于由处理装置执行的程序模块中。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中，程序模块可物理地定位在本地、远程或两者的设置中。

本领域技术人员将认识到，没有计算***或编程语言对于本发明的实践是关键的。本领域技术人员还将认识到，上面描述的多个元件可物理地和/或功能性地分离成子模块或者组合在一起。

本领域技术人员将理解，前面的示例和实施方式是示例性的，并不限制于本公开的范围。本领域技术人员在阅读说明书并研究附图之后显而易见的所有变换、增强、等同物、组合和改进均包括在本公开的真实精神和范围内。还应注意，任何权利要求的元件可被不同地排列，包括具有多个依赖性、配置和组合。

Claims

1.用于训练小占用资源关键词检索模型架构的计算机实现的方法，所述方法包括：

接收一组音频样本，所述一组音频样本中的每个音频样本包括关键词，所述关键词已通过使用对齐方法进行对齐，所述对齐方法能够使用交叉熵损失函数；

将所述一组音频样本转换成谱图；

将所述谱图输入到一个或多个卷积层以生成卷积层输出，其中，所述一个或多个卷积层将多维滤波器应用于所述谱图；

在至少一个递归层中使用所述卷积层输出以生成递归层输出；

将所述递归层输出提供至一个或多个全连接层；

对所述一个或多个全连接层的输出应用非线性函数，以获得与所述一组音频样本中的样本包括所述关键词的概率对应的概率分数；以及

在交叉熵损失函数中使用所述概率分数以调整卷积层的一个或多个模型参数。

2.根据权利要求1所述的方法，其中，所述对齐方法包括：

将所述一组音频样本提供到语音模型以获得原始联结时序分类(CTC)输出分数；

修改所述原始联结时序分类输出分数以获得按照所述关键词字符的预期顺序的估计的字符出现概率；

使用所述估计的字符出现概率来获得与关键词中的开始字符和结束字符的峰值估计概率相关联的时间值，以识别所述关键词的开始时间和结束时间；

基于关键词的开始时间和结束时间中的至少一个，顺序地对齐所述关键词以获得经时间对齐的关键词；以及

使用所述经时间对齐的关键词中的至少一些作为训练样本来训练所述小占用资源关键词检索模型架构，以识别所述一组音频样本中的关键词。

3.根据权利要求2所述的方法，其中，对齐所述关键词以获得经时间对齐的关键词的步骤包括：

从所述一组音频样本中的所述关键词中裁剪不需要的声学数据。

4.根据权利要求2所述的方法，其中，修改所述原始联结时序分类输出分数的步骤包括：

将字符的所述预期顺序规定作为条件。

5.根据权利要求4所述的方法，还包括：

响应于条件被满足，调整一个或多个模型参数。

6.根据权利要求2所述的方法，其中，所述原始联结时序分类输出分数是大型语音识别***的输出。

7.根据权利要求1所述的方法，还包括：

使用硬负性挖掘以通过将不需要的样本识别和使用作为负样本来进一步训练模型，从而提高检测性能。

8.根据权利要求7所述的方法，其中，所述硬负性挖掘包括：

将数据集应用于所述模型以识别所述模型检测到误警的帧；以及

将所述帧使用作为所述负样本。

9.根据权利要求2所述的方法，其中，每个时间步骤的所述估计的字符出现概率从语音识别模型输入，其中所述语音识别模型对来自所述音频样本中的声学信号的字符进行映射。

10.根据权利要求2所述的方法，其中，所述一组音频样本通过将所述一组音频样本与一组脉冲响应相结合来增强，以构建远场训练测试集。

11.根据权利要求10所述的方法，其中，对于给定的距离，每个脉冲响应与表示不同的声学环境的音频信号相关联。

12.根据权利要求2所述的方法，其中，所述一组音频样本通过向所述一组音频样本添加失配信号来增强，以提高在失配信号存在的情况下的检测性能，从而提供针对由嘈杂环境引起的对齐误差的稳健性。

13.根据权利要求12所述的方法，其中，所述失配信号包括噪声信号和随机抖动中的至少一种。

14.用于使用小占用资源关键词检索模型来检测关键词的方法，所述方法包括：

接收音频数据；

将所述音频数据输入到已通过使用训练方法、使用交叉熵损失训练的卷积递归神经网络(CRNN)中以检测音频样本中的目标关键词，其中，所述训练方法包括：

接收一组音频样本，所述一组音频样本中的每个音频样本包括所述目标关键词；

将所述音频样本中的所述目标关键词对齐以能够使用交叉熵损失函数；

将所述一组音频样本转换成谱图以获得特征；

对卷积层使用所述特征以生成卷积层输出，其中，所述卷积层将多维滤波器应用于所述谱图；

将所述递归层输出提供至一个或多个全连接层；

对所述一个或多个全连接层的输出应用非线性函数，以获得与所述一组音频样本中的样本包括所述目标关键词的概率对应的概率分数；以及

在交叉熵损失函数中使用所述概率分数来调整卷积层的模型参数。

15.根据权利要求14所述的方法，其中，所述训练方法包括：

向所述一组音频样本添加失配以增强在所述失配存在的情况下的检测性能，从而提供针对对齐误差、嘈杂环境和远场失真中的一种的稳健性。

16.根据权利要求14所述的方法，其中，所述训练方法包括：

17.根据权利要求16所述的方法，其中，所述硬负性挖掘包括：

将所述帧使用作为所述负样本。

18.一种非暂时性计算机可读介质，包括一个或多个指令序列，所述一个或多个指令序列在由一个或多个微处理器执行时，使得以下步骤被执行，其中，所述步骤包括：

将所述一组音频样本转换成谱图；

将所述谱图输入到卷积层以生成卷积层输出，其中，所述卷积层将多维滤波器应用于所述谱图；

将所述递归层输出提供至一个或多个全连接层；

19.根据权利要求18所述的非暂时性计算机可读介质，其中，所述对齐方法包括：

将所述一组音频样本提供到语音模型以获得原始联结时序分类输出分数；

20.根据权利要求18所述的非暂时性计算机可读介质，其中，所述一组音频样本通过远场测试集、噪声信号和随机抖动中的至少一种来增强。