CN106098059B

CN106098059B - 可定制语音唤醒方法及***

Info

Publication number: CN106098059B
Application number: CN201610462976.XA
Authority: CN
Inventors: 俞凯; 钱彦旻; 庄毅萌; 陈哲怀; 常烜恺
Original assignee: Shanghai Jiaotong University
Current assignee: Sipic Technology Co Ltd
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2019-06-18
Anticipated expiration: 2036-06-23
Also published as: CN106098059A

Abstract

一种可定制语音唤醒方法及***，通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练，采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索，从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性，即高准确率，低误唤醒，另一方面对应用***的计算资源消耗相对较少。

Description

可定制语音唤醒方法及***

技术领域

本发明涉及的是一种计算机辅助控制领域的技术，具体是一种基于长短时记忆网络(LSTM)和连接时序分类模型(CTC)的可定制语音唤醒方法及***。

背景技术

近年来，随着信息技术的发展，包括语音在内多媒体信息技术越来越成为研究的关注热点。语言唤醒技术是语音识别中的一个重要领域，并被广泛应用于语音命令控制***中。一个可定制的语音唤醒(Voice Wake-up)***的任务是从一段连续的语音中自动发现并定位一些事先指定的命令词(唤醒词)。可定制的特性体现在唤醒词检测模型不依赖于用户指定的唤醒词，从而实现无需修改模型即可方便更改用户唤醒词。相反，非可定制的唤醒技术与指定的唤醒词有关，唤醒词固定，无法轻易变更唤醒词。语音唤醒与连续语音识别关系密切，但语音唤醒技术并不要求将完整的语音句子全部识别出来，而是仅关心用户指定的关键信息。因此，唤醒技术降低了对识别***的要求。与传统的文本态文档比较，语音数据作为一种对声音的编码形式，使得语音信息成为一种对于计算机来说更加难以直接检索和提取有效信息的数据形态。此外由于多种潜在的因素(如背景噪声、说话人口音等)，也使得开发出一套有效的语音唤醒***变得更加复杂和困难。主要的语音唤醒技术包括早期的动态时间规整法，如今的基于隐马尔科夫模型的方法，以及基于深度学习的方法。

发明内容

本发明针对现有技术中唤醒词无法定制且依赖预设语言模型的不足，提出一种可定制语音唤醒方法及***，利用CTC模型输出后验概率稀疏的特点进行高效搜索，从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性能(准确率、召回率)，高准确率，低误唤醒，另一方面对应用***的计算资源消耗相对较少。

本发明是通过以下技术方案实现的：

本发明涉及一种可定制语音唤醒方法，包括以下步骤：

步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模；

步骤2)对模型进行训练：将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征，模型将特征数据作为输入，将标注的音素信息作为输出，在海量数据下通过深度学习的方法完成模型各参数量的训练，得到可使用的长短时记忆网络和连接时序分类模型；

步骤3)采用训练后模型进行测试：对测试语音做同样的预处理和特征提取，并输入模型，模型将输出每一帧所有建模单元，即音素可能出现的后验概率；

步骤4)唤醒词搜索：通过在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。

所述的最相似的可能音素序列H_max，通过判断音素序列在语音中的出现概率，即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到，具体为：

其中：P(T)为目标音素序列T，T＝{t₁,t₂,···,t_n}的观察概率，t_i表示T中的第i个音素，i为1～n；

目标音素序列T位于CTC音素网格结构中的所有音素序列的概率为：

P(T|L_H)∝P(L_H|T)P(T)≈P(H_max|T)P(T)，其中：L_H表示CTC音素网格结构中的所有音素序列，而可能音素序列H_max即为T已知时L_H中的最高概率。

P(H)为音素序列H，H＝{n_ij1,n_(i+1)j2,···,n_(i+m-1)jm}的观察概率，n_ij为lattice网格结构中第i栏第j列的音素，音素序列H也可以表示为H＝{h₁,h₂,···,h_m},其中：h_k＝n_(i+k-1)jk；

P(H)通过unigram假设，即累积乘音素序列中每个音素的后验概率获得，具体为：

P(T/H)为目标音素序列T和音素序列H之间的相似程度，即目标音素序列和假设序列之间的每个编辑操作的概率之积作为衡量音素序列相似性的指标，MED(T,H)表示目标音素序列T和音素序列H的最少编辑操作次数，P(op_i|R＝T，E＝H)表示当参考音素序列R为T时猜测音素序列E为H时，序列E和R之间的第i次编辑操作op_i的概率。

所述的编辑操作是指：***、删除和替换操作，其概率，即P(insert(e_i))、P(delete(r_i))和P(r_i/e_i)直接由先验知识得出，r_i和e_i分别取自参考音素序列R和猜测音素序列E。

本发明涉及一种实现上述方法的可定制语音唤醒***，包括：声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块，其中：声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息，记忆网络模块与分类模型模块相连并传输音素后验信息，分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列，唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解，决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果。

所述的唤醒词搜索模块采用基于连接时序分类(Connectionist TemporalClassification,CTC)模型的Lattice网络结构，其中包含了所有可能的语音识别结果及其概率。技术效果

本发明相比较传统方法主要有以下不同：

附图说明

图1为本发明***结构示意图；

图2为神经网络结构示意图；

图2中给出了不同手机对应的后验概率，下半部分的网格中的实线表示潜在路径，虚线表示所有有效连接。

具体实施方式

本实施例包括：声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块，其中：声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息，记忆网络模块与分类模型模块相连并传输音素后验信息，分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列，唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解，决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果。

本实施例涉及上述***的语音唤醒方法，具体包括以下步骤：

步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模，具体步骤包括：

1.1)确定模型结构：根据应用场景设备的计算能力预估模型复杂度，由于计算复杂度与模型的参数量正相关，因此首先要设定参数量的上限，例如不超过5.5M大小。然后在此限定下指定网络结构，例如使用3隐层网络，每次256个节点，投影为96个节点。

1.2)初始化长短时记忆网络：使用随机初始化的参数，也可以通过modeltransferring方式初始化，由于随机初始化会造成之后CTC训练困难的问题，这里推荐使用cross entropy准则预训练一个标准的声学长短时记忆网络，然后通过复制参数的方式初始化模型。

步骤2)对模型进行训练：将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征，模型将特征数据作为输入，将标注的音素信息作为输出，在海量数据下通过深度学习的方法完成模型各参数量的训练，得到可使用的长短时记忆网络和连接时序分类模型，具体步骤包括：

2.1)对训练数据提取fbank，即Filter-bank声学特征。

2.2)使用随机梯度下降方式完成模型的训练，训练参数需根据模型结构以及训练数据大小设定，例如对于上述例子中的模型，可采用0.00001的学习率，动量值为0.9，batch大小256等等。

步骤3)采用训练后模型进行测试：对测试语音做同样的预处理和特征提取，并输入模型，模型将输出每一帧所有建模单元可能出现的后验概率，具体步骤包括：

3.1)对测试数据提取fbank声学特征，特征提取过程要求与训练数据特征提取一致。

3.2)将提取的特征逐帧输入训练得到的模型，直接计算出每一帧的后验概率。

步骤4)唤醒词搜索：通过在生成的lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据，具体步骤包括：

4.1)对每一句测试语音生成lattice网络结构，扫描每一帧“空白”的后验概率，当其后验低于预设值，例如0.8，那么认为这帧为一个尖峰。在找出一句话的所有尖峰后，将时间上连续的尖峰合并为一个尖峰，对于每个尖峰，选择出这一帧上后验概率较大的音素，例如后验概率大于0.005的音素，组成lattice网络结构中的一列；在构造出所有列后，两两连接lattice中相邻两列中的每个节点音素，得到所需lattice网络结构。

4.2)根据前面提到的搜索算法公式，在生成的lattice网络结构上执行搜索算法，找到与目标音素序列最相似的音素序列。

4.3)计算找到的音素序列的观察概率与相似程度的乘积，并与设置的阈值做比较，若大于阈值，则判断测试语音包含唤醒词，否则不唤醒。

本实施例与现有技术的对比结果如下表：

其中LSTM-CTC KWS为本发明提出的方法。表格中展示了本方法和目前处理可定制唤醒词的主流方法HMM的对比结果，性能指标EER为平均相等错误率，FOM是错误唤醒在0至10范围内唤醒率的平均值，EER越小越好，FOM越大越好。同时表格也说明了每个模型的参数量。实验中使用标准的WSJ0数据集，使用了50个唤醒词做测试。可以看到，本发明提出的方法明显优于传统的GMM-HMM、DNN-HMM方法，且参数量更少。

综上所述，与现有技术相比本发明基于唤醒词置信度与阈值的比较以判别是否唤醒。由于可定制唤醒***不限定唤醒词，对于不同唤醒词所使用的阈值也很难统一，所以这里提出了一种针对不同唤醒词自动估计阈值的方法，一定程度上解决阈值难以统一的问题，从而提升***唤醒的准确性；此外，本发明基于CTC的lattice网格规模更小，同时尽可能保留了有用信息。在此基础上提出的搜索算法，利用了音素序列的观察概率和与目标序列相似程度两方面信息，通过动态规划实现高效搜索唤醒词的目标，算法的时间和空间复杂度较低，但准确性很高。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种可定制语音唤醒方法，其特征在于，包括以下步骤：

步骤2)对模型进行训练：将事先收集并标注好的音频数据首先要经过信号处理方法做预处理并提取可供模型训练的声学特征，模型将特征数据作为输入，将标注的音素信息作为输出，在海量数据下通过深度学习的方法完成模型各参数量的训练，得到可使用的长短时记忆网络和连接时序分类模型；

步骤4)唤醒词搜索：通过在Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据，其中：最相似的可能音素序列H_max，通过判断音素序列在语音中的出现概率，即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到，具体为：

其中：P(T)为目标音素序列T，T＝{t₁,t₂,…,t_i,…,t_n}的观察概率，t_i表示T中的第i个音素，i为1～n；

目标音素序列T位于连接时序分类音素网格结构中的所有音素序列的概率为：

P(T|L_H)∝P(L_H|T)P(T)≈P(H_max|T)P(T)，其中：L_H表示连接时序分类音素网格结构中的所有音素序列，而可能音素序列H_max即为T已知时L_H中的最高概率；

P(H)为音素序列H，H＝{n_ij1,n_(i+1)j2,…,n_(i+k-1)jk,…,n_(i+m-1)jm}的观察概率，n_ij为lattice网格结构中第i栏第j列的音素，音素序列H表示为H＝{h₁,h₂,…,h_k,…,h_m},其中：h_k＝n_(i+k-1)jk；

2.根据权利要求1所述的可定制语音唤醒方法，其特征是，所述的编辑操作是指：***、删除和替换操作，其概率，即P(insert(e_i))、P(delete(r_i))和P(r_i/e_i)直接由先验知识得出，r_i和e_i分别取自参考音素序列R和猜测音素序列E。

3.根据权利要求1所述的可定制语音唤醒方法，其特征是，所述的步骤1)包括：

1.1)确定模型结构：根据应用场景设备的计算能力预估模型复杂度，首先设定参数量的上限，然后在此限定下指定网络结构；

1.2)初始化长短时记忆网络：使用随机初始化的参数或model transferring方式初始化。

4.根据权利要求3所述的可定制语音唤醒方法，其特征是，所述的初始化长短时记忆网络，使用cross entropy准则预训练一个标准的声学长短时记忆网络，然后通过复制参数的方式初始化模型。

5.根据权利要求1所述的可定制语音唤醒方法，其特征是，所述的步骤2)包括：

2.1)对训练数据提取fbank，即Filter-bank声学特征；

2.2)使用随机梯度下降方式完成模型的训练，训练参数需根据模型结构以及训练数据大小设定。

6.根据权利要求1所述的可定制语音唤醒方法，其特征是，所述的步骤3)包括：

3.1)对测试数据提取fbank声学特征，特征提取过程要求与训练数据特征提取一致；

7.根据权利要求1所述的可定制语音唤醒方法，其特征是，所述的步骤4)包括：

4.1)对每一句测试语音生成lattice网络结构，扫描每一帧空白的后验概率，当其后验低于预设值时判定该帧为一个尖峰，将一句话中时间上连续的尖峰合并为一个尖峰，对于每个合并后的尖峰，选择出这一帧上后验概率超过预设值的音素以组成lattice网络结构中的一列；在构造出所有列后，两两连接lattice中相邻两列中的每个节点音素，得到所需lattice网络结构；

4.2)在生成的lattice网络结构上执行搜索与定制，找到与目标音素序列最相似的音素序列；

4.3)计算找到的音素序列的观察概率与相似程度的乘积，并与设置的阈值做比较，当大于阈值，则判断测试语音包含唤醒词，否则不唤醒。

8.一种实现权利要求1～7中任一所述方法的可定制语音唤醒***，其特征在于，包括：声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块，其中：声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息，记忆网络模块与分类模型模块相连并传输音素后验信息，分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列，唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解，决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果；

所述的唤醒词搜索模块采用基于连接时序分类模型的Lattice网络结构，其中包含了所有可能的语音识别结果及其概率。