CN106847259B

CN106847259B - 一种音频关键词模板的筛选和优化方法

Info

Publication number: CN106847259B
Application number: CN201510882805.8A
Authority: CN
Inventors: 徐及; 张舸; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2020-04-03
Anticipated expiration: 2035-12-03
Also published as: CN106847259A

Abstract

本发明提供一种音频关键词模板的筛选和优化方法，所述方法包括：步骤1)对每个音频关键词模板样本进行特征提取，将所提取的特征通过一个深层神经网络，计算在一个给定音素集上全部音素的后验概率；步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数；步骤3)计算每个音频关键词模板的上述三种分数的加权平均值，记为平均分数；步骤4)按照平均分数从大到小的顺序进行排序，选取前L个音频关键词模板作为代表性发音模板；步骤5)对每个代表性发音模板进行处理，调整其发音序列上每一帧的各发音单元的后验概率，并最小化模板的邻域相似性分数；生成优化的L个音频检索词模板。

Description

一种音频关键词模板的筛选和优化方法

技术领域

本发明属于语音识别领域，具体地说，涉及一种音频关键词模板的筛选和优化方法。

背景技术

关键词检索任务是快速地从大规模、多样性的语音数据中找到给定的关键词所在的位置。在基于语音片段的关键词检索任务中，待检索关键词以一组音频片段模板的形式给出。这些片段通常来自不同的说话人或提取自不同的上下文，因此在包含的信息上有所区别。为了获得具有较好的泛化性的检索结果，即为了能够处理待检索语音中出现的来自不同说话人或具有不同上下文的关键词，需要充分利用某个关键词的尽可能多的音频片段。传统的做法是对属于单个关键词的所有模板进行平均，获得单一模板，将其作为该关键词的模板进行检索操作。

然而在实际的任务中，关键词的不同音频片段往往在质量上有很大的差异，这些差异可能来自噪声、信道不匹配、标记错误等因素。这样的音频片段可能不具有足够的区分性，因此如果将其直接引入关键词检索过程，可能导致***的检索性能降低。

发明内容

本发明的目的在于克服目前语音关键词模板匹配的检索***中存在的上述问题，提出一种音频关键词模板的筛选和优化方法，该方法制定了一种衡量模板质量的标准，并利用该标准对选取的音频关键词模板进行筛选，得到代表性模板，最后对这些代表性模板进行优化，获取到最终的质量更高的音频关键词模板；用该方法得到的音频关键词模板进行音频检索时，能够提高检索的性能。

为了实现上述目的，本发明提供了一种音频关键词模板的筛选和优化方法，所述方法包括：

步骤1)对每个音频关键词模板样本进行特征提取，将所提取的特征通过一个深层神经网络，计算在一个给定音素集上全部音素的后验概率；

步骤2)基于步骤1)生成的后验概率，计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数；

步骤3)计算每个音频关键词模板的上述三种分数的加权平均值，记为平均分数；

步骤4)按照平均分数从大到小的顺序进行排序，选取前L个音频关键词模板作为代表性发音模板；

步骤5)对每个代表性发音模板进行处理，调整其发音序列上每一帧的各发音单元的后验概率，并最小化模板的邻域相似性分数；生成优化的L个音频检索词模板。

上述技术方案中，所述步骤1)的音素集为采用基于国际音标***的通用音素集或采用目标语言的特定音素集。

上述技术方案中，所述步骤1)的特征提取中所涉及的特征为语音识别特征；所述语音识别特征为梅尔频率倒谱系数或感知线性预测。

上述技术方案中，所述步骤5)具体包括：

步骤501)选取一条代表性发音模板为当前模板q；设置迭代次数初始值N＝0；

步骤502)计算当前模板q和所有音频关键词模板的动态时间规整距离，选取距离最小的K个模板，组成集合Q_N；

步骤503)利用步骤502)选取的K个模板计算当前模板q的LS分数；设置初始学习率λ＝λ₀；

步骤504)对当前模板q的第i帧的声学单元j，对这一帧的后验概率做变换：

对每个i和j的组合，将修改之后的模板作为一个候选模板q_ij，共有i×j个候选模板；

步骤505)利用步骤502)选取的K个模板计算所有候选模板q_ij的LS分数，选出LS分数最小的一个候选模板为q_best；如果当前模板q的LS分数与q_best的分数的差的绝对值超过了预设的阈值∈，用q_best替换当前模板q，转到步骤504)；否则，学习率λ减半，转到步骤506)；

步骤506)判断学习率λ是否大于预设的阈值λ_T，如果判断结果是肯定的，转到步骤504)；否则，进入步骤507)；

步骤507)判断N是否小于最大迭代次数N₀，如果判断结果是肯定的，转到步骤508)；否则，转到步骤509)；

步骤508)判断集合Q_N和集合Q_N-1是否相同，如果判断结果是肯定的，转到步骤509)；否则，令N＝N+1，转入步骤502)；

步骤509)保存当前模板q；转入步骤501)，直至所有的代表性发音模板处理完毕。

本发明的优点在于：

1、在检索过程中，本发明的方法通过对输入语音模板的自动处理，减小输入的不确定性，获得更稳定的输入，从而提升***的输入适应性，同时为后续处理过程中的优化提供更多可能；

2、采用本发明的方法获得的用品关键词模板能够更好地处理多模板关键词的检索任务，在模板质量不稳定的情况下也能获得良好的检索效果，同时相比传统的模板平均方法，能够以更小的计算量获得更好的检索性能。

附图说明

图1为本发明的音频关键词模板的筛选和优化方法的流程图。

具体实施方式

本发明的方法应用于基于音频模板的语音关键词检索***前端。首先将关键词检索***的语音样例模板通过声学模型前端转换成概率分布的序列，然后计算序列内部的概率分布稳定性和序列间的相似性。据此可以对每个模板的质量作出评价。进一步，根据质量评价标准，选出最具有代表性的若干个模板，并对这些模板的概率分布进行调整，获得较原始模板质量更高的新模板。这些模板将作为关键词的模板用于后续检索过程。

下面结合附图和具体实施例对本发明作进一步描述。

如图1所示，一种音频关键词模板的筛选和优化方法，所述方法包括：

步骤1)对每个音频关键词模板样本进行特征提取，将所提取的特征通过一个深层神经网络(Deep Neural Network)，计算在一个给定音素集上全部音素的后验概率；

其中，所述音素集为采用基于国际音标***的通用音素集或采用目标语言的特定音素集；所述深层神经网络预先基于若干种语言的数据训练产生。

计算后验概率是将音频关键词模板转化为帧级音素后验概率；因此在特征提取前，首先对音频关键词模板进行分帧操作，所述分帧操作是在输入语音流上，以25毫秒为帧长、10毫秒为帧移，进行时域上的切分；所述特征提取中所涉及的特征为语音识别特征：梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)或感知线性预测(Perceptual Linear Prediction，PLP)；然后，这些特征被送入所述深层神经网络生成特定音素集状态的后验概率；该后验概率满足如下条件：

假设p_i,s(t)为第t帧时音素i(1≤i≤M)、状态s(1≤s≤S)的后验概率，则音素后验概率p_i(t)为该音素所有状态的概率和，即：

并满足：

所述后验概率稳定性分数用于描述模板后验概率在声学状态上分布的稳定程度。为了计算此分数，首先对模板后验概率序列进行分段，每个分段近似对应一个音素；在每个分段上选取前N个后验概率最高的发音单元，计算后验概率稳定性分数：

上式中，S表示模板分段数，b_i和e_i分别表示分段i的起点和终点，p_j,top(i,n)是第j帧上声学状态top(i,n)的后验概率，top(i,n)表示分段i上后验概率第n大的状态,；该分数描述的是模板的后验概率是否稳定。实验证明，后验概率稳定性分数较低的模板在检索过程中通常带来更高的虚警率，因此，这一分数可以作为衡量模板质量的依据。

所述发音可靠性分数用于描述根据后验概率给出的最优声学单元序列的可靠程度。对模板后验概率序列按照前段所述的方法进行分段，然后列出每个分段上后验概率最高的音素。对属于同一关键词的两个模板，计算其编辑距离：

c(q_i,q_j)＝max(1-aN_sub-b(N_ins+N_del))

式中N_sub、N_ins和N_del分别代表替换错误、***错误和删除错误。参数b>a，这种取法代表更重视长度不一致，而接受一定的相似发音混淆。由此，定义发音可靠性分数为：

这一分数描述属于同一关键词的模板之间发音的相似性，由此筛选出发音异常的模板，这些模板通常不应作为匹配的依据。

所述邻域相似性分数用于描述属于同一关键词的模板之间后验概率序列的相似性；定义为距当前模板最近的K个模板到当前模板的平均距离：

这一分数描述的是一个模板与临近模板的相似程度；这将作为后续聚类过程中的依据。

三种分数的权重根据实际情况进行设定。

步骤4)对每个音频关键词的模板按平均分数从大到小排序，选出前L个音频关键词模板作为代表性发音模板；

步骤5)对代表性发音模板进行迭代，调整发音序列上每一帧的各发音单元的后验概率，并最小化模板的邻域相似性分数；生成最终的音频检索词模板；具体包括：

步骤502)计算当前模板q和所有音频关键词模板的动态时间规整(Dynamic TimeWarping，DTW)距离，选取距离最小的K个模板，组成集合Q_N；

步骤504)对当前模板q的第i帧的声学单元j，对这一帧的后验概率做如下的操作：

步骤505)利用步骤502)选取的K个模板计算所有候选模板q_ij的LS分数，选出LS分数最小的一个候选模板为q_best；如果当前模板q的LS分数与q_best的分数的差的绝对值超过了预设的阈值∈，用q_best替换当前模板q，跳到步骤504)；否则，学习率λ减半，跳到步骤506)；

上述步骤的优化目标是模板的邻域相似性分数。通常情况下，随着模板邻域相似性分数的提高，其后验概率稳定性分数也会提高，原因是模板间的共性越多，其发音单元层面的差异也会减小。而且后验概率稳定性分数通常不会改变，因为同一聚类中的模板发音通常相似。所以通过步骤5)可以获得质量更高的模板，用于后续检索。

实验证明，在通常的基于动态时间规整的语音关键词检索***中，仅通过基于模板质量评分的筛选方法选出关键词的最优模板，可以将关键词检索的F-分数从27.05提升到35.08；再加入模板质量提升的方法之后，可以将F-分数提升到46.10。

Claims

1.一种音频关键词模板的筛选和优化方法，所述方法包括：

所述后验概率稳定性分数用于描述模板后验概率在声学状态上分布的稳定程度；首先对模板后验概率序列进行分段，每个分段近似对应一个音素；在每个分段上选取前N个后验概率最高的发音单元，计算后验概率稳定性分数：

上式中，S表示模板分段数，b_i和e_i分别表示分段i的起点和终点，p_{j，top(i，n)}是第j帧上声学状态top(i，n)的后验概率，top(i，n)表示分段i上后验概率第n大的状态；

所述发音可靠性分数用于描述根据后验概率给出的最优声学单元序列的可靠程度；对模板后验概率序列按照前段所述的方法进行分段，然后列出每个分段上后验概率最高的音素；对属于同一关键词的两个模板，计算其编辑距离：

c(q_i，q_j)＝max(1-aN_sub-b(N_ins+N_del))

式中，q_i，q_j表示属于同一关键词的两个模板，N_sub、N_ins和N_del分别代表替换错误、***错误和删除错误；参数b＞a，由此，定义发音可靠性分数为：

2.根据权利要求1所述的音频关键词模板的筛选和优化方法，其特征在于，所述步骤1)的音素集为采用基于国际音标***的通用音素集或采用目标语言的特定音素集。

3.根据权利要求1所述的音频关键词模板的筛选和优化方法，其特征在于，所述步骤1)的特征提取中所涉及的特征为语音识别特征；所述语音识别特征为梅尔频率倒谱系数或感知线性预测。

4.根据权利要求1所述的音频关键词模板的筛选和优化方法，其特征在于，所述步骤5)具体包括：

步骤503)利用步骤502)选取的K个模板计算当前模板q的邻域相似性分数；设置初始学习率λ＝λ₀；

其中，p_ik为第i帧的声学单元k的后验概率，

为变换后的后验概率；对每个i和j的组合，将修改之后的模板作为一个候选模板q_ij，共有i×j个候选模板；