CN106847259B - 一种音频关键词模板的筛选和优化方法 - Google Patents
一种音频关键词模板的筛选和优化方法 Download PDFInfo
- Publication number
- CN106847259B CN106847259B CN201510882805.8A CN201510882805A CN106847259B CN 106847259 B CN106847259 B CN 106847259B CN 201510882805 A CN201510882805 A CN 201510882805A CN 106847259 B CN106847259 B CN 106847259B
- Authority
- CN
- China
- Prior art keywords
- template
- posterior probability
- templates
- score
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
Description
技术领域
本发明属于语音识别领域,具体地说,涉及一种音频关键词模板的筛选和优化方法。
背景技术
关键词检索任务是快速地从大规模、多样性的语音数据中找到给定的关键词所在的位置。在基于语音片段的关键词检索任务中,待检索关键词以一组音频片段模板的形式给出。这些片段通常来自不同的说话人或提取自不同的上下文,因此在包含的信息上有所区别。为了获得具有较好的泛化性的检索结果,即为了能够处理待检索语音中出现的来自不同说话人或具有不同上下文的关键词,需要充分利用某个关键词的尽可能多的音频片段。传统的做法是对属于单个关键词的所有模板进行平均,获得单一模板,将其作为该关键词的模板进行检索操作。
然而在实际的任务中,关键词的不同音频片段往往在质量上有很大的差异,这些差异可能来自噪声、信道不匹配、标记错误等因素。这样的音频片段可能不具有足够的区分性,因此如果将其直接引入关键词检索过程,可能导致***的检索性能降低。
发明内容
本发明的目的在于克服目前语音关键词模板匹配的检索***中存在的上述问题,提出一种音频关键词模板的筛选和优化方法,该方法制定了一种衡量模板质量的标准,并利用该标准对选取的音频关键词模板进行筛选,得到代表性模板,最后对这些代表性模板进行优化,获取到最终的质量更高的音频关键词模板;用该方法得到的音频关键词模板进行音频检索时,能够提高检索的性能。
为了实现上述目的,本发明提供了一种音频关键词模板的筛选和优化方法,所述方法包括:
步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;
步骤2)基于步骤1)生成的后验概率,计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;
步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;
步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;
步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
上述技术方案中,所述步骤1)的音素集为采用基于国际音标***的通用音素集或采用目标语言的特定音素集。
上述技术方案中,所述步骤1)的特征提取中所涉及的特征为语音识别特征;所述语音识别特征为梅尔频率倒谱系数或感知线性预测。
上述技术方案中,所述步骤5)具体包括:
步骤501)选取一条代表性发音模板为当前模板q;设置迭代次数初始值N=0;
步骤502)计算当前模板q和所有音频关键词模板的动态时间规整距离,选取距离最小的K个模板,组成集合QN;
步骤503)利用步骤502)选取的K个模板计算当前模板q的LS分数;设置初始学习率λ=λ0;
步骤504)对当前模板q的第i帧的声学单元j,对这一帧的后验概率做变换:
对每个i和j的组合,将修改之后的模板作为一个候选模板qij,共有i×j个候选模板;
步骤505)利用步骤502)选取的K个模板计算所有候选模板qij的LS分数,选出LS分数最小的一个候选模板为qbest;如果当前模板q的LS分数与qbest的分数的差的绝对值超过了预设的阈值∈,用qbest替换当前模板q,转到步骤504);否则,学习率λ减半,转到步骤506);
步骤506)判断学习率λ是否大于预设的阈值λT,如果判断结果是肯定的,转到步骤504);否则,进入步骤507);
步骤507)判断N是否小于最大迭代次数N0,如果判断结果是肯定的,转到步骤508);否则,转到步骤509);
步骤508)判断集合QN和集合QN-1是否相同,如果判断结果是肯定的,转到步骤509);否则,令N=N+1,转入步骤502);
步骤509)保存当前模板q;转入步骤501),直至所有的代表性发音模板处理完毕。
本发明的优点在于:
1、在检索过程中,本发明的方法通过对输入语音模板的自动处理,减小输入的不确定性,获得更稳定的输入,从而提升***的输入适应性,同时为后续处理过程中的优化提供更多可能;
2、采用本发明的方法获得的用品关键词模板能够更好地处理多模板关键词的检索任务,在模板质量不稳定的情况下也能获得良好的检索效果,同时相比传统的模板平均方法,能够以更小的计算量获得更好的检索性能。
附图说明
图1为本发明的音频关键词模板的筛选和优化方法的流程图。
具体实施方式
本发明的方法应用于基于音频模板的语音关键词检索***前端。首先将关键词检索***的语音样例模板通过声学模型前端转换成概率分布的序列,然后计算序列内部的概率分布稳定性和序列间的相似性。据此可以对每个模板的质量作出评价。进一步,根据质量评价标准,选出最具有代表性的若干个模板,并对这些模板的概率分布进行调整,获得较原始模板质量更高的新模板。这些模板将作为关键词的模板用于后续检索过程。
下面结合附图和具体实施例对本发明作进一步描述。
如图1所示,一种音频关键词模板的筛选和优化方法,所述方法包括:
步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络(Deep Neural Network),计算在一个给定音素集上全部音素的后验概率;
其中,所述音素集为采用基于国际音标***的通用音素集或采用目标语言的特定音素集;所述深层神经网络预先基于若干种语言的数据训练产生。
计算后验概率是将音频关键词模板转化为帧级音素后验概率;因此在特征提取前,首先对音频关键词模板进行分帧操作,所述分帧操作是在输入语音流上,以25毫秒为帧长、10毫秒为帧移,进行时域上的切分;所述特征提取中所涉及的特征为语音识别特征:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)或感知线性预测(Perceptual Linear Prediction,PLP);然后,这些特征被送入所述深层神经网络生成特定音素集状态的后验概率;该后验概率满足如下条件:
假设pi,s(t)为第t帧时音素i(1≤i≤M)、状态s(1≤s≤S)的后验概率,则音素后验概率pi(t)为该音素所有状态的概率和,即:
并满足:
步骤2)基于步骤1)生成的后验概率,计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;
所述后验概率稳定性分数用于描述模板后验概率在声学状态上分布的稳定程度。为了计算此分数,首先对模板后验概率序列进行分段,每个分段近似对应一个音素;在每个分段上选取前N个后验概率最高的发音单元,计算后验概率稳定性分数:
上式中,S表示模板分段数,bi和ei分别表示分段i的起点和终点,pj,top(i,n)是第j帧上声学状态top(i,n)的后验概率,top(i,n)表示分段i上后验概率第n大的状态,;该分数描述的是模板的后验概率是否稳定。实验证明,后验概率稳定性分数较低的模板在检索过程中通常带来更高的虚警率,因此,这一分数可以作为衡量模板质量的依据。
所述发音可靠性分数用于描述根据后验概率给出的最优声学单元序列的可靠程度。对模板后验概率序列按照前段所述的方法进行分段,然后列出每个分段上后验概率最高的音素。对属于同一关键词的两个模板,计算其编辑距离:
c(qi,qj)=max(1-aNsub-b(Nins+Ndel))
式中Nsub、Nins和Ndel分别代表替换错误、***错误和删除错误。参数b>a,这种取法代表更重视长度不一致,而接受一定的相似发音混淆。由此,定义发音可靠性分数为:
这一分数描述属于同一关键词的模板之间发音的相似性,由此筛选出发音异常的模板,这些模板通常不应作为匹配的依据。
所述邻域相似性分数用于描述属于同一关键词的模板之间后验概率序列的相似性;定义为距当前模板最近的K个模板到当前模板的平均距离:
这一分数描述的是一个模板与临近模板的相似程度;这将作为后续聚类过程中的依据。
步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;
三种分数的权重根据实际情况进行设定。
步骤4)对每个音频关键词的模板按平均分数从大到小排序,选出前L个音频关键词模板作为代表性发音模板;
步骤5)对代表性发音模板进行迭代,调整发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成最终的音频检索词模板;具体包括:
步骤501)选取一条代表性发音模板为当前模板q;设置迭代次数初始值N=0;
步骤502)计算当前模板q和所有音频关键词模板的动态时间规整(Dynamic TimeWarping,DTW)距离,选取距离最小的K个模板,组成集合QN;
步骤503)利用步骤502)选取的K个模板计算当前模板q的LS分数;设置初始学习率λ=λ0;
步骤504)对当前模板q的第i帧的声学单元j,对这一帧的后验概率做如下的操作:
对每个i和j的组合,将修改之后的模板作为一个候选模板qij,共有i×j个候选模板;
步骤505)利用步骤502)选取的K个模板计算所有候选模板qij的LS分数,选出LS分数最小的一个候选模板为qbest;如果当前模板q的LS分数与qbest的分数的差的绝对值超过了预设的阈值∈,用qbest替换当前模板q,跳到步骤504);否则,学习率λ减半,跳到步骤506);
步骤506)判断学习率λ是否大于预设的阈值λT,如果判断结果是肯定的,转到步骤504);否则,进入步骤507);
步骤507)判断N是否小于最大迭代次数N0,如果判断结果是肯定的,转到步骤508);否则,转到步骤509);
步骤508)判断集合QN和集合QN-1是否相同,如果判断结果是肯定的,转到步骤509);否则,令N=N+1,转入步骤502);
步骤509)保存当前模板q;转入步骤501),直至所有的代表性发音模板处理完毕。
上述步骤的优化目标是模板的邻域相似性分数。通常情况下,随着模板邻域相似性分数的提高,其后验概率稳定性分数也会提高,原因是模板间的共性越多,其发音单元层面的差异也会减小。而且后验概率稳定性分数通常不会改变,因为同一聚类中的模板发音通常相似。所以通过步骤5)可以获得质量更高的模板,用于后续检索。
实验证明,在通常的基于动态时间规整的语音关键词检索***中,仅通过基于模板质量评分的筛选方法选出关键词的最优模板,可以将关键词检索的F-分数从27.05提升到35.08;再加入模板质量提升的方法之后,可以将F-分数提升到46.10。
Claims (4)
1.一种音频关键词模板的筛选和优化方法,所述方法包括:
步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;
步骤2)基于步骤1)生成的后验概率,计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;
所述后验概率稳定性分数用于描述模板后验概率在声学状态上分布的稳定程度;首先对模板后验概率序列进行分段,每个分段近似对应一个音素;在每个分段上选取前N个后验概率最高的发音单元,计算后验概率稳定性分数:
上式中,S表示模板分段数,bi和ei分别表示分段i的起点和终点,pj,top(i,n)是第j帧上声学状态top(i,n)的后验概率,top(i,n)表示分段i上后验概率第n大的状态;
所述发音可靠性分数用于描述根据后验概率给出的最优声学单元序列的可靠程度;对模板后验概率序列按照前段所述的方法进行分段,然后列出每个分段上后验概率最高的音素;对属于同一关键词的两个模板,计算其编辑距离:
c(qi,qj)=max(1-aNsub-b(Nins+Ndel))
式中,qi,qj表示属于同一关键词的两个模板,Nsub、Nins和Ndel分别代表替换错误、***错误和删除错误;参数b>a,由此,定义发音可靠性分数为:
所述邻域相似性分数用于描述属于同一关键词的模板之间后验概率序列的相似性;定义为距当前模板最近的K个模板到当前模板的平均距离:
步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;
步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;
步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
2.根据权利要求1所述的音频关键词模板的筛选和优化方法,其特征在于,所述步骤1)的音素集为采用基于国际音标***的通用音素集或采用目标语言的特定音素集。
3.根据权利要求1所述的音频关键词模板的筛选和优化方法,其特征在于,所述步骤1)的特征提取中所涉及的特征为语音识别特征;所述语音识别特征为梅尔频率倒谱系数或感知线性预测。
4.根据权利要求1所述的音频关键词模板的筛选和优化方法,其特征在于,所述步骤5)具体包括:
步骤501)选取一条代表性发音模板为当前模板q;设置迭代次数初始值N=0;
步骤502)计算当前模板q和所有音频关键词模板的动态时间规整距离,选取距离最小的K个模板,组成集合QN;
步骤503)利用步骤502)选取的K个模板计算当前模板q的邻域相似性分数;设置初始学习率λ=λ0;
步骤504)对当前模板q的第i帧的声学单元j,对这一帧的后验概率做变换:
步骤505)利用步骤502)选取的K个模板计算所有候选模板qij的LS分数,选出LS分数最小的一个候选模板为qbest;如果当前模板q的LS分数与qbest的分数的差的绝对值超过了预设的阈值∈,用qbest替换当前模板q,转到步骤504);否则,学习率λ减半,转到步骤506);
步骤506)判断学习率λ是否大于预设的阈值λT,如果判断结果是肯定的,转到步骤504);否则,进入步骤507);
步骤507)判断N是否小于最大迭代次数N0,如果判断结果是肯定的,转到步骤508);否则,转到步骤509);
步骤508)判断集合QN和集合QN-1是否相同,如果判断结果是肯定的,转到步骤509);否则,令N=N+1,转入步骤502);
步骤509)保存当前模板q;转入步骤501),直至所有的代表性发音模板处理完毕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510882805.8A CN106847259B (zh) | 2015-12-03 | 2015-12-03 | 一种音频关键词模板的筛选和优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510882805.8A CN106847259B (zh) | 2015-12-03 | 2015-12-03 | 一种音频关键词模板的筛选和优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106847259A CN106847259A (zh) | 2017-06-13 |
CN106847259B true CN106847259B (zh) | 2020-04-03 |
Family
ID=59150266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510882805.8A Active CN106847259B (zh) | 2015-12-03 | 2015-12-03 | 一种音频关键词模板的筛选和优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106847259B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665705B (zh) * | 2017-09-20 | 2020-04-21 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN109964270B (zh) * | 2017-10-24 | 2020-09-25 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的***和方法 |
CN108877768B (zh) * | 2018-05-21 | 2020-12-11 | 广东省电信规划设计院有限公司 | 座机提示音识别方法、装置及计算机设备 |
CN110610707B (zh) * | 2019-09-20 | 2022-04-22 | 科大讯飞股份有限公司 | 语音关键词识别方法、装置、电子设备和存储介质 |
CN112259101B (zh) * | 2020-10-19 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 语音关键词识别方法、装置、计算机设备和存储介质 |
CN112992125B (zh) * | 2021-04-20 | 2021-08-03 | 北京沃丰时代数据科技有限公司 | 一种语音识别方法、装置、电子设备、可读存储介质 |
CN113506584B (zh) * | 2021-07-06 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法以及设备 |
CN114420101B (zh) * | 2022-03-31 | 2022-05-27 | 成都启英泰伦科技有限公司 | 一种未知语言端侧命令词小数据学习识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154379A (zh) * | 2006-09-27 | 2008-04-02 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别*** |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129606B2 (en) * | 2011-09-23 | 2015-09-08 | Microsoft Technology Licensing, Llc | User query history expansion for improving language model adaptation |
-
2015
- 2015-12-03 CN CN201510882805.8A patent/CN106847259B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154379A (zh) * | 2006-09-27 | 2008-04-02 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别*** |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
Non-Patent Citations (1)
Title |
---|
QUERY-BY-EXAMPLE KEYWORD SPOTTING USING LONG SHORT-TERM MEMORY NETWORKS;Guoguo Chen 等;《ICASSP 2015》;20150424;5236-5240 * |
Also Published As
Publication number | Publication date |
---|---|
CN106847259A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
CN104681036B (zh) | 一种语言音频的检测***及方法 | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
US8612224B2 (en) | Speech processing system and method | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
US20060287856A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
AU2012388796B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
US20220335925A1 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
CN112509560A (zh) | 一种基于缓存语言模型的语音识别自适应方法和*** | |
Vydana et al. | Improved emotion recognition using GMM-UBMs | |
Këpuska | Wake-up-word speech recognition | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
KR100915638B1 (ko) | 고속 음성 인식 방법 및 시스템 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
US20240153493A1 (en) | Techniques for improved audio processing using combinations of clipping engines and acoustic models | |
JP2001109491A (ja) | 連続音声認識装置および方法 | |
JP2000075885A (ja) | 音声認識装置 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP4689497B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |