CN107305767A

CN107305767A - 一种应用于语种识别的短时语音时长扩展方法

Info

Publication number: CN107305767A
Application number: CN201610236672.1A
Authority: CN
Inventors: 周若华; 袁庆升; 张健; 颜永红; 包秀国
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2017-10-31
Anticipated expiration: 2036-04-15
Also published as: CN107305767B

Abstract

本发明提供了一种应用于语种识别的短时语音时长扩展方法，所述方法包括：对于一条时长较短的待识别语音，首先根据其语音时长确定生成的不同语速语音的数量n；然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移；根据分解帧移和合成帧移生成n个不同语速的语音，将n个不同语速的语音与原语音拼接起来，生成一个时长加长的语音。不同语速的语音的语种信息具有互补性，本发明所提出的方法可以显著提升短时语音的语种识别性能。

Description

一种应用于语种识别的短时语音时长扩展方法

技术领域

本发明涉及计算机语种识别领域，特别涉及一种应用于语种识别的短时语音时长扩展方法。

背景技术

语种识别是指计算机自动判定一段语音所属的语言种类的技术。这是个可使大规模跨语言语音识别应用成为可能的技术，可用于口语语言翻译、口语文件检索等。同时也是智能与安全领域信息提取的研究热点。

待识别语音时长过短，是说话人识别和语种识别等研究领域共同的难题。近年来，对于短时语音的识别有了一些针对性的研究。参考文献[1](A.K.Sarkar,D.Matrouf,P.Bousquet,and J.Bonastre.Study of the effect of i-vector modeling on shortand mismatch utterance duration for speaker verification.In INTERSPEECH 2012,13th Annual Conference of the International Speech Communication Association,Portland,Oregon,USA,September 9-13,2012,pages 2662–2665,2012.)研究了ivector技术在短时情况下的说话人识别，提出了用不同长度的语音来训练多个模型，综合多个模型的得分来提高性能。

参考文献[2](M.Wang,Y.Song,B.Jiang,L.Dai,and I.V.McLoughlin.Exemplarbased language recognition method for short-duration speech segments.In IEEEInternational Conference on Acoustics,Speech and Signal Processing,ICASSP2013,Vancouver,BC,Canada,May 26-31,2013,pages 7354–7358,2013.)中提出首先为短时语音建立一个样本空间，该空间中的样本通过对不同语音长度的ivector聚类得到。在识别阶段，将短时语音与样本空间中的所有样本作比较，再将这些比较的信息，如余弦相似度作为特征送入后端识别。

参考文献[3](S.Cumani,O.Plchot,and R.F′er.Exploiting i-vectorposterior covariances for short-duration language recognition.In Proceedingsof Interspeech 2015,volume 2015,pages 1002–1006.International SpeechCommunication Association,2015.)中应用了说话人中常用的概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)技术来提升ivector在语种识别中的应用。

参考文献[4](A.Lozano-Diez,R.Zazo-Candil,J.Gonzalez-Dominguez,D.T.Toledano, and J. Gonz′alez-Rodr′1guez. An end-to-end approach to languageidentification in short utterances using convolutional neural networks. InINTERSPEECH 2015, 16th Annual Conference of the International SpeechCommunication Association, Dresden,Germany, September 6-10, 2015, pages 403–407, 2015.)中提出使用卷积神经网络(Convolutional Neural Networks，CNN)来建模。

现有的针对短时语音语种识别的研究有两个问题：(1)为了处理短时语音，极大的提高了***的复杂性，增大了资源消耗。(2)对***的修改都是在模型部分，这就导致长时语音也必须经过同样复杂的处理。实际上有些***在偏向处理短时语音的时候，长时语音的识别性能反而会下降。

发明内容

本发明的目的在于克服目前短时语音的语种识别性能差的问题，提出了一种应用于语种识别的短时语音时长扩展方法，该方法利用语音时域伸缩技术来直接扩展待识别语音的时长；对每一条待识别语音，在生成不同语速的多段语音后，将它们与原始的语音拼接起来，组成一条更长的语音。

为了实现上述目的，本发明提供了一种应用于语种识别的短时语音时长扩展方法，所述方法包括：

对于一条时长较短的待识别语音，首先根据其语音时长确定生成的不同语速语音的数量n；然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移；根据分解帧移和合成帧移生成n个不同语速的语音，将n个不同语速的语音与原语音拼接起来，生成一个时长加长的语音。

上述技术方案中，所述方法具体包括：

步骤1)、对于一条待识别语音x，其时长为length(x)，判断length(x)是否小于阈值T，如果判断结果是肯定的，转入步骤2)，否则，不需要对该语音进行处理；

步骤2)、确定生成的不同语速语音的数量n；n根据输入语音的时长确定：

步骤3)、将合成帧移固定为S_s，根据语速变化率α，计算n个分解帧移S_a的值：

步骤4)、将待识别语音按照n个分解帧移生成不同语速的n个语音：x₁，x₂，…，x_n；

步骤5)、将待识别语音和生成的n个语音进行拼接，拼接后的语音y为：

y＝[x x₁…x_n]。

上述技术方案中，所述步骤3)中计算n个分解帧移S_a的值：的过程为：

语速变化率α定义为：

第i个分解帧移S_a的计算如下：

上述技术方案中，在所述步骤4)中将待识别语音生成一个不同语速语音的过程具体包括：

以帧长L、分解帧移S_a加窗分帧对待识别语音进行分解；并利用短时傅里叶变换，将每帧信号变换到频域；然后再以帧长L、合成帧移S_s将时频域信号用叠接相加的方法反变换回时域，得到一个不同语速的语音。

本发明的优点在于：

1、本发明的方法将语音变化成不同语速的语音，由于语速的差异而与原语音不同，但都属于同一语种；因此它们所含的语种信息具有互补性；在语速变换适量的情况下，语音听起来仍是自然的，意味着训练集中也有同样语速的语音，从而不会产生测试集与训练集的失配问题；

2、本发明的方法通过将不同语速的语音拼接可以减轻说话人的影响；一个理想的语种识别特征应当能够去除说话人信息、信道相关信息和背景噪声的干扰，只提取不同语种间的差异，但目前这些都还无法避免；由于不同人说话时候的语速有差异，因此将不同语速的语音拼接会获得不同人的信息，综合起来可以一定程度的减弱说话人的干扰；

3、本发明的的方法只处理待识别语音，并不修改训练集中的语音，因此模型也不需要改动；而且，本发明的方法在语音时长过短，例如少于10秒的情况下，才应用本发明的方法，保证了***几乎不会增加更多的负担，这对实用的声学层***非常重要。

附图说明

图1是本发明的应用于语种识别的短时语音时长扩展方法的流程图；

图2是本发明的生成不同语速语音的示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，一种应用于语种识别的短时语音时长扩展方法，所述方法包括：

步骤1)对于一条待识别语音x，其时长为length(x)，判断length(x)是否小于阈值T，如果判断结果是肯定的，转入步骤2)，否则，不需要对该语音进行处理；

从n的计算公式可以看出，输入语音时长越短，所需要生成的语音数就越多。

步骤3)、将合成帧移固定为S_s，根据语速变化率，选取n个分解帧移S_a的值：

语速变化率α定义为：

通过实验验证，优选的，α取值范围为0.7～1.3，则第i个分解帧移S_a的计算如下：

特别的，如果α为1，则生成语音的语速与原语音相同，这个语音不需要生成。

步骤4)、将待识别语音按照n个分解帧移S_a生成不同语速的n个语音：x₁，x₂，…，x_n；

如图2所示，待识别语音生成一个不同语速语音的过程具体包括：

其中，帧移在分解和合成的时候是不相等的；合成时候的帧移S_s固定；如果分解帧移S_a小于合成帧移S_s，则合成后的语音语速比原语音慢，语音时长也比原语音长；如果分解帧移S_a大于合成时候的帧移S_s，则合成后的语音语速比原语音快，语音时长也比原来短。经过语音时域伸缩变换后语音x_i的时长与原语音x时长的关系为

步骤5)将待识别语音和生成的n个语音进行拼接，拼接后的语音y为：

y＝[x x₁…x_n]。

当α取值范围为0.7～1.3时，拼接后的语音y的识别效果最佳。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种应用于语种识别的短时语音时长扩展方法，所述方法包括：

2.根据权利要求1所述的应用于语种识别的短时语音时长扩展方法，其特征在于，所述方法具体包括：

y＝[x x₁ ... x_n]。

3.根据权利要求2所述的应用于语种识别的短时语音时长扩展方法，其特征在于，所述步骤3)中计算n个分解帧移S_a的值：的过程为：

语速变化率α定义为：

<mrow> <mi>&alpha;</mi> <mo>=</mo> <mfrac> <msub> <mi>S</mi> <mi>a</mi> </msub> <msub> <mi>S</mi> <mi>s</mi> </msub> </mfrac> </mrow>

第i个分解帧移S_a的计算如下：

<mrow> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0.7</mn> <mo>+</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&times;</mo> <mfrac> <mrow> <mn>1.3</mn> <mo>-</mo> <mn>0.7</mn> </mrow> <mi>n</mi> </mfrac> </mrow>

<mrow> <msubsup> <mi>S</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>S</mi> <mi>s</mi> </msub> <mo>.</mo> </mrow>

4.根据权利要求2或3所述的应用于语种识别的短时语音时长扩展方法，其特征在于，在所述步骤4)中将待识别语音生成一个不同语速语音的过程具体包括：