CN107305767A - 一种应用于语种识别的短时语音时长扩展方法 - Google Patents

一种应用于语种识别的短时语音时长扩展方法 Download PDF

Info

Publication number
CN107305767A
CN107305767A CN201610236672.1A CN201610236672A CN107305767A CN 107305767 A CN107305767 A CN 107305767A CN 201610236672 A CN201610236672 A CN 201610236672A CN 107305767 A CN107305767 A CN 107305767A
Authority
CN
China
Prior art keywords
voice
mrow
msub
different word
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610236672.1A
Other languages
English (en)
Other versions
CN107305767B (zh
Inventor
周若华
袁庆升
张健
颜永红
包秀国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201610236672.1A priority Critical patent/CN107305767B/zh
Publication of CN107305767A publication Critical patent/CN107305767A/zh
Application granted granted Critical
Publication of CN107305767B publication Critical patent/CN107305767B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种应用于语种识别的短时语音时长扩展方法,所述方法包括:对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。不同语速的语音的语种信息具有互补性,本发明所提出的方法可以显著提升短时语音的语种识别性能。

Description

一种应用于语种识别的短时语音时长扩展方法
技术领域
本发明涉及计算机语种识别领域,特别涉及一种应用于语种识别的短时语音时长扩展方法。
背景技术
语种识别是指计算机自动判定一段语音所属的语言种类的技术。这是个可使大规模跨语言语音识别应用成为可能的技术,可用于口语语言翻译、口语文件检索等。同时也是智能与安全领域信息提取的研究热点。
待识别语音时长过短,是说话人识别和语种识别等研究领域共同的难题。近年来,对于短时语音的识别有了一些针对性的研究。参考文献[1](A.K.Sarkar,D.Matrouf,P.Bousquet,and J.Bonastre.Study of the effect of i-vector modeling on shortand mismatch utterance duration for speaker verification.In INTERSPEECH 2012,13th Annual Conference of the International Speech Communication Association,Portland,Oregon,USA,September 9-13,2012,pages 2662–2665,2012.)研究了ivector技术在短时情况下的说话人识别,提出了用不同长度的语音来训练多个模型,综合多个模型的得分来提高性能。
参考文献[2](M.Wang,Y.Song,B.Jiang,L.Dai,and I.V.McLoughlin.Exemplarbased language recognition method for short-duration speech segments.In IEEEInternational Conference on Acoustics,Speech and Signal Processing,ICASSP2013,Vancouver,BC,Canada,May 26-31,2013,pages 7354–7358,2013.)中提出首先为短时语音建立一个样本空间,该空间中的样本通过对不同语音长度的ivector聚类得到。在识别阶段,将短时语音与样本空间中的所有样本作比较,再将这些比较的信息,如余弦相似度作为特征送入后端识别。
参考文献[3](S.Cumani,O.Plchot,and R.F′er.Exploiting i-vectorposterior covariances for short-duration language recognition.In Proceedingsof Interspeech 2015,volume 2015,pages 1002–1006.International SpeechCommunication Association,2015.)中应用了说话人中常用的概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)技术来提升ivector在语种识别中的应用。
参考文献[4](A.Lozano-Diez,R.Zazo-Candil,J.Gonzalez-Dominguez,D.T.Toledano, and J. Gonz′alez-Rodr′1guez. An end-to-end approach to languageidentification in short utterances using convolutional neural networks. InINTERSPEECH 2015, 16th Annual Conference of the International SpeechCommunication Association, Dresden,Germany, September 6-10, 2015, pages 403–407, 2015.)中提出使用卷积神经网络(Convolutional Neural Networks,CNN)来建模。
现有的针对短时语音语种识别的研究有两个问题:(1)为了处理短时语音,极大的提高了***的复杂性,增大了资源消耗。(2)对***的修改都是在模型部分,这就导致长时语音也必须经过同样复杂的处理。实际上有些***在偏向处理短时语音的时候,长时语音的识别性能反而会下降。
发明内容
本发明的目的在于克服目前短时语音的语种识别性能差的问题,提出了一种应用于语种识别的短时语音时长扩展方法,该方法利用语音时域伸缩技术来直接扩展待识别语音的时长;对每一条待识别语音,在生成不同语速的多段语音后,将它们与原始的语音拼接起来,组成一条更长的语音。
为了实现上述目的,本发明提供了一种应用于语种识别的短时语音时长扩展方法,所述方法包括:
对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。
上述技术方案中,所述方法具体包括:
步骤1)、对于一条待识别语音x,其时长为length(x),判断length(x)是否小于阈值T,如果判断结果是肯定的,转入步骤2),否则,不需要对该语音进行处理;
步骤2)、确定生成的不同语速语音的数量n;n根据输入语音的时长确定:
步骤3)、将合成帧移固定为Ss,根据语速变化率α,计算n个分解帧移Sa的值:
步骤4)、将待识别语音按照n个分解帧移生成不同语速的n个语音:x1,x2,…,xn
步骤5)、将待识别语音和生成的n个语音进行拼接,拼接后的语音y为:
y=[x x1…xn]。
上述技术方案中,所述步骤3)中计算n个分解帧移Sa的值:的过程为:
语速变化率α定义为:
第i个分解帧移Sa的计算如下:
上述技术方案中,在所述步骤4)中将待识别语音生成一个不同语速语音的过程具体包括:
以帧长L、分解帧移Sa加窗分帧对待识别语音进行分解;并利用短时傅里叶变换,将每帧信号变换到频域;然后再以帧长L、合成帧移Ss将时频域信号用叠接相加的方法反变换回时域,得到一个不同语速的语音。
本发明的优点在于:
1、本发明的方法将语音变化成不同语速的语音,由于语速的差异而与原语音不同,但都属于同一语种;因此它们所含的语种信息具有互补性;在语速变换适量的情况下,语音听起来仍是自然的,意味着训练集中也有同样语速的语音,从而不会产生测试集与训练集的失配问题;
2、本发明的方法通过将不同语速的语音拼接可以减轻说话人的影响;一个理想的语种识别特征应当能够去除说话人信息、信道相关信息和背景噪声的干扰,只提取不同语种间的差异,但目前这些都还无法避免;由于不同人说话时候的语速有差异,因此将不同语速的语音拼接会获得不同人的信息,综合起来可以一定程度的减弱说话人的干扰;
3、本发明的的方法只处理待识别语音,并不修改训练集中的语音,因此模型也不需要改动;而且,本发明的方法在语音时长过短,例如少于10秒的情况下,才应用本发明的方法,保证了***几乎不会增加更多的负担,这对实用的声学层***非常重要。
附图说明
图1是本发明的应用于语种识别的短时语音时长扩展方法的流程图;
图2是本发明的生成不同语速语音的示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,一种应用于语种识别的短时语音时长扩展方法,所述方法包括:
步骤1)对于一条待识别语音x,其时长为length(x),判断length(x)是否小于阈值T,如果判断结果是肯定的,转入步骤2),否则,不需要对该语音进行处理;
步骤2)、确定生成的不同语速语音的数量n;n根据输入语音的时长确定:
从n的计算公式可以看出,输入语音时长越短,所需要生成的语音数就越多。
步骤3)、将合成帧移固定为Ss,根据语速变化率,选取n个分解帧移Sa的值:
语速变化率α定义为:
通过实验验证,优选的,α取值范围为0.7~1.3,则第i个分解帧移Sa的计算如下:
特别的,如果α为1,则生成语音的语速与原语音相同,这个语音不需要生成。
步骤4)、将待识别语音按照n个分解帧移Sa生成不同语速的n个语音:x1,x2,…,xn
如图2所示,待识别语音生成一个不同语速语音的过程具体包括:
以帧长L、分解帧移Sa加窗分帧对待识别语音进行分解;并利用短时傅里叶变换,将每帧信号变换到频域;然后再以帧长L、合成帧移Ss将时频域信号用叠接相加的方法反变换回时域,得到一个不同语速的语音。
其中,帧移在分解和合成的时候是不相等的;合成时候的帧移Ss固定;如果分解帧移Sa小于合成帧移Ss,则合成后的语音语速比原语音慢,语音时长也比原语音长;如果分解帧移Sa大于合成时候的帧移Ss,则合成后的语音语速比原语音快,语音时长也比原来短。经过语音时域伸缩变换后语音xi的时长与原语音x时长的关系为
步骤5)将待识别语音和生成的n个语音进行拼接,拼接后的语音y为:
y=[x x1…xn]。
当α取值范围为0.7~1.3时,拼接后的语音y的识别效果最佳。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种应用于语种识别的短时语音时长扩展方法,所述方法包括:
对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。
2.根据权利要求1所述的应用于语种识别的短时语音时长扩展方法,其特征在于,所述方法具体包括:
步骤1)、对于一条待识别语音x,其时长为length(x),判断length(x)是否小于阈值T,如果判断结果是肯定的,转入步骤2),否则,不需要对该语音进行处理;
步骤2)、确定生成的不同语速语音的数量n;n根据输入语音的时长确定:
<mrow> <mi>n</mi> <mo>=</mo> <mfrac> <mi>T</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>
步骤3)、将合成帧移固定为Ss,根据语速变化率α,计算n个分解帧移Sa的值:
步骤4)、将待识别语音按照n个分解帧移生成不同语速的n个语音:x1,x2,…,xn
步骤5)、将待识别语音和生成的n个语音进行拼接,拼接后的语音y为:
y=[x x1 ... xn]。
3.根据权利要求2所述的应用于语种识别的短时语音时长扩展方法,其特征在于,所述步骤3)中计算n个分解帧移Sa的值:的过程为:
语速变化率α定义为:
<mrow> <mi>&amp;alpha;</mi> <mo>=</mo> <mfrac> <msub> <mi>S</mi> <mi>a</mi> </msub> <msub> <mi>S</mi> <mi>s</mi> </msub> </mfrac> </mrow>
第i个分解帧移Sa的计算如下:
<mrow> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0.7</mn> <mo>+</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mfrac> <mrow> <mn>1.3</mn> <mo>-</mo> <mn>0.7</mn> </mrow> <mi>n</mi> </mfrac> </mrow>
<mrow> <msubsup> <mi>S</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>S</mi> <mi>s</mi> </msub> <mo>.</mo> </mrow>
4.根据权利要求2或3所述的应用于语种识别的短时语音时长扩展方法,其特征在于,在所述步骤4)中将待识别语音生成一个不同语速语音的过程具体包括:
以帧长L、分解帧移Sa加窗分帧对待识别语音进行分解;并利用短时傅里叶变换,将每帧信号变换到频域;然后再以帧长L、合成帧移Ss将时频域信号用叠接相加的方法反变换回时域,得到一个不同语速的语音。
CN201610236672.1A 2016-04-15 2016-04-15 一种应用于语种识别的短时语音时长扩展方法 Expired - Fee Related CN107305767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610236672.1A CN107305767B (zh) 2016-04-15 2016-04-15 一种应用于语种识别的短时语音时长扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610236672.1A CN107305767B (zh) 2016-04-15 2016-04-15 一种应用于语种识别的短时语音时长扩展方法

Publications (2)

Publication Number Publication Date
CN107305767A true CN107305767A (zh) 2017-10-31
CN107305767B CN107305767B (zh) 2020-03-17

Family

ID=60151327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610236672.1A Expired - Fee Related CN107305767B (zh) 2016-04-15 2016-04-15 一种应用于语种识别的短时语音时长扩展方法

Country Status (1)

Country Link
CN (1) CN107305767B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109975762A (zh) * 2017-12-28 2019-07-05 中国科学院声学研究所 一种水下声源定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512485A (zh) * 2002-12-31 2004-07-14 北京天朗语音科技有限公司 语速自适应的语音识别***
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CN1750122A (zh) * 2005-11-07 2006-03-22 章森 基于极值点的可伸缩语音压缩恢复技术
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别***及方法
CN101740034A (zh) * 2008-11-04 2010-06-16 刘盛举 一种实现声音变速不变调方法及变速变调***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CN1512485A (zh) * 2002-12-31 2004-07-14 北京天朗语音科技有限公司 语速自适应的语音识别***
CN1750122A (zh) * 2005-11-07 2006-03-22 章森 基于极值点的可伸缩语音压缩恢复技术
CN101740034A (zh) * 2008-11-04 2010-06-16 刘盛举 一种实现声音变速不变调方法及变速变调***
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109975762A (zh) * 2017-12-28 2019-07-05 中国科学院声学研究所 一种水下声源定位方法
CN109975762B (zh) * 2017-12-28 2021-05-18 中国科学院声学研究所 一种水下声源定位方法

Also Published As

Publication number Publication date
CN107305767B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
US11081103B2 (en) Speech recognition method, apparatus, and computer readable storage medium
CN110211565B (zh) 方言识别方法、装置及计算机可读存储介质
CN112767958B (zh) 一种基于零次学习的跨语种音色转换***及方法
Mitra et al. Hybrid convolutional neural networks for articulatory and acoustic information based speech recognition
CN103928023B (zh) 一种语音评分方法及***
McLaren et al. Advances in deep neural network approaches to speaker recognition
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
CN102800316A (zh) 基于神经网络的声纹识别***的最优码本设计方法
Manoharan et al. Analysis of complex non-linear environment exploration in speech recognition by hybrid learning technique
CN103345923A (zh) 一种基于稀疏表示的短语音说话人识别方法
CN105374352A (zh) 一种语音激活方法及***
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译***及其语言识别方法
CN103164403A (zh) 视频索引数据的生成方法和***
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和***
Dua et al. Discriminative training using heterogeneous feature vector for Hindi automatic speech recognition system
Ghai et al. Pitch adaptive MFCC features for improving children’s mismatched ASR
Rabiee et al. Persian accents identification using an adaptive neural network
CN112133292A (zh) 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN117854473A (zh) 基于局部关联信息的零样本语音合成方法
Akila et al. Isolated Tamil word speech recognition system using HTK
CN107305767A (zh) 一种应用于语种识别的短时语音时长扩展方法
Luong et al. Tonal phoneme based model for Vietnamese LVCSR
Barman et al. State of the art review of speech recognition using genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200317