CN1296887C - 用于嵌入式自动语音识别***的训练方法 - Google Patents

用于嵌入式自动语音识别***的训练方法 Download PDF

Info

Publication number
CN1296887C
CN1296887C CNB2004100667948A CN200410066794A CN1296887C CN 1296887 C CN1296887 C CN 1296887C CN B2004100667948 A CNB2004100667948 A CN B2004100667948A CN 200410066794 A CN200410066794 A CN 200410066794A CN 1296887 C CN1296887 C CN 1296887C
Authority
CN
China
Prior art keywords
training
template
distinctiveness
voice
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100667948A
Other languages
English (en)
Other versions
CN1588538A (zh
Inventor
朱杰
蔡铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNB2004100667948A priority Critical patent/CN1296887C/zh
Publication of CN1588538A publication Critical patent/CN1588538A/zh
Application granted granted Critical
Publication of CN1296887C publication Critical patent/CN1296887C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

一种智能信息处理技术领域的用于嵌入式自动语音识别***的训练方法。(1)改进的多段矢量量化模板训练:利用动态时间规整方法将属于同一类的训练语句在时间上划分为若干语音段,将最相关的语音帧聚合在一段里,根据语音时序特征和各个段的统计特性以及汉语的音节构成,按照待识别命令词所包含的音节数设置模板的分段总数;(2)泛化概率下降区别性训练:结合多段矢量量化语音模板,将泛化概率下降区别性训练算法嵌入到基于动态时间规整方法的识别器中,通过定义训练语句与参考模板之间的距离作为区别函数,对参考模板集基于训练集进行区别性训练,经过多次重复性区别性训练,增加模板间的区分能力,获得更加优化的语音模板。

Description

用于嵌入式自动语音识别***的训练方法
技术领域
本发明涉及的是一种智能信息处理技术领域的语音识别***的训练方法,具体是一种用于嵌入式自动语音识别***的训练方法。
背景技术
语音识别***所采用的语音模型(或模板)需合理反映语音的声学特征,其有效描述语音特征空间的概率分布决定了语音识别的性能。为适于小型化、便携式应用,嵌入式自动语音识别***大都使用专门的硬件***实现,如MCU、DSP和语音识别专用芯片。由于***资源的有限以及识别的实时性、可靠性等要求,每个识别单元的模板所占存储空间必须尽可能小,模板质量要高,同时采用动态时间规整(DTW)识别算法比较合适。
经文献检索发现,L.Zhou等人在《IEICE Trans.on Information and Systems》Vol.E78-D,No.9,pp.1178-1187,Sep.1995.发表的“Multisegment Multiple VQcodebooks-Based Speaker Independent Isolated Word Recognition Using UnbiasedMel Cepstrum”,(《IEICE信息与***期刊》,“采用无偏Mel倒谱实现基于多段多VQ码本的非特定人孤立词识别”)该文采用多段矢量量化(MSVQ)方法训练语音模板,与对整个词进行量化的标准VQ方法相比,MSVQ方法保留了语音的时序特征,对识别非常有利。在训练数据有限的情况下,基于MSVQ的汉语孤立词识别***的性能要优于基于CDHMM的识别***。MSVQ模板生成方法可概述为两个步骤,先将属于同一类的训练语句在时间上分成几段,然后每段中用LBG方法生成一个标准VQ码本。但是,MSVQ的分段方法是按时间先后顺序将语句均匀分段,这种均匀分段没能充分的考虑语音不同段的统计特性,必将会影响模板的性能,限制识别率的进一步提高。同时,语音模板通常是取一个典型语句或是对该词的所有训练数据聚类得到的。训练方法一般基于最大相似度估计(MLE),其目标是使训练样本与模板的相似度最大。这种训练方法存在着一定的局限性:由于每个参考模板都由该词自己的训练语句产生,没有对不同词发音中可能的相似部分加以区分,这样在识别比较时,发音中与其它词发音相区别的关键部分没能得到足够的重视,难以到达高识别率的要求。特别是存在发音相混淆的词时,识别率会大大下降。为提高模板的区分能力,实现高识别率,还必须进一步提高模板的性能。
发明内容
本发明针对现有技术的上述不足,提出一种用于嵌入式自动语音识别***的训练方法,使其应用改进的多段矢量量化(MSVQ)方法,并针对***所采用的DTW识别方法,提出了适用于MSVQ语音模板及DTW算法的泛化概率下降(GPD)区别性训练方法,以进一步提高模板的性能。
本发明是通过以下技术方案实现的,本发明包括改进的MSVQ模板训练和泛化概率下降(GPD)区别性训练两个部分:
(1)改进的MSVQ模板训练:采用动态规划的思想,利用DTW方法将属于同一类的训练语句在时间上合理划分为若干语音段,将最相关的语音帧聚合在一段里,充分考虑到语音的时序特征和不同段的统计特性。并考虑汉语的音节构成,按照待识别命令词所包含的音节数设置模板的分段总数。
(2)泛化概率下降(GPD)区别性训练:结合MSVQ语音模板,将GPD区别性训练算法嵌入到基于DTW方法的识别器中。通过定义训练语句与参考模板之间的距离作为区别函数,对参考模板集(MSVQ模板)基于训练集进行区别性训练,使得识别错误率达到最小。经过多次重复性区别性训练,增加模板间的区分能力,获得更加优化的语音模板。
为弥补多段矢量量化(MSVQ)方法没有考虑到语音不同段统计特性的不足,本发明采用最小失真判据和动态规划技术获得不定长的语音分段,提高MSVQ方法中语音分段的合理性,将最相关的那些帧聚合在一段里训练成模板。此外,由于分段总数与该词包含的音节数有关,而汉语中每个音节通常由3到4个音素构成,因此将每个音节分成4段,每个音素对应模板中的一段。这样,由改进后的MSVQ方法训练得到的模板不但包含了训练集中所有说话人的语音特征,而且保留了语音的时序特征,因此代表性强,识别率较高。同时模板体积小,适于资源非常有限的嵌入式识别***。
为提高模板的区分能力,本发明采用区别性训练进一步优化MSVQ方法得到的语音模板,从最小误识率(MCE)的角度出发,主要考虑模板的区分能力使得识别错误最小,而不是尽可能精确的描述训练数据的不同。通过结合MSVQ模板,将泛化概率下降(GPD)区别性训练算法嵌入到基于DTW识别方法的识别器中,得到更加优化的MSVQ语音模板。
对于嵌入式自动语音识别***,本发明提出了一套完整的语音模板训练方法。用此方法训练得到的模板,体积小、区别性强、性能高,是保证嵌入式自动语音识别***实时识别和高识别率的关键。
附图说明
图1区别性训练示意图
图2多次区别性训练实验结果
具体实施方式
为更好地理解本发明的技术方案,以下结合附图和具体的实施例作进一步的说明。
本发明首先采用改进的MSVQ方法训练得到基本模板,它包括两个步骤:先依据动态规划的思想,将属于同一类的训练语句用DTW算法在时间上分成几段,使最相关的那些帧聚合在一起,分段总数根据该词包含的音节数确定;然后每段中用LBG方法生成一个标准VQ码本。再在MSVQ模板的基础之上,又通过泛化概率下降(GPD)区别性训练算法对进行模板优化,从最小化误识率(MCE)的角度增加模板的区别能力,使得***的识别率获得更大的提高。
实施例
1、改进的MSVQ模板
设帧长为T语音信号通常由一个特征矢量序列来表示:X={x1,x2,…,xT}。为将最相关的那些帧聚合在一段里,分段方法基于最小失真判据。另外分段总数Ns与该词包含的音节数有关,汉语中每个音节通常由3到4个音素构成(这里将每个音节分成3段,每个音素对应一段)。首先定义边界为tl和tl+1-1的第l段的段内失真Dl为:
D l = Σ t = t l t l + 1 - 1 d ( x t , c l )
其中,cl为该段的质心,d(.,.)为失真测度。取该段所有矢量的均值为质心。失真Dl反映了第l段中特征矢量的变化程度。然后,对于L个连续不重叠的段,总失真D为:
D = Σ l = 1 L D l = Σ l = 1 L Σ t = t l t l + 1 - 1 d ( x t , c l ) , t 1 = 1 , t L + 1 = T + 1 ,
通过改变分段边界tl从而使D最小。依据动态规划的思想,采用用DTW算法可以有效地解决这个优化问题:首先取一个典型语句,将它均分为若干段,相同段的语音帧聚合在一起,最终形成一个典型模板;然后将此模板与其它同类训练语句作DTW匹配,这样各训练语句将按照DTW过程的最优路径划分为相同的段数,各段对应的帧数将是不同的,但相同段的语音帧将具有相似的统计特性和语音特征。
取得合理的分段信息以后,将每一段分别设计为一个VQ码本,采用LBG算法得到。为了减小模板的体积,将每段的VQ码本的大小设为1,即取该段所有矢量的均值(质心)作为该段码本,这样就得到了一个体积小、性能高的语音模板。
2.区别性训练算法在基于MSVQ的DTW识别***中的实现
为增加模板的区分能力,必须对发音中与其它词发音相区别的关键部分加以足够重视,区别性训练方法能够满足这一要求。泛化概率下降(GPD)区别性训练算法是一种很有效的方法,可以很好用来最小化误识率。下面结合MSVQ模板,将GPD区别性训练算法嵌入到基于DTW识别方法的识别器中,得到更优化的MSVQ模板。
给定一个训练语句集={x1,x2,…,xN},其中xi属于M个词Ci,i=1,2,…,M中的一个。 x i = { x p , s i , p = 1,2 , · · · , P i , s = 1,2 , · · · , S } 是由Pi个帧组成,每帧为S维语音特征矢量,通常由倒谱系数组成。每个词由一个参考模板代表。参考模板集Λ={λi={(Ri,Wi)},i=1,2,…,M}其中 R i = { r q , s i , q = 1,2 , · · · , Q i , s = 1,2 , · · · , S } 是倒谱系数序列, W i = { w q i ,q=1,2, · · · , Q i } 是区别权重函数用来修正模板的距离分值。依据GPD算法,对参考模板集Λ基于训练集进行区别性训练,使得识别错误率达到最小。区别性训练的流程如图1所示。
1)定义训练语句x与词Cj的参考模板rj之间的距离做为区别函数:
g j ( x , Λ ) = Σ q = 1 Q w q j δ p q j
其中wq j是词Cj的参考模板的区别权重。δpq j是经DTW匹配后得到的最佳路径中,词Cj的参考模板的第q个帧和x中相对应的pq帧之间的距离。这里采用欧式距离:
δ p q j = Σ s = 1 S ( r q , s j - x p q , s ) 2
通过以上的定义可以得到一个连续的可对其进行梯度操作的区别函数gk(x;Λ)。
2)定义误分类测度,将识别结果嵌入其中
d k ( x ) = g k ( x ; Λ ) - ln { 1 M - 1 Σ j , j ≠ k e - g j ( x ; Λ ) η } - 1 / η
其中η是一个正实数。
3)成本函数如下定义:
l k ( d k ) = 1 1 + e - d k
它可以正确地近似于识别错误率。
4)用GPD算法自适应地调整参考模板参数,从而使成本函数达到最小。给定一个属于词Ck的训练语句x,参考模板参数的调整规则如下:
j=k时, r q , s , t + 1 k = r q , s , t k - ϵ t v k φ k w q , t + 1 k = w q , t k - ϵ t v k δ p q k
j≠k时, r q , s , t + 1 j = r q , s , t j + ϵ t v k π j , k φ j w q , t + 1 j = w q , t j - ϵ t v k π j , k δ p q j
其中
vk=lk(dk)(1-lk(dk))
φ k = 2 w q k ( r q , s k - x p q , s )
π j , k = e - g j η Σ j ′ , j ′ ≠ k e - g j ′ η
ϵ t = ϵ 0 ( 1 - t T )
t表示第t次迭代,T是最大迭代次数,ε0是一个较小的正数。一般经过几十次迭代就可得到收敛值。
经过区别性训练后的参考模板优于训练前的模板,但并不是最优的结果,这是由于初始参考模板和算法中的一些参数设置并不是最优等因素造成的。对训练后参考模板再进行一次乃至多次区别性训练,可以得到更为优化的模板。
本发明基于嵌入式自动语音识别***的训练方法与传统的训练方法进行了比较,以***的识别率作为性能的评价指标,实验结果见表1。从表1中识别率的明显提高可以发现,本发明的方法具有较高的性能。
                表1区别性训练的实验结果
  测试集识别率   训练集识别率   模板大小
  区别性训练前   91.0   86.1   44KB
  区别性训练后   92.5   94.3   44KB
  误识率下降   16.7%   58.9%
以上实验的语音库包括50个命令词,共有12人的录音数据,全为男性,按普通话发音,语速均为正常语速,每人每个词念2遍。其中包含很多容易被混淆的词,如“升温”“降温”,“左转”“右转”。录音环境为实验室环境,采样频率为8kHz,语音经特征提取后作为实验数据。其中10人的录音数据作为训练集,另外2人的录音数据作为测试集。实验中对训练集也做了识别率测试。前端处理包括端点检测、预加重1-0.95z-1、30ms哈明窗、10ms帧移,特征矢量由8维LPC倒谱系数组成。参考模板采用MSVQ模板,分段数为12。
对MSVQ模板进行重复性区别性训练,实验结果如图2所示。纵坐标表示重复训练的次数,其中0表示未做区别性训练的模板。从图2中实验结果可以得到如下结论:经过区别性训练后,模板得到优化,***识别率均有明显提高。通过多次进行区别性训练,模板得到进一步优化,识别率进一步得到提高。5次区别性训练后,对训练集的识别率达到99.4%,测试集达到94.5%。多次进行区别性训练对训练集的识别率提高尤为明显。

Claims (2)

1、一种用于嵌入式自动语音识别***的训练方法,其特征在于,包括改进的多段矢量量化模板训练和泛化概率下降区别性训练两个部分:
(1)改进的多段矢量量化模板训练:利用动态时间规整方法将属于同一类的训练语句在时间上划分为若干语音段,将最相关的语音帧聚合在一段里,根据语音的时序特征和各个段的统计特性以及汉语的音节构成,按照待识别命令词所包含的音节数设置模板的分段总数;
(2)泛化概率下降区别性训练:结合多段矢量量化语音模板,将泛化概率下降区别性训练算法嵌入到基于动态时间规整方法的识别器中,通过定义训练语句与参考模板之间的距离作为区别函数,对参考模板集基于训练集进行区别性训练,使得识别错误率达到最小,经过多次重复性区别性训练,增加模板间的区分能力,获得更加优化的语音模板。
2、根据权利要求1所述的用于嵌入式自动语音识别***的训练方法,其特征是,采用最小失真判据和动态规划技术获得不定长的语音分段,提高多段矢量量化方法中语音分段的合理性,将最相关的那些帧聚合在一段里训练成模板,由于模板分段总数与该词包含的音节数有关,而汉语中每个音节通常由3到4个音素构成,因此将每个音节按照其所包含的音素个数进行分段,每个音素对应模板中的一段。
CNB2004100667948A 2004-09-29 2004-09-29 用于嵌入式自动语音识别***的训练方法 Expired - Fee Related CN1296887C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100667948A CN1296887C (zh) 2004-09-29 2004-09-29 用于嵌入式自动语音识别***的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100667948A CN1296887C (zh) 2004-09-29 2004-09-29 用于嵌入式自动语音识别***的训练方法

Publications (2)

Publication Number Publication Date
CN1588538A CN1588538A (zh) 2005-03-02
CN1296887C true CN1296887C (zh) 2007-01-24

Family

ID=34604096

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100667948A Expired - Fee Related CN1296887C (zh) 2004-09-29 2004-09-29 用于嵌入式自动语音识别***的训练方法

Country Status (1)

Country Link
CN (1) CN1296887C (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762148B2 (en) 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
CN1835076B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法
CN101577118B (zh) * 2009-06-12 2011-05-04 北京大学 面向智能服务机器人的语音交互***的实现方法
CN103236261B (zh) * 2013-04-02 2015-09-16 四川长虹电器股份有限公司 一种特定人语音识别的方法
CN104751856B (zh) * 2013-12-31 2017-12-22 ***通信集团公司 一种语音语句识别方法及装置
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN110060667B (zh) * 2019-03-15 2023-05-30 平安科技(深圳)有限公司 语音信息的批量处理方法、装置、计算机设备及存储介质
CN112863523B (zh) * 2019-11-27 2023-05-16 华为技术有限公司 语音防伪方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
CN1223739A (zh) * 1996-06-28 1999-07-21 微软公司 用于语音识别的动态调节的训练方法和***
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
CN1391211A (zh) * 2001-04-20 2003-01-15 皇家菲利浦电子有限公司 对识别***中的参数进行训练的方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
CN1223739A (zh) * 1996-06-28 1999-07-21 微软公司 用于语音识别的动态调节的训练方法和***
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
CN1391211A (zh) * 2001-04-20 2003-01-15 皇家菲利浦电子有限公司 对识别***中的参数进行训练的方法和***

Also Published As

Publication number Publication date
CN1588538A (zh) 2005-03-02

Similar Documents

Publication Publication Date Title
Bai et al. Speaker recognition based on deep learning: An overview
US6219642B1 (en) Quantization using frequency and mean compensated frequency input data for robust speech recognition
CN102063899B (zh) 一种非平行文本条件下的语音转换方法
US20040260550A1 (en) Audio processing system and method for classifying speakers in audio data
CN104008751A (zh) 一种基于bp神经网络的说话人识别方法
Todkar et al. Speaker recognition techniques: A review
Jung et al. A unified deep learning framework for short-duration speaker verification in adverse environments
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
CN1296887C (zh) 用于嵌入式自动语音识别***的训练方法
Jung et al. Linear-scale filterbank for deep neural network-based voice activity detection
CN1300763C (zh) 嵌入式语音识别***的自动语音识别处理方法
Nakamura et al. Speaker adaptation applied to HMM and neural networks
Górriz et al. An effective cluster-based model for robust speech detection and speech recognition in noisy environments
Bai et al. Voice activity detection based on time-delay neural networks
Aibinu et al. Evaluating the effect of voice activity detection in isolated Yoruba word recognition system
Mezghani et al. Multifeature speech/music discrimination based on mid-term level statistics and supervised classifiers
Gutman et al. Speaker verification using phoneme-adapted gaussian mixture models
Velayatipour et al. A review on speech-music discrimination methods
Zeinali et al. A fast speaker identification method using nearest neighbor distance
Zhou et al. Audio-Visual Information Fusion Using Cross-Modal Teacher-Student Learning for Voice Activity Detection in Realistic Environments.
Beritelli et al. Adaptive V/UV speech detection based on acoustic noise estimation and classification
Bie et al. DNN-based voice activity detection for speaker recognition
Mingliang et al. Chinese dialect identification using clustered support vector machine
Ma et al. An improved VQ based algorithm for recognizing speaker-independent isolated words
Morris et al. GMM based clustering and speaker separability in the Timit speech database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070124

Termination date: 20091029